2012年4月24日火曜日

省庁が発表する統計データで何ができるか(データジャーナリズムの実験)【前編】

データジャーナリズムの実験第2弾です。前回はGoogleにあらかじめ用意されているデータを元に「日本人は起業したがらない」は本当なのか検証してみましたが、今回は省庁が発表する統計データを少しジャーナリスティックに活用してみたいと思います。とは言え私は一介のエンジニア、多少の不慣れはご容赦ください。

さて、各省庁のホームページにはたいてい「統計情報」のメニューが用意されており、そこには各省庁が実施した様々な調査により生み出された無数の統計データが格納されています。ある人はこれを「宝の山」と称したほど。今回はねんきん定期便でお世話になっている厚生労働省ホームページから、ボリュームがさほど大きくなく、かつ比較的新しいデータを探索した結果、3月1日にアップされた「都道府県別にみた死亡の状況 -平成22年都道府県別年齢調整死亡率-」を題材として選択しました。少々ものものしいですが。


「年齢調整死亡率」とはなかなか聞きなれない言葉ですよね。私は初めて目にしました。ということで少し調べてみたのですが、これが実にわかりにくい。結局完全に理解できませんでした。以下、ウィキペディアでの説明です。

年齢調整死亡率 | ウィキペディア
算出する際の基準に標準集団(日本では「昭和60年モデル人口」がよく用いられる)を用いて、人口の年齢構成による影響を排除したもの。すなわち、異なる年齢構成の集団を比較できる有用性を持つ。直接法と間接法があり、直接法は標準集団の年齢別人口と調査対象集団の年齢別死亡率の積を、各年齢についての総和したものを、標準集団の全人口で割って算出する。間接法は標準化死亡比率に標準集団の死亡率を乗じて算出する。なお、年齢調整死亡率は標準集団に何を選ぶかによって算出結果が異なるため、この死亡率が何を表しているかは直感的に理解しにくい。

教えて!GooやAll Aboutには同じような疑問を持った方からの質問が掲載されていました。多くの方が「年齢調整死亡率」の理解に往生しているようです。Yahoo!知恵袋での回答が一番分かり易かったので引用しておきます。集合知は有りがたいですね。

たとえば過疎の村と若者が多いところ二つの死亡率を比較したい時、両者の年齢層が異なる事から単純な比較はできません。それを年齢構成を標準化することによって計算しなおして比較できるようにしたものを年齢調整死亡率といいます。

ようは都道府県別の「住みやすさ(死ににくさ)」を表す指標のようなものらしいのですが、単位が「人」でなく「率」であるにもかかわらず、実際のデータを見ると数百・数千の値となっているため(例えば平成22年の長崎県男性の年齢調整死亡率は「572.8」)、ウィキペディアにもあるように、この値が何を指しているのか、直観的に理解しにくいのです。ちなみに計算式は以下のようになります。


「人数を人数で割って(粗死亡率)人数を掛けた結果(ここまで分子)の総和を人数で割る」という鬼の所業。これだけわかりにくい統計データをマスコミはどのように報じているのだろうとふと思い、調べてみました。

死亡率最高は青森、最低は長野 10年厚労省調査 | 朝日新聞デジタル 
各都道府県で比べた死亡率が2010年に最も高かったのは男女ともに青森県、最も低かったのは長野県だったことが、厚生労働省の調査でわかった。全国の死亡率は、男性が人口10万人当たり544.3人(05年の前回調査は593.2人)、女性は同274.9人(同298.6人)で、ともに下がった。 
この調査では5年ごとに、各県の年齢構成の違いをそろえたうえで人口10万人当たりの死亡数(都道府県別年齢調整死亡率)を算出している。 
男性では青森、秋田、岩手の東北3県が死亡率の上位を占めた。女性は青森、栃木、和歌山の順だった。青森はがん、心臓病、脳卒中の「3大死因」ごとに見ても、軒並み上位となった。厚労省の担当者は「塩辛い食べ物が多いことや、冬場は外で運動しにくいことなどが関係しているのではないか」としている。 

平成22年の死亡率、男女とも前回より減少 | MSN産経ニュース 
平成22年の全死因における全国の死亡率は、5年前に比べ男女とも減少傾向にあり、人口10万人当たり男性は593・2人から544・3人、女性は298・6人から274・9人になったことが1日、厚生労働省が発表した都道府県別年齢調整死亡率で分かった。
年齢調整死亡率は高齢化の影響を計算上取り除いた人口10万人当たりの年間死亡者数。国勢調査にあわせ5年に1度集計している。 
都道府県別では、男女とも長野県が最も低く、男性477・3人、女性248・8人。同県の男性は2年以降、5調査連続で最低だった。一方、青森県の男性は662・4人と12年以降3調査連続で最も高かった。ただ、死亡率は全国的な低下に伴い、地域差は年々小さくなってきている。 
がんや心疾患など代表的な死因はいずれも減少したが、自殺だけは女性でわずかに増加。男性は17年の31・6人から29・8人に低下したが、女性は同10・7人から10・9人に増加した。

非常にあっさりとした内容で少し残念な気がします。国民の税金で作られたせっかくの統計データなのだからもう少し有効活用しても良いのではないか…しかも単位を間違えているし…さらに、年齢調整死亡率は平時であれば、科学や医療の進化により毎年減少するものですので、少し辛口ですが、MSN産経ニュースの記事タイトルは「今年もひとつ歳をとりました」的なものだと言えなくもないのです。

※上述しましたが年齢調整死亡率の計算では「人数を人数で割って人数を掛けた結果の総和を、人数で割っている」ため、分子も分母も単位は「人」となり、私が中学生のころに確立・統計の授業で習ったこと、そして記憶が確かであるならば、単位は「人」には成り得ません。

省庁が発表する統計データを活用する前の準備段階で、既にちょっとジャーナリスティックになってきました。後編では実に分かり難いこの「都道府県別年齢調整死亡率」を、Google Public Data Explorerを利用し、実際に分析してみたいと思います。お楽しみに。