卒論が間に合わない。
下の息子は文系の大学4年生です。卒論に載せるグラフを描くのに手を貸してくれと言われました。普通の親は息子の卒論を手伝わないと思いましたが、まあ理系と違ってグラフが主題ではありませんし、ここで教育にこだわって卒業できなくなるのはもっと困ります。
で、何のグラフを作ればいいの?
犯罪率と体感治安の年次推移を比較したいそうです。元データは警視庁の警察白書と内閣府の世論調査にありました。こんなサイトをしみじみと見るのは初めてです。警察白書のリンクを辿って e-Stat統計で見る日本 に移動します。ここには警視庁だけでなく、各省庁のデータが公開されています。さて、犯罪統計の PDFファイルを見ると複雑な形をしています。例えば「うち)傷害致死」の行は一行上の傷害の内数なので粗暴犯の小計の計算から省く必要があるということを項目名から読み取り、念のために数値を集計して確認する必要があります。
グラフ化する数値をPDFから読むのは大変です。EXCELとCSVファイルも同じ場所に用意されていたのでそちらを使おうと思いましたが、
だめです、ネ申EXCEL、ネ申CSVでした。
ExcelもCSVもPDFに掲載されていた表そのままです。試しにCSVをExcelで読み込んで文字列を緑、数値をシアンに塗りました。数字と文字が混在しています。フォーマットが違う複数の表がすべて一つになっています。データが規則的に並んでいませんし、意味のない空白行や列がそこかしこにあります。さらに毎年報告書のフォーマットが微妙に違っています。まあ、締切間近まで卒論が書けていない息子が悪いのですが、これではグラフ化するのが大変というのも頷けます。もしこれが業務上の継続案件なら自動スクレイピングのルール化は非常に面倒でしょう。
他のオープンデータはどうでしょうか?
とりあえずグラフは一回限りの力技で作りました。その後、興味が湧いたので政府CIOポータルも見てみました。こちらも残念ながら警察白書と似たりよったりのデータが多いようです。ただ、コロナ関連は比較的良さそうですね。使いやすいデータの公開が進めば下記のようなサイトを勝手に作ってくれる人がどんどん出てくると思うのですが。