2022年6月26日日曜日

デジタルとデータ

先日のNHKの記事が地理情報属性の方々の共感を呼び拡散されておりました。

NHK 災害列島
34テラバイトのデータと格闘して「全国ハザードマップ」を公開した理由
https://www3.nhk.or.jp/news/special/saigai/select-news/20220621_01.html

わしわしがなんで残業ばっかりしているかっていうと、だいたいここで語られている困難がそのままわしわしの現場にも当てはまるからよ。

わしわしの場合は浸水深のほかに路線情報だとか施設情報だとか、たとえば一地方の中核都市の子育て施設の立地状況を可視化して比較したいとなったら、その地方の人口20万人超の都市をピックアップしてそれぞれの都市の子育て施設を地図上にプロットして徒歩圏域を描出して…となるのだけど、まあだいたい、そもそもの施設位置データの収集が難関よ。

子育て施設として揃えたいデータが「保育園・保育所」「認定こども園」「幼稚園」の3種として、それがまた「認可」や「認可外」や「公立」や「私立」で別々の扱いで、私立幼稚園に関しては各県の私立幼稚園連盟が年度ごとに一覧を作成公開してたりするけど、それ以外はそれぞれの市のHPにそれぞれの区分で掲載されてたりして、オープンデータの取組みが進んでいる自治体ならcsvで公開されていてラッキー!とか座標データ付きで超ラッキー!、とか、でも市によっては一覧じゃなくて「子育てのページ」みたいなのがあって「認可外保育所のページ」→「お住いの区をクリックしてください」→「施設の名前をクリックしてください」でやっと1施設の所在地情報にたどり着くとか、まあそのとてつも絶望する状況な時もあるわけよ。
数年前ならiタウンページから業種でスクレイピングするという方法があったらしいのだけどこれはiタウンページ側で歓迎しない利用法だったのか、まあそうよね、今は出来ない仕様になっている。

そうして、想定した都市すべての「公立認可保育園」「私立認可保育園」「認可外保育所」「公立認定こども園」「私立認定こども園」「公立幼稚園」「私立幼稚園」の名称・所在地、あと規模とか夜間保育の有無とかの属性をリストに整えて、そこからジオコーディング作業に入るとこれまた字町名が変更になっただの異体字だのでマッチしないやつが出てくる、調べて修正する、ほんで最後には全施設のプロット位置を目視でチェックする。ここまできてやっとGISで処理可能な位置情報データになってくれる。あとは、まあ、ルート計算やらバッファ処理やら圏域内集計やら機械のお得意作業になるからオペレーターとして淡々と命令していく。

先のNHKの体験記に戻って、自治体が提供してくれたGISデータがHDDまるごとごっそりコピーしてくれちゃったのでものすごいデータ量になったという例も、データ構成を理解してない担当さんが.shpデータだけ(.shxや.dbfや.prj無しで)くれちゃった例も、ちょっと似たような経験があるな。あるあるなのかな。後者でわしわしが出くわしたのはね、.mxdファイルだけ送られてきたやつ。データソースの参照みて「同じ階層に××っていうファイルがあるはずでむしろそっちがデータ本体ですからそのファイルをください」って伝えてもらって…
まあでもそういうのは仕方ないよね。エクセルくらい一般的なソフトでもないし、たいがいデータセットの仕様説明書もない状態だし。
自治体職員みんながみんな都市工学や類似先行事例研究やデータ分析に長けているわけではないのでプロ集団として建設コンサルが存在してて、都市工学や関連法や豊富な経験と知識をびっちり身につけているコンサル社員でもみんながみんなGIS使いこなせるわけじゃないからわしわしみたいなのがアシスタントとして入り込む隙があるのだ。この世は分業なのだ。

あと数年して、地理総合必修化以降かつデジタルネイティブ世代が社会で活躍するころになったらさ、今のこんなてんやわんやも笑い話かなあ。昭和のころのオフィス失敗談で、FAXはじめて使った部長が「何回やっても紙が向こうに送られないんだよ」って言って何度もFAX送ってた、みたいな。

昔、まだ県大に国文学科とかあったころ、本文考証の先生が研究のデジタル化に猛反対する上の世代の偉い先生方を批判しながら言ってたな、デジタル化で頻出語句抽出や異本間比較が秒でできるようになったらそこから始まる研究があるって。今となっては「何を当たり前のことを?」と思うようなことだけど。この先、あらゆるデータ整備が進んで利活用が簡単になってデータの使い手が増えて、でも人間のやることは無くならない。いつだってそこから始まる研究があるんだもんな。