2007年08月04日

地名不足問題

ご無沙汰です。
忙しかったり疲れてたりで。

一応、cannadic改の方では作業したりあれこれ調べたりとかはしてたんですが、blog 書く元気がなかった。

ところで、掲示板の方で最近、「東尋坊」とか「白川郷」とか「四万十川」とか、「何でそんな『入ってて当然』と思われるような地名が入ってないの?」と言われかねないような登録依頼をいただいてますが、正直言って地名は全然足りてません。

国名とか首都名とか都道府県名、市町村郡名くらいまでは入れてありますが、それより小さい単位の地名とか、あとは山川海岸等含めて観光名所名なんかは全然足りてないと思います。

<追記>
あ、全国の駅名は入れてあったっけ。
あと、温泉名もそこそこ入れた気がする。

理由は色々ありますが、まず地名に限らず、人名や会社名などの固有名詞一般に関わる理由としては

 ・これらの語は Web 上に結構まとまったリソースがあって、その気になれば誰でもある程度は集められるので、自分ではやらずに誰かがやってくれるのを待ち、自分はその間にもっと厄介なところを片付けておいた方が効率がいいだろうと思った
 ・固有名詞は、集め始めると膨大な量になるが、一人のユーザが使うのはそのうちの1%にも満たないだろうと思われるので、取捨選択しないかぎり、リソースの無駄。しかし取捨選択できるようにするのは大変。

というわけで、後回しにしてきました。

でもまぁ、さすがに「東尋坊」やら「白川郷」やら「四万十川」が入ってないのはマズいかな、と思うので、地名もちょっと増やそうかと。

で、都道府県名や市町村郡名は以前、ゆうびんホームページの郵便番号データを使わせて貰ったので、このデータにある、以前は取り込まなかった部分を取り込もうと思いますた。一番安易な考え…。

で、久しぶりに中を見てみましたが、いやいや、さすがお役所仕事ですな。
なんて中途半端なデータ…。だから以前は取り込むの止めたんだった…

例えば、

 26102,"602 ","6020846","キョウトフ","キョウトシカミギョウク","コメヤチョウ","京都府","京都市上京区","米屋町(今出川通寺町東入、今出川通寺町東入下る、今出川通河",0,0,0,0,0,0
 26102,"602 ","6020846","キョウトフ","キョウトシカミギョウク","コメヤチョウ","京都府","京都市上京区","原町西入上る、河原町通今出川下る西入、寺町通今出川下る、寺町通今出川下",0,0,0,0,0,0
 26102,"602 ","6020846","キョウトフ","キョウトシカミギョウク","コメヤチョウ","京都府","京都市上京区","る東入、中筋通今出川下る)",0,0,0,0,0,0

これは、ほんとは内容的には

 26102,"602 ","6020846","キョウトフ","キョウトシカミギョウク","コメヤチョウ","京都府","京都市上京区","米屋町(今出川通寺町東入、今出川通寺町東入下る、今出川通河原町西入上る、河原町通今出川下る西入、寺町通今出川下る、寺町通今出川下る東入、中筋通今出川下る)",0,0,0,0,0,0

という1行のデータなのに。3行に分割されとる…。

元の DB で、1フィールドに入れられる文字数に制限あるからとかそんな理由なんだろうとは思うが、「CSVで公開する意義を分かってますか?」と聞きたくなる。

でも、これはまだ対処のしようがあるからいい(面倒だけど)。
困るのが、「()」内に書かれてる地名の読みがないこと。
京都以外のところはあるみたいなんだけどねぇ。
また、漢字表記の方には「(その他)」とあるのに読みの方には「(ソノタ)」がなかったりするのも 5件くらいある。スクリプトぶん回してると、こういうのはハマるんだよねぇ、しかも後で。

ついでに言わせてもらうと、「()」内にはかなり小さな区域の地名が入ってるわけですが、そういう小さな区域のすべてをカバーしてるわけではない。
上の例で言うと、「今出川通寺町東入」はあるが「今出川通寺町西入」は載ってない。

したがって、このデータからそういう細かい地名をすべて取り出すのはムリ。

ちなみに、このデータをそのまま使ってるっぽい goo の郵便番号検索では「今出川通寺町西入」で検索しても案の定「該当なし」と言われるが、Yahoo! の郵便番号検索は、この辺独自に手を入れてるらしく、ちゃんと出てくる。スゲェ

本家ゆうびんホームページ自身の検索ではどうなってるかというと、一応出てくる。ただし、「ちゃんと」ではない。
※ 京都市は通り名を除いた町名に郵便番号を設定しています。
例:(京都市上京区 今出川通浄福寺西入2丁目 東上善寺町)
ということらしい。

なので、まぁ足りない分は Yahoo! で調べれば、多分すべてをカバーすることができるのではないかと思う(読み仮名もあるし)。
が、さすがにそこまではやってられないので、とりあえず、郵政公社のデータにあるものだけにする。
(どうも上のような中途半端なのは京都の通り名だけっぽい気がしてきた。もしそうなら、郵政公社のデータだけでもほぼすべてカバーできてるのかも)。

とは言え、これだけでも相当しんどい作業…

たとえば、「今出川通寺町東入」は一語として登録するのか、「今出川通」「寺町」「東入」と区切るのか、両方登録するのか?
区切るのはどの辺で区切るのか?「今出川通」「寺町」じゃなくここは「今出川通寺町」とした方がいいのか?両方か?
変換精度のことを考えれば両方登録するに越したことはないが、そうすると辞書サイズがかなり肥大化するのではないか?
とか、相当迷う…。

ちなみに、SKK の辞書(SKK-JISYO.geo)は分割したのと両方登録してあるようでされてなかったり…んん?どっちだ?基本的には分割して登録してあるのかな?
SKK なら分割したのだけあればそれでいい気がするので、両方登録する必要はないかなとは思いますが。

まぁ、とにかく、単漢字はまだショックが残ってるし、今月はこれをやろうかと思ってます。やる前からうんざりしてるけど。

実は、これをサクッと終わらせてそこで次のをリリースしようとか思ってたんですが、明らかにサクッとは終わらないので、こいつは持ち越して、明日あたりに出そうと思います。
posted by vagus at 16:09| 東京 🌁| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック