2007年01月03日

始動(追記)

あけま(ry

正月といってもそれほどすることがある訳じゃないし、ずっと盆暮れ正月関係ない生活を送ってたんで、1日だけ休んで昨日からまた作業を始めてました。

先日「アップデートした方がいい」とか書きましたがその理由をば簡単に。

簡単に言えば、

 ・一般に使用頻度の高いと思われる語や表記を結構追加した
 ・誤登録を結構修正した

ということです。

前者に関しては、UTUMI さんの辞書と ICOT 形態素辞書のお陰が大です。感謝。
「こんな語がまだ…」ってのがまだまだあることを思い知らされました。
多分、トータルのエントリ数で 30万は越えないと「一応使える辞書」とは呼べないだろうなと思ってます。あと 8万か。まだ 2年くらいかかるかなぁ

で、
後者に関してですが、作業中に気づいたものを修正したのもありますが、それ以外に、カタカナを含む候補を機械的にチェックする方法を思いついたので、それをやってみたところが、誤登録が結構な数出てきたんでそれを修正しました。

単なる typo もあったんですが、それ以外にもワナとしかいいようがないのが結構…
以前にも「虎の穴」で Ikumi さんに「カタカナの『ニ』の部分が数字の『二』になってる」というご指摘を受けたことがありますが、カタカナって奴は色々紛らわしくて困るわけです。
例えば、他には

 ・カタカナの「ハ」と数字の「八」(はち)
 ・カタカナの「カ」と漢字の「力」(ちから)
 ・カタカナの「エ」と漢字の「工」(こう)
 ・カタカナの「ト」と漢字の「卜」(ぼく)
 ・カタカナの「タ」と漢字の「夕」(ゆう)
 ・カタカナの「ロ」と漢字の「口」(くち)
 ・カタカナの「リ」とひらがなの「り」
 ・長音記号の「ー」と罫線の「─」やマイナス記号の「-」

並べて書けばかなり違うのもありますが、それでもフォントによっては紛らわしかったりします。まして単独で見せられてそれがカタカナかどうか言える人なんてフォント作者くらいしかいないんじゃなかろうか。
例えば「力エル」とだけ書かれてそれが実は「ちからエル」だったなんてすぐに分かります?
「でも、そんな風に登録されることなんてないでしょ」と思うかもしれませんが、世界には常識では理解できないことがいっぱいあるんです。中には長音記号が数字の「一」(いち)になってるなんてもんもありました。どうやって入力したんだよ…

実はいくつかのパターンは以前スクリプトでチェックかけてかなり潰してたんですが、それではまだ漏れがあったことに今回気づいた訳です。

で、
今回の極めつけがこれ、

 カタカナの「ヘベペ」とひらがなの「へべぺ」

です。
つーか、見分けつくかこんなもん… orz
ひらがなとカタカナを並べてフォントサイズデカくしてようやく微妙な違いに気づくことができる程度です。もちろんフォントにもよりますが。でも、やはりかなり注意して見ないと気づくのは無理です。IPA フォントなんて全く一緒なんじゃないだろうか…

そしてこの罠に見事に嵌まった誤登録が結構ありました。
全部地名と人名だったと思いますが、しかも多分自分が登録したものでした。
何でこんなことが起こったか思い出してみると、これらは多分 web のサイトからコピペしてきたのをもとに登録したエントリで、元々のサイトがそもそも間違ってたと(←人のせい)。

いくつか例をあげると、「べイルート」「べトナム」「べネズエラ」「べルギー」「べルリン」そして「ぺ・ヨンジュン」。

「ペ」がひらがなの「ぺ・ヨンジュン」なんてググると 53,800 件もヒットするんですけど…
こんだけヒットするってことは windorz の MS-IME や ATOK でもこうなることがあるってことだと思うけど、何でだ?

辞書には「ぺよんじゅん」(中黒なし)の読みでしか登録されてなくて、

 ・「ぺよんじゅん」 変換→ 「ペ・ヨンジュン」
 ・「ぺ・よんじゅん」 変換→ 「ぺ|・|よんじゅん」 → 「ぺ・ヨンジュン」(「ぺ」はひらがななのに気づかず、「よんじゅん」だけカタカナに直して確定)

とかそんな感じかな。中黒がいたずらしてるのかな。

まぁ、そんなことはどうでもいいですが。
とにかくそんなこんなで今回結構誤登録を潰しましたので、アップデートしてほしかったわけです。

今後はこれらのカタカナ語はスクリプトでチェックかけてから出しますので、もうこういうことはないはずです。

<追記>
ところで、「林家ペー」の「ペー」はひらがななんだろうか、カタカナなんだろうか?
一応カタカナで登録してあるけど、ググると

 カタカナ → 87,700
 ひらがな → 34,400

…多分カタカナだろうけど、ちょっとビミョー。
「林家ペー カタカナ」でググると同じこと考えてる人が見つかっておもしろい。
ちなみに Wikipedia の記事によると、
名前の「ペ」は横書きの時はカタカナの「ペ」で、縦書きの時はひらがなの「ぺ」である。

だそうです。
そんなわがままが許されていいのかよ…

posted by vagus at 14:38| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック