候補の並び替えについては今までどおりの情報が必要ですが、
文節区切りについては内部で並び替えて上位n%かどうかで分類します。
このためには、内海さんがすでにやられているように全体での出現頻度に
比例した(正確には、順序を保存した)頻度情報があれば十分です。
cannadicやalt-cannadicだと同音異義語内の頻度に重点がおかれているようなので
手元の実験ではあんまりいい結果になってません。
ああ、なるほど。そういうことですか。
ようやく田畑さんの言われていることが分かってきました。
ぬー、しかし、そうすると、あかん。頻度についての案は考え直しですね。
でもなぁ、これって結局行き着くところは「形態素解析エンジンとかな漢字変換エンジンとで辞書を共有する」ってことになるんじゃないのかなぁ。
つまり、形態素解析エンジンで片っ端から文章解析させて、未知語を見つけたり出現頻度を記録したりして辞書を鍛えて、でその辞書をそのままかな漢字変換辞書にする、と。確か mecab と prime はそういう関係になるような話を読んだ気がしますが定かでない…ってこれか(下の方)。anthy-morphological-analyzer でできるかな?
形態素解析だと最小単位に分解されちゃうから複合語に頻度がつかなくなっちゃうんじゃないかとか、Anthy-dev 3401 で内海さんが言われてるように、同じ表記に複数の読みがあった場合に、一つの読みばかりが使われて他の読みが無視されるとか問題もありそうな気はしますが、トータルでは確かにそれが理想だとは思うんですよねぇ。
でも、そういう話だとすると自分にはかなりお手上げな話になっちゃうんですが、どうしましょう?
Yahoo! の hit 数でどこまで近似できるものやら、心許ないな…
ぶっちゃけ、頻度情報は prime 辞書から頂きますかねぇ…
まぁ「辞書中でのおおよその(順位的)位置が分かればよい」ということであれば Yahoo! の hit 数でも何とかなるかもなぁ。
ただ、一般に動詞や形容詞よりも名詞の方が出現頻度は高くなるんじゃないか、その辺のバランスをどうとるか、特に「目」「歯」「口」「話」「名」とかいうような漢字一字の名詞は実際に一字の名詞として使われるよりかなり数字が高くなるが(熟語等他の語の一部として使われてても hit するため)、それをどうやってどのくらい下げるか、とかはもうかなりアバウトにしかできないでしょうが。
ちなみにこんなん↓もあるみたいですが、F5 アタックしないと読み込めん… orz
現代雑誌200万字言語調査語彙表 by 国研
【関連する記事】
よかった。分かってなかったのは私だけかと思ってました。
しかし...田畑予想を実現する(はずだった)コードが一瞬で無駄になるとは。:-p