・depgraph 作り直し
どっちを取っても吐き気を催す作業ですが、それをなぜ並行してやってるかは本人にも分からん。
G-HAL 氏に刺激されたというのはありますが。
ランクの付け直しについて。
ランクはもともと Yahoo! J での hit 数を元につけてますが、ほとんどのものは 1年半以上前につけたものです。で、この 1年半くらいの間に Yahoo! J が持ってるキャッシュがかなり増えたらしく、同じ語を検索しても以前より遥に大きな数字が出てくる。となると、あまり嬉しくないことになる。
たとえば、現在の母集団が 10000 だとして、それに対して検索して得られた数字を、母集団が 100 だった頃の数字と比較したら、ほとんどの場合前者の方がデカいわけです。ということは、最近追加した語は全体的にランクが高めになってしまう、ということです。なので、ここらで一回全部付け直そうと。
ついでに、もう少しだけ細かくランク分けするようにしたいからというのもあります。
でも、作業対効果を考えると、そんな頑張ってやることでもないんですが。
depgraph の作り直しについて。
元々今の depgraph に色々問題があるのは前から知ってましたが、難しいしややこしいので、今までは気づいた所だけを直してパッチを送ってました。
が、やっぱり一回これも一から整理しないとダメだなと。
この辺は辞書との絡みもあるので辞書いじってる人間がやった方がいいだろうというのもありますし。
でまぁ、やり始めたわけですが、すでにどっちも投げ出したくなってます。
特に、depgraph の方はものになるところまで辿り着ける自信はないです。難しいしややこしいし面倒くさいし…。反面、また辞書の品詞コード自体も作り直したくなったりもしてますが(何で Canna の品詞コードは(ry )。
とりあえず、今んとこ、ランクづけが 3割くらい終わった感じで、depgraph の方も 3割くらいですかね?大体の感覚ですが、まぁそんな感じです。
ちなみに、もしちゃんとした depgraph ができたとしても、目に見える部分での変換精度が上がるとは思ってませんので、過度な期待はしないで下さい。そういうところはやはり文節区切りとか候補の並び順とかの影響がすべてだと思うので。辞書とか depgraph というのはあくまで土台というか縁の下というか、そういうものだと思ってます。
<おまけの遊び>
anthy で以下の読みを変換してみましょう。
「おわったったったったったったった…」(どこまで続けても可)
「じしょくらいなぞずつたちくらいなんかやらばかり」
全部一文節で変換されると思います。
depgraph で loop しちゃってるんですよね。
上のは北斗の拳仕様なのかな。
あと、
「かんがえられさせる」
というのも一文節で変換できてしまう。
使役「させる」と受身「られる」は通常「させ」+「られる」という順番でないとおかしいので、もし上のを変換したのなら「考えられ|させる」と文節が切れるのが正解のはずです。
尤も、「られさせる」でググったら結構使ってる人がいて驚いたんですがね。何年後かにはそれもありになったりするんですかね。それは嫌ですね。
まぁ、どれもユーザが入力しなきゃ発生しないものなので(入力することも多分ないだろうし)、ほとんど実害はないと言っていいと思います。先日の「迫っていに」は実害がありましたけど。
こんなこと書くとまた「anthy はバカだ」とか騒がれそうですが、個人的には、バカにする気もおちょくる気も全然ないです。むしろ逆に、「かな漢字変換エンジン作るのって、本当に大変なんだな」というのが正直な感想。「当たり前の日本語を当たり前に出すためには、当たり前でない努力が必要」というか、ね。
賢いアルゴリズム考え出すだけじゃなく、相当泥臭いこともしないといけないんだな、と。
【追記】
ずっと書くのを忘れてました。
登録依頼の受け付けを中止したままで申し訳なく思ってますが、上記のように、自分がやろうと思ってる作業だけで手一杯なので、今のところ再開する予定はありません。すみませんです。
誤登録だけは、このブログのどの記事でもいいので、コメントしていただければ対応します。あとは、Anthy スレでもいいですし、直接メールでも勿論構いません。
ご理解とご協力のほど宜しくお願いします。
【関連する記事】