2007年11月25日

【実験】hogedic - その2

間が空きましたが、前回からの続き。

助詞等をつけて変換した場合に、hogedic1,2,3 で候補の並び順がどう変わるか。

まず、参考のために前回の「ほげる」だけで変換した結果を貼っておきます。

[ hogedic1 ]
hogedic-1a.jpg

[ hogedic2 ]
hogedic-2a.jpg

[ hogedic3 ]
hogedic-3a.jpg

ここからが付属語をつけて変換したときの結果。
まず、「が」をつけて「ほげるが」で変換した結果。

各辞書 1-10番目の候補のみで、左から hogedic1、hogedic2、hogedic3 となっています。

hogedic-ga.jpg

助詞を付けずに「ほげる」だけで変換したときとは並び順が若干変わっていますが、辞書での頻度が変わっても、並び順に変化はなし。

次いで、「は」をつけて「ほげるは」で変換した結果。
hogedic-ha.jpg

こちらも、辞書での頻度が変わっても、並び順に変化はなし。

「ほげるを」で変換した結果。
hogedic-wo.jpg

「ほげるの」で変換した結果。
hogedic-no.jpg

「ほげるに」で変換した結果。
hogedic-ni.jpg

格助詞ではなく、他の助詞を付けてみる。

「ほげるから」で変換した結果。
hogedic-kara.jpg

「ほげるです」で変換した結果。
hogedic-desu.jpg

「ほげるので」で変換した結果。
hogedic-node.jpg

「ほげるには」で変換した結果。
hogedic-niha.jpg

「ほげるんだと」で変換した結果。
hogedic-ndato.jpg

以上、適当に思いつくまま付属語をつけて変換してみましたが、辞書での頻度の変更は、候補の並び順に一切影響していません。

# 「何でこの付属語の時にこの品詞がこんなに前(後ろ)にあるんだ」という話はここではしません。

というわけで、前から「頻度が効かない」という話をちょこちょこ書いてましたが、本当に効いてないんだということを具体的に示せたんではないかと思います。

これらの結果から分かるように、辞書側の頻度を改善しても、それは anthy の変換精度の改善にはつながりません。
(実験3のダミー候補の並び方から分かるように、品詞コードが同じものの並び順は辞書通りになるので、その点での改善はできます)。

では、anthy では候補の並び順はどうやって調整してるのかというと、恐らく、depgraph と本体のコードで大まかな順序をつけて、後はコーパスから得られた情報で並び替えてるんだろうと思います。

なので、anthy の変換精度を上げたかったら、基本的には、コーパスを増やすのが一番簡単で効果が大きいと思ってます。もちろん、それでどれだけ向上するのかは自分には分かりません。「頑張った割には賢くならなかった」という結果に終わるかもしれませんし、増やせば増やすほど賢くなるのかもしれません。

また、depgraph とか他の部分に問題がある場合は、当然そっちを直さなければ直りません。ですが、それは大変だと思うので。

少なくとも、辞書に期待するのはムダです。anthy がそうなってるようなので。

posted by vagus at 23:26| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック