2008年12月13日

WinAnthy の Anthy - 追記

某所で話題が出てたのを見かけて、「そう言えば、そういうものもあったんだっけ。win機はないので試せないけど、ソースは見れるのかな」と思ってサイトを見たら、ちゃんと anthy 単体のソースも置いてあった(下の方の「リンク」のとこ)ので落としてきてちょっと diff 取って見てみた(勿論、殆どの部分は見ても分からないですが)。

多分、9100 が元だと思うんですが、結構手が入ってる様子。
(【追記】12/14 ChangeLog 見ると 9100c が元らしい。)

適当にビルドしてみたら問題なくできたので、いつも試し用に使ってる文章を変換してみたりして暫く使ってみてるんですが、これはこれで結構別物な感じですね。

少なくとも候補の並び順に関しては、9100x 系より遥かにいいです。「化」や「頼」がケツの方に回されることもないし、人名がやたら優先されることもなく、かなりいい感じに並んでると思います。

あくまで動作のみを見ての推測ですが、9100x 系は例文から品詞コードレベルの情報を得て、それをそのまま候補の並び順にも適用しているように思えます。つまり、例文から「『です』が一番付きやすいのは人名だ」という結果を得たら、辞書の頻度がかなり低いものでもとにかくまず人名を先に出し、同音の他の品詞のものは、辞書の頻度がかなり高くてもその後にしか出てこない、という状態になっているように見えます。

これが WinAnthy の Anthy(anthy-c74rc1)では、他の品詞でも頻度の高いものは上の方にくるようになっているようです。

例えば「かく」を変換すると「各」を先頭に 1-8番目までは名詞で登録されているものが並んでいますが、9-12番目までは「書く」などの動詞が、13番目にまた名詞の「閣」が来て、次の 14番目に副詞の「斯く」が来て…といったように、コーパスからの情報だけでなく、辞書が持っている頻度も上手く生かされているように見えます。

個人的にはこっちの方が断然好みですし、何よりも、辞書の頻度が生かされてるのが嬉しい。


(【追記】12/14
違うかも知れない。
とにかく、これまで自分が使ってたのは depgraph を自作のものに置き換えたりしたものなのに、calctrans/corpus_info を更新しておらず、そのために候補の並び順が上手く行ってなかったらしい、ということには気づいた。(しかし、update_params2 がセグメンテーションフォルトでコケるのは何故だ…。ノード名が長すぎるんだろうか…?)
ちゃんと比較するにはデフォルトの 9100e とかと比べなきゃいけませんが、今環境いじりたくない…。
やっぱもう一台マシンが欲しいなあ。
…あ、こういうときこそ LiveCD とか使えばいいのか。

以前落としてた Ubuntu 8.10 の LiveCD ubuntu810-ja のイメージファイルがあったので VirtualBox で起動して試してみました。
結論 → オ、オレはずっと勘違いしてたのか… orz
まず、並びこそ違うものの 9100e でも品詞は混ざってました。
それから、「化」や「頼」がケツの方に回されるのも、corpus_info を作り直してなかったせいらしいです。Ubuntu の anthy では別にケツに回されてはいなかった。

何か、色々すみませんでした…。)

…でも、ここで悩ましい問題が。
これってオリジナルの方の anthy にマージされたりとかはしないんだろうか。されないとすると、anthy が 2つあることになるなあ…。G-HAL 氏のパッチ版も入れると、大きく分けて 3つですか。
うーん、この先どういうことになっていくんでしょうか?
posted by vagus at 18:44| 東京 ☁| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は90日以上新しい記事の投稿がないブログに表示されております。