(【追記】12/14 ChangeLog 見ると 9100c が元らしい。)
適当にビルドしてみたら問題なくできたので、いつも試し用に使ってる文章を変換してみたりして暫く使ってみてるんですが、これはこれで結構別物な感じですね。
あくまで動作のみを見ての推測ですが、9100x 系は例文から品詞コードレベルの情報を得て、それをそのまま候補の並び順にも適用しているように思えます。つまり、例文から「『です』が一番付きやすいのは人名だ」という結果を得たら、辞書の頻度がかなり低いものでもとにかくまず人名を先に出し、同音の他の品詞のものは、辞書の頻度がかなり高くてもその後にしか出てこない、という状態になっているように見えます。
これが WinAnthy の Anthy(anthy-c74rc1)では、他の品詞でも頻度の高いものは上の方にくるようになっているようです。
例えば「かく」を変換すると「各」を先頭に 1-8番目までは名詞で登録されているものが並んでいますが、9-12番目までは「書く」などの動詞が、13番目にまた名詞の「閣」が来て、次の 14番目に副詞の「斯く」が来て…といったように、コーパスからの情報だけでなく、辞書が持っている頻度も上手く生かされているように見えます。
個人的にはこっちの方が断然好みですし、何よりも、辞書の頻度が生かされてるのが嬉しい。
(【追記】12/14
違うかも知れない。
とにかく、これまで自分が使ってたのは depgraph を自作のものに置き換えたりしたものなのに、calctrans/corpus_info を更新しておらず、そのために候補の並び順が上手く行ってなかったらしい、ということには気づいた。(しかし、update_params2 がセグメンテーションフォルトでコケるのは何故だ…。ノード名が長すぎるんだろうか…?)
ちゃんと比較するにはデフォルトの 9100e とかと比べなきゃいけませんが、今環境いじりたくない…。
やっぱもう一台マシンが欲しいなあ。
…あ、こういうときこそ LiveCD とか使えばいいのか。
以前落としてた
結論 → オ、オレはずっと勘違いしてたのか… orz
まず、並びこそ違うものの 9100e でも品詞は混ざってました。
それから、「化」や「頼」がケツの方に回されるのも、corpus_info を作り直してなかったせいらしいです。Ubuntu の anthy では別にケツに回されてはいなかった。
何か、色々すみませんでした…。)
…でも、ここで悩ましい問題が。
これってオリジナルの方の anthy にマージされたりとかはしないんだろうか。されないとすると、anthy が 2つあることになるなあ…。G-HAL 氏のパッチ版も入れると、大きく分けて 3つですか。
うーん、この先どういうことになっていくんでしょうか?
【関連する記事】