2007年10月25日

anthy の corpus 関連覚え書き

・いくやさんの方針とリリース予定
・Anthy の方針
「開発者と単にダウンロードした人との間で持ってる情報に差が出ないようにしたいので、再配布可能なデータを持つようにしています。」


今のアルゴリズムになってから辞書が持ってる頻度がほとんど効かなくなって正直「参った」と思ってましたが、考えてみれば、「辞書で個々の単語の頻度を調節するなんてやってられない。変換エンジンの方で共起頻度とかの統計情報を持ってくれたらなぁ」と思ってたのがまさに実現されてるわけで、「なんだ、喜ぶべきことだったんじゃん」と気づいたのがしばらく前。

しかし、いかんせん corpus が小さすぎて本来の性能が出せていない、というのが現状なんでしょう。多分。

いくつくらいの例文があれば実用的な性能が出せるようになるのか分かりませんが、言語処理とかそっち系のニュース等を見てると数十万とかそういう単位の数が出てきてるように思います。片や anthy にある例文は 9100 の時点で 3,500。今集まってきてるそうですが、それでもおそらく 9100d では 1万に全然満たないでしょう。

要するに、

 ・Anthy はまだ終わってない、むしろこれから
  開発自体は止まってしまったとしても、まだまだ性能が向上する余地がある。

 ・「性能が向上するかどうか」「するならどのくらいの速さで向上するのか」は「協力してくれるユーザがどのくらいいるか」にかかってる
  「corpus 自体も再配布可能なものを自前で持つ」という方針である以上、当然そうことになる。

ってことでしょうか。

# 仮に十分な corpus を持ったとしても、本気で ATOK と比べるのはどうかと思うけど。

逆に言えば、日本のコミュニティが「終わって」れば、Anthy も「終わった」ってことでしょうかね。

# ああ、別の理由で「終わる」可能性もあるかな。

<追記>
何かエラそうですね、自分。
ちょっと今日は気分がブルーなせいです。
自分のすべきことはするので勘弁して下さい。
posted by vagus at 10:44| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は90日以上新しい記事の投稿がないブログに表示されております。