2006年12月07日

現状

自分用メモも兼ねてここ数ヶ月のまとめ。

そもそもこの辞書を公開し始めた当初に、utumiさんとのやり取りの中で、「登録されてない語を登録するのが主眼で、頻度をいじる気はない」というようなことを言いました。

その理由は、
 a. 頻度値がおかしくて出したい語が一発で出ないとしてもエントリがあれば出すことはできるのに対し、エントリのない語はそもそも出すことが出来ない(だから新語登録を最優先にする)
 b. どの語を優先し、どの語を後回しにするかは人によって好みが異なるため、頻度をいじり始めると収拾がつかなくなる
 c. そもそも「頻度値のつけ方」に関するドキュメントが全くない(少なくとも現在までのところ発見できていない)ので、すべて実際に試行錯誤しながら自分で適正値を探さなければならない
 d. 仮にきちんとしたドキュメントがあり、どういう風に付ければいいか分かったとしても、数十万ものエントリ(対象を絞ったとしても何万という数のエントリ)に対して一つ一つ値を付けたり、確認したりするのはご免被りたい、というか、実際問題としてムリ
 e. ある変換エンジン(現状 anthy しかありませんが)のあるバージョンに対して適切な出方をするように調整したとしても、その変換エンジンがアルゴリズムやスコアのつけ方を変更したらすべてをやり直さなければならないかもしれない
 f. 「頻度値で調整する」というやり方自体あまり効率の良い方法ではなく、そのうち使われなくなる方向に行く可能性が高いと思われるため、作業しても無駄になりかねない

といったことでした。
簡単に言えば、「一人でやるのは事実上ほぼ不可能な上に、やったとしても努力が水の泡になる可能性があるのでやりたくない」ということです。

しかし、そう思っていたにもかかわらず、また自分でこれらの理由を「もっともなことだ」と思っているにもかかわらず、9月に「トチ狂って」手をつけてしまいました(あくまで「可能な範囲で」ですが)。
すると、何ということでしょう、まるで謀ったかのように anthy が新アルゴリズムへ移行し始めました。そう、見事に e. が現実のものとなったわけです。

しかも、開発版新アルゴリズム anthy と cannadic改とは相性が悪いらしく、anthy デフォルトの辞書(要するにオリジナルの cannadic)では一発で出るものが、cannadic改では出せなかったりします。しかも原因がよく分かりません。変更したのは辞書だけなので、辞書側の問題だろうとは思うんですが…。
このところ「悩んでる」みたいなことをグダグダ書いていたのはこのことです。

どうにも分からず時間もなかったので、前回のリリースでは開発版 anthy は無視して、安定版のみを対象にして調整しました(実はまだ調整の余地がかなりあるんですが)。なので、当面は安定版 anthy で使って下さい。
開発版 anthy + cannadic改は今のところ常用するのは厳しいです(まぁ、開発版ってそもそもそういうものなんで、改めて私なんぞが anthy の開発版についてそんなことを言うのは変な話なんですが)。

で、頻度をいじり始めてまだ名詞の半分もできてないのにこういう状況に陥って、「この先どうすべぇか」と悩んでるわけですが、どうしましょう。
悩んだまま手が止まって新語登録もろくにできないのは時間の無駄だと思うので、当初の方針通り、頻度はほったらかそうかとか思ってるんですが、それもそれで、ねぇ。でも、かと言って、ねぇ。

posted by vagus at 10:59| 東京 ☀| Comment(2) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
(私もそうですが)元々自分用の辞書なのですから、
自分にとって快適な辞書に仕上げていくのが良いと思います。

> 悩んだまま手が止まって新語登録もろくにできない
やりたいこと(=新語登録?)を最優先して、
頻度調整は気になるものだけ行えば楽になると思います。

> 開発版新アルゴリズム anthy
今のところオリジナルの cannadic と組みあわせた場合でも
常用できるレベルの変換結果が出ないので、
あまり気になさらなくてもいいと思います。
Posted by ut at 2006年12月09日 18:15
そうですね。
マイペースでボチボチいきます。
Posted by vagus at 2006年12月11日 00:00
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック