2008年10月22日

wiki に説明書きました - 追記

使い方_Anthy
使い方_Anthy-UTF-8

どっちも「誰でも編集可」にしておきましたので、お気づきの点があれば適宜編集してやって下さい。

以下、雑文です。

何か、このブログのコメント機能がおかしい気がする。
先日 ishii さんと白井さんのコメントに返信したときも思ったんですが、「確認する」で確認してから「書き込む」ボタンを押すと、書き込まれないような。
いきなり「書き込む」を押せば書き込まれるんですが。

自分の場合、コメント管理のところには表示されるので一回そこで消して、再度「確認する」を押さずに「書き込む」で書き込み直したんですが、何じゃこりゃっていう感じ。調べるの面倒いなぁ…

ところで、誤登録発見しました。
「ふたんたらたら」で変換してみてください。

……オレかな?オレだな。何かずっと前に作業した覚えがかすかにあるしな。
すんませんです。

あと、これは他のところでもそうなるか分からないですが、「か」で変換すると「化」って何番目に出てきますかね?
「過激化」を登録しようとして、一旦「過激」を確定、それから「化」だけ単独で出そうとしたんですが、109個中 108番目だったんですよね…。
ケツから 2番目。

辞書の登録がおかしかったのかと思って確認したけど、ちゃんと上のほうに登録してあるし、何じゃこりゃ?

ケツ(109番目)はカタカナの「カ」ですが、これは anthy では「カタカナのみの候補は先頭でなければ最後に回す」という仕様になってるらしいので、そのせいですが、どうも「化」もカタカナとして扱われて、そのせいでケツの方に回されてる気がしないでもない。

で、完全に憶測というか深読みというか、「もしかしたら」という勘ですが、「anthy が」なのか、「anthy が利用してるライブラリが」なのかは分かりませんが、「化」をカタカナの「イヒ」の合成文字と勘違いして扱ってるんじゃないかなぁ、とか思ったり。それで上記の仕様によってケツの方に回された、と。

日本人ならありえませんが、日本語知らないあっちの人が作ったライブラリを利用してるんならありうるかも。

本当にそうかどうかは知りませんが、でも、そうでもないと他に「化」だけがこんなに後ろに回される挙動を説明できない気がするんですよねぇ。

どうなんでしょうか?

【追記】
「化」が「イ」と「ヒ」の合成文字として扱われてるかも、というのは、やっぱそれはないかな、という気がしてきた。もしそうならもっと色々問題が出てるはずだろうという気がするので。
でも、「化」が anthy にカタカナと思われて後ろに回されてるんじゃないか、という疑念はまだ残ってる。

【追記】10/23
大ハズレ。やっぱさすがにそれはないか。また恥を晒したなぁ。

以下、やったこと。

まずは、src-ordering/candsort.c 見てみたら、カタカナをケツに回すところだけ削っても問題なさそうに見えたので、コメントアウトしてみた。
--- candsort.c.orig     2007-06-18 08:30:15.000000000 +0900
+++ candsort.c 2008-10-23 20:46:12.000000000 +0900
@@ -265,9 +265,9 @@
sort_segment(anthy_get_nth_segment(sl, i));
}
/* カタカナの候補が先頭でなければ最後に回す */
- for (i = nth; i < sl->nr_segments; i++) {
+/* for (i = nth; i < sl->nr_segments; i++) {
trim_kana_candidate(anthy_get_nth_segment(sl, i));
- }
+ }*/
/* またソートする */
for ( i = nth ; i < sl->nr_segments ; i++){
sort_segment(anthy_get_nth_segment(sl, i));

結果は、カタカナの「カ」はケツじゃなくなり、「化」がケツになった。と言うことは、「化」は別にカタカナとみなされてるわけじゃないですね。
(今気づきましたが、すぐ後ろの「/* またソートする */」のブロックもなくていい気がする)。

次に、「それじゃあ」と思って「make update_params0」でコーパスを空にして anthy.dic を作り直したら、「化」も初めの方に出るようになりました。つまり、原因はコーパスでした。
「化」が復活したところ
何でこんなに「化」を毛嫌いすることになるのかは分かりませんが…。確かに「化」一字だけを単独で出すことはほとんどないというのも分からなくはないですが、でもいくら何でも後ろすぎる。

ちなみに、前からカタカナの候補がケツに回されるのも嫌だったので、candsort.c はこのままにしておこう。
すべてカタカナの候補もケツに回されなくなったところ1すべてカタカナの候補もケツに回されなくなったところ2

【追記】12/14
コーパスが悪かったわけではなく、自分が calctrans/corpus_info を更新していなかったせいみたいです。すみませんでした。
辞書や depgraph に手を入れた場合は、それらをコーパスに反映してやるため(?)に corpus_info を再作成する必要があり、それをやらないと候補の並び順がおかしくなるみたいです。
posted by vagus at 23:43| 東京 🌁| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック