新語は 1800 くらい。主に、compound.t の部分になってる単語で未登録だったもの。
登録してた時の感覚では、結構よく使われる語が多かった印象なので、アップデート推奨です。
【変更内容】
・新語追加&誤登録修正(G-HAL さん、2ch)
ありがとうございました。
・gtankan.ctd: 頻度付け直し
これまでは「教育漢字の何年生で習う漢字か」「常用漢字か」等で頻度をつけており、読みは考慮していなかったが、読みを考慮するようにし、全体的に名詞とそれほど変わらない値にまで上げてみた。
これまでは頻度が小さすぎて、たとえば「にゅう」で「入」や「乳」より、「丹生」(地名)が先に出てたりしたので。
(ただ、原作 anthy だと「丹生」がケツになったけど、G-HAL 氏版 09Y18 だとまだ「丹生」が先頭にくる…)
読みと表記で自立語辞書を検索した結果を元にして機械的にランク分けした。まだ改善の余地はあるけど、大体はこれでいいだろう、と今のところ思ってます。
・anthy の compound.t, extra.t を修正して同梱
初めは、以前 G-HAL 氏に教えて頂いたアイデアで compound.t の品詞コードを直そうと思って始めたんですが、誤登録が非常に多くて、結局機械的に洗い出せる誤登録を修正するだけで終わった。
品詞コードは少ししか直せてないし、誤登録もまだまだある。
compound.t はいずれ gcanna.ctd に統合すべきものだとは思うんですが、7万くらいあるし、色んな理由から、compound.t 見てると頭がおかしくなってくる(変なはずの日本語が変じゃないように思えてくる)ので、もう当分見たくない。
・本家 anthy はもう出ないようなので、それ用の対応をしてみた
つまり、anthy の外側に置いた alt-cannadic から辞書を読み込んでビルドするようにしてみた。
$ ls
alt-cannadic-091122.tar.bz2 anthy-9100h.tar.gz
$ tar xzf anthy-9100h.tar.gz
$ tar xjf alt-cannadic-091122.tar.bz2
$ cd alt-cannadic-091122/
$ ./prepare.sh
$ cd ../anthy-9100h/
$ ./configure && make
という感じ。
prepare.sh で、dict.args.in, corpus_info, weak_words を anthy-9100h のものから alt-cannadic-091122 同梱のものに置き換える。
dict.args.in は、anthy-9100h/alt-cannadic/ の辞書ではなく、alt-cannadic-091122/ 以下の辞書(compound.t, extra.t 含む)を見にいくようにしてある。
主にパッケージャの人向けですかね。
コーパスのパラメータを更新して同梱してありますが、例文は一切いじってないので、目に見えて変換精度が上がったりはしないです。多少はマシになったかもしれませんが。「げいじゅつてき」がちゃんと「芸術的」になるとか。
「きゃっかんてき」は「キャッ|観的」のままだけど。
【追記】11/23
あ…
内海さんの真似するの忘れた…
それから、郵便番号辞書最新の作って同梱しようと思ったのに、DL することすら忘れてた orz
G-HAL 氏試験版 09Y18 で「にゅう」の先頭候補が「丹生」のままな話の補足。
単漢字の「入」「乳」の頻度を上げても、地名の「丹生」より後になってしまうのは、コーパスの影響のような気がする。
少し前に例文から記号や句読点を抹殺したので(ちょっとだけ残ってるけど)、例文にはほとんど単漢字がない。そのため、単漢字の頻度をちょっとくらい上げても「丹生」に勝てないのではないかと予想。
試しに、「|にゅう| |乳|」というような、単漢字単独の例文をいくつか入れてみたら、update_params が通らなくなった……と思ったら、ファイルを UTF-8 にしてたことに今気づいた orz
道理でエラーメッセージが化けてたわ。
(この話は、自分の中では別な話とつながってくるので、後で続きを書く)
【関連する記事】
単漢字が地名より後になるのは、
depgraph/others.depdef:@単漢字のあと "" Se.@
してあるからです。普通の?文章入力をしている時に単漢字が出てくると変な変換結果になるので。ただ、そうすると音読みで単漢字を出そうとする時に悩ましい所ですが。
すみません、自分のせいだったとは orz
すっかり忘れておりました。
大変失礼致しました…