ご協力頂いた denson さん、井汲さん、登録希望さんありがとうございました。
また、Anthy wiki の「単語収集」のものも追加してあります。
普通名詞の頻度手直しはまだ半分にも満たないですが、メンテ用の方に
せんむ #T35 100 専務 4780000
せんめい #T05 100 鮮明 7550000
せんめい #T30 100 闡明 19100
せんめつ #T30 100 殲滅 1720000
といった感じで hit 数を残してあるので、興味のある方はご覧ください。
人名はスクリプトで並べ替えただけで、まだ点検してません。
変な部分もあると思いますが、それほど多くはないと思うので、
そのまま出すことにしました。いずれ直します。
【関連する記事】


> 今回は私はまったく寄与できていないはずです………。
失礼しました。前回のが記憶に残っていて勘違いしたようです。
でもまぁ、逆じゃなくてよかった。
コンパイル済みの anthy.dic を併せて配布されると
便利かもしれません。
これだと /usr/share/anthy/ にコピーするだけで使えます。
("CPU のアーキテクチャによって anthy.dic が変わるかもしれない" と
思っていたのですが、i586 と x86_64 の anthy.dic を比較したところ、md5sum の値は同じでした)
> ("CPU のアーキテクチャによって anthy.dic が変わるかもしれない" と
> 思っていたのですが、i586 と x86_64 の anthy.dic を比較したところ、md5sum の値は同じでした)
そうですか。i586 と x86_64 は一緒ですか。
でも、anthy のバージョンによっては anthy.dic そのものが異なるんですよね、確か。
でも、いつからだったのか思い出せない…
まあ、「古いバージョンだと形式が違って使えないことがあるから、
その時は自分でコンパイルしてね」でいいか。
次回から anthy.dic も置くようにしてみます。
アドバイス感謝です。
> anthy.dic そのものが異なるんですよね、確か。
その時々の安定版 (現在なら anthy-8300) で動けば問題ないと思います。
今の anthy-ss だとひょっとしたら動かないかもしれませんね (用例辞書が加わっているようなので)。
http://lists.sourceforge.jp/mailman/archives/anthy-dev/2006-November/003248.html
> anthyのcalctrans/corpus.?.txt
そうします。
というわけで、出してみました。
でも、utumi さんには必要ないですね(^^;)
ときどき srpm を作ってアップロードしています。
何人かダウンロードなさっていますよ。
http://sourceforge.net/project/showfiles.php?group_id=109779&package_id=118621&release_id=239349
コンパイル済みの anthy.dic が動くことを確認しました。
srpm のほうはソースから anthy.dic を生成しています。
> 14MB 弱あります
圧縮すると 3-4MB になります。
$ 7za -a -mx=9 alt-anthy_for_8300.dic.7z alt-anthy_for_8300.dic
=> 3.4MB
$ bzip2 alt-anthy_for_8300.dic
=> 4.4MB
間違っていました。
正しくはこちらです。
$ 7za a -mx=9 alt-anthy_for_8300.dic.7z alt-anthy_for_8300.dic
> 圧縮すると 3-4MB になります。
え、そんなに変わるんですか。
「圧縮しても大して変わらんだろう」と思って、初めから諦めてました。
次からは圧縮するようにします。
# こういう情報はガンガンください(w