2008年10月13日

cannadic改 081012 出しました

思った以上に確認に手間取って遅くなりましたが、sf.jp に upload はしました

但し、今回ちょっと色々変更があるので説明をしなきゃいけないんですが、今日はもう遅いので、使い方等の説明は明日 Wiki に書きます。
できればそれまで待っていて欲しいんですが、中を見て分かる方はそのままお使いください。
Canna の場合はほぼ変更なしなのでいいですが、Anthy の方は色々ファイルが増えたので。

以下、主な変更点。

* 新語追加&誤登録修正(内海さん、登録希望さん、nosukeさん、n/aさん、2chの匿名の方々、Tonibi_koさん、xさん、TAKADA Yoshihitoさん、G-HALさん)。ご協力感謝します。
* 動詞の並び順がおかしかったのを全部見直した。
* 人名接尾語は誤変換の元になることが多いようなので、「さん」「様」等ごく基本的なもののみを残して外した。
* UTUMI さんの hindo-gooblog-20080605 の ippan/04-other-dousi.txt から必要なものを取り込み。
* 単漢字にアルファベットの「全角←→半角」「大文字←→小文字」のエントリを追加。
* g_fname.t を EUC-JP にした。
* extra パッケージは廃止し、こっちに統合。
* dict.args.in のサンプルを追加。

掲示板や Wiki に依頼/報告を頂いたものはすべて対応したつもりです(一部取り込まなかったものもあります)。個別にはお礼をしていませんが、ここでまとめてお礼をさせて頂きます。ご協力ありがとうございました。

あと、Anthy スレに出ていたものや Web を検索して気づいたものも、気づいた範囲で対応しました。こちらもありがとうございました。

6月にちょっとやろうとしたときに、UTUMI さんが作業された hindo-gooblog-20080605 を落としてきていたので、動詞のみですが、必要なものを取り込ませて頂きました。いつもありがとうございます。

作業量的には動詞の並び順見直しが最大のものなんですが、多分使っててもほとんど分かんないでしょうね…。

アルファベットの「全角←→半角」「大文字←→小文字」のエントリというのは「r」から「R」「r」「R」に変換したりするような奴です。どこまで必要か分かりませんが、とりあえず入れました。

g_fname.t は前回まで UTF-8 でしたが、EUC-JP に変更しました(従って、dict.args.in の変更が必要です)。
こうすると基本的な辞書はすべて EUC-JP となるので、Anthy の辞書自体も EUC-JP にすることができます。
UTF-8 で作った場合より、anthy.dic が 3MB ほどダイエットできると思います。

追記: 別に g_fname.t の文字コードを EUC-JP にしなくても、set_dict_encoding に eucjp を指定しさえすれば Anthy の辞書を EUC-JP にできるのかもしれん、と布団の中で気づいた。まあ、いいや。

JIS第3第4水準単漢字辞書など、別パッケージで配布していた辞書も一緒に配布することにして、extra のパッケージは廃止しました。alt-cannadic-081012/extra/ 以下に入れてあります。
JIS第3第4水準文字を含んだフルネーム辞書(gc-fullname-34.t)は複合語登録してあったんですが、複合語登録は EUC-JP 外の文字を含むとダメみたいで、「文字数が違う」と言われてエラーになってしまうので、通常の登録方式にしました。

alt-cannadic-081012/sample/ 以下に、dict.args.in のサンプルを入れておきましたので、参考にしてください。
(入れ替えた後、./configure し直さないと反映されないので注意。dict.args としてコピって、「@top_srcdir@」を「..」に置換すれば ./configure は必要ないけど)。


今日はここまで。残りの作業は明日やります。
posted by vagus at 02:42| 東京 ☁| Comment(3) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
お疲れ様です。
ときどき見にきていました。
さっそくダウンロードして使っています。ありがとうございます。

cannaですが、wikiのほうに
% mkdic -fq gcanna
することを書いておいてもらえないでしょうか。何回かはまったので。
Posted by ishii at 2008年10月15日 19:03
待ってました!

ちらちらと従来品との diff を見ていたのですが、gcannaf.ctd の 1byte目に「0」が抜けているのを発見しましたので、ご報告です。
Posted by 白井 at 2008年10月15日 22:00
ishii さん
> ときどき見にきていました。
ずっと放ったらかしていてすみませんでした m(_ _)m
また暫くの間よろしくお願いします。

> cannaですが、wikiのほうに
> % mkdic -fq gcanna
> することを書いておいてもらえないでしょうか。
wiki の方に追加しておきました。
canna の方はほとんど気が回らず、申し訳ありませんです。
「使い方_Canna」のページは自由に編集できるようにしておきましたので、またお気づきの点がありましたらその都度更新して頂けると助かります。
(他の方でも遠慮なくお願いします。でも、イタズラはイヤずら、ですが。)
ご要望があれば新規のページも作成しますので。

白井さん
> 待ってました!
いや、何というか、すみませんです。
<(^^;) ちょっとビックリしました。

> gcannaf.ctd の 1byte目に「0」が抜けているのを発見しました
おrz。さすがです…。全然気づきませんでした。
確認したところ、辞書作成時にちょっとプログラマの方には言えないような恥ずかしいミスをしていました。
修正しておきましたので次回からは大丈夫だと思います。
wiki の FrontPage に情報を載せておきました。
とても助かりました。ありがとうございます m(_ _)m
Posted by vagus at 2008年10月16日 00:34
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック