2008年10月18日

cannadic改 20081018

alt-cannadic-20081012 は、実は他にも色々ミスっていたので出し直しました。
20081012 はなかったことにして下さい。

以下、変更点。

* gcannaf.ctd: 読みが欠けたものがあったのを修正(白井さんに感謝)
* 単漢字: スクリプトのミスで候補の重複や欠落があったのを修正

この二つは、以前スクリプトの変更をやりかけたままずっと放ったらかしていたのを、12日にリリースするために動くようにしたんですが、やはり抜けがありました。「過去の自分は他人」というのはまさに至言。
(本当はもっと前からだった気もするけど、知りたくないので調べない)。

* 単漢字の漢字部分: 名詞(一般名詞+固有名詞)に同じエントリがあるものは弾くようにした。gtankan.ctd: 73.8KB → 54.9KB にダイエット

たとえば、「あい #KJ 愛」というのは「あい #T30 愛」というのがあれば不要だと思うので、リリース用辞書からは外すようにした。手許のメンテ用辞書には残してある。

* gt_okuri.t を gt-tankanji_okuri-std.t にリネームし extra に。
また辞書形式が中途半端な状態だったのを1行1エントリ形式に修正。

やはり、gt_okuri.t は extra 扱いにした方がいいと考え直し、名前も他のに合わせて変更した。
また、辞書形式が「読みが同じものをすべて 1行にまとめる」という canna 的な形式のようで実はそうでない、という中途半端な状態だったのに(やっと)気づき、~/.anthy/imported_words_default/ に入れて使えるよう、1行1エントリ形式に修正。
さらに、UTF-8 なのに sample/dict.args.in.{euc,utf8} には eucjp のセクションに書いていたのも修正した。

* 助数詞をちょっと増やした

* エントリ数の集計をリリース用辞書から行うように変更(これまでは手許のメンテ用の辞書から集計していた)。
* また、canna と anthy とで分けて集計するようにした

ついでに、集計時にフォーマットが狂っていないかもチェックするようにし、読みが欠けていたり、品詞コードだけあって候補がなかったりするようなものがないかチェックするようにした。


こんな感じです。

辞書ファイルがたくさんあって混乱するかもしれませんが、anthy では、基本的には、

  • anthy.dic は extra/ にあるものは使わず、dict.args.in.euc に従って eucjp で作成

  • extra/ にある辞書は必要なものを ~/.anthy/imported_words_default/ に入れて個人用辞書として使う


というのがいいと思っています。

posted by vagus at 16:02| 東京 ☀| Comment(6) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
以前から句読点が「,.」に変換されるのが
気になっていたのですが、
理由がわかりませんでした。

例えば「まどを、ひらく。」が
「窓を,開く.」のように変換されてしまいます。

これはgtankan.ctdで
、 #KJ*5 ,
。 #KJ*5 .
と指定されているからのようです。

このように修正すると
、 #KJ*5 ,
、 #KJ*10 、
。 #KJ*5 .
。 #KJ*10 。
「窓を、開く。」と変換されるようになりました。
Posted by ut at 2008年10月22日 18:51
お久しぶりです。大変ご無沙汰致しまして…

> 例えば「まどを、ひらく。」が
> 「窓を,開く.」のように変換されてしまいます。
こちらでは「窓を、開く.」になりますね。
なぜ「、」はそのままで「。」だけ…。

基本的に読みと候補が同じものは不要かなと思って入れていないんですが、「、」「。」「,」「.」についてはあった方がいいのかな?
入れて優先するようにしておきます。

…あれ?「,」「.」がないな。これも入れておきます。
Posted by vagus at 2008年10月22日 22:34
> こちらでは「窓を、開く.」になりますね。

あ、ひょっとしたらそうだったかもしれません。
環境を元に戻さずに記憶で書いてしまったので...
私のほうではコーパスを切ったり
辞書をいじったりしているので、
標準とは違う結果になっているかもしれません。
scim-anthyだと句読点を変更できたと
思いますので、
IMによっても違うのかもしれません。

> 入れて優先するようにしておきます。
お手数をお掛けします。

> 基本的に読みと候補が同じものは不要かなと
句読点込みで変換する人も多いと
思いますので、
候補として入れておくほうが
良いと思います。

いま思いついたのですが、
「!」「?」も標準では全角のほうが
良いかもしれませんね。

「そうだった!」よりも
「そうだった!」のほうが
一般的のような気がします。
(MS-IMEの挙動はそうだったような?)
私自身は半角の「!」「?」を
良く使いますが。
Posted by ut at 2008年10月22日 23:05
「」も第一候補は『』ではなく
「」のほうが良いかもしれませんね。
それと()も。

いまWindows環境を確認できないので
何ともいえないのですが、
記号の第一候補は
MS-IMEに合わせておくほうが
無難かもしれません。
Posted by ut at 2008年10月22日 23:47
> scim-anthyだと句読点を変更できたと
> 思いますので、
> IMによっても違うのかもしれません。

IM で変更できるのは「変換前の文字」(読みに当たる文字)なので、変換キーを押した後の候補の並び順は多分どの IM でも同じだと思いますよ。

> 句読点込みで変換する人も多いと思いますので、
> 候補として入れておくほうが良いと思います。

句読点については、確かにそうかもしれませんね。
(実際どのくらいいるんだろう?)

ただ、「!」「?」といった記号や括弧についてはちょっとどうなのかな、という気がします。個人的には嫌ですねぇ…

この辺、一般的にはどうなんでしょう?
文章も記号や括弧も込みで一緒に変換する人が多いのか、それとも文章は文章で変換して、記号類は記号類で単独で入力する人が多いのか…

私は後者なんですが。
句読点も含めて、記号類を入力する時は常に記号類だけで入力(確定)します。

なので、「「」を入力したければ変換キー押さずにそのまま確定すればいいんじゃないの?」とか思ってしまうんですが。

それに、「」でさらに変換キーを押すのは "「」じゃない括弧を出したいとき" なので、変換したのにまた最初の候補が"「」"だったら逆に嫌なんですよねぇ。
「変換したのに同じやん」と突っ込みたくなるし、自分が入力したい候補に辿り着くまでに変換キーを押す回数が常に 1回増えることになるのでやりたくないです。

句読点は確かに込みで変換する人も多いかなと思うので、内海さんのご提案通りにしようと思いますが、他の記号類については他の方から要望があるようならまた考えるということにしたいと思います。

> 記号の第一候補は
> MS-IMEに合わせておくほうが
> 無難かもしれません。

申し訳ありませんが、ウチの windows は雷に撃たれて死にました…
なので、確認できませぬ。
Posted by vagus at 2008年10月23日 00:53
> ただ、「!」「?」といった記号や括弧についてはちょっとどうなのかな、という気がします。個人的には嫌ですねぇ…

そうですね。私も「!」「?」や括弧は単独で入力します。
句読点も基本的には単独で入力するのですが、たまに句読点込みで変換してしまうことがあるので、そういうときに不便を感じていました。

> 他の記号類については他の方から要望があるようならまた考えるということにしたいと思います。

了解しました。
Posted by ut at 2008年10月23日 01:51
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック