以前からまとめておきたいと思っていながらほったらかしてましたが、内海さんが Anthy-dev にちょうどいいのをポストされてたので、これを機に一度まとめてみたいと思います。
…が、今日は遅くなってしまったので、明日書きます。
<追記>
また遅くなっちゃった…
延期。
<追記2>
書いた↓
続きを読む
2007年08月17日
2007年08月04日
地名不足問題
ご無沙汰です。
忙しかったり疲れてたりで。
一応、cannadic改の方では作業したりあれこれ調べたりとかはしてたんですが、blog 書く元気がなかった。
ところで、掲示板の方で最近、「東尋坊」とか「白川郷」とか「四万十川」とか、「何でそんな『入ってて当然』と思われるような地名が入ってないの?」と言われかねないような登録依頼をいただいてますが、正直言って地名は全然足りてません。
国名とか首都名とか都道府県名、市町村郡名くらいまでは入れてありますが、それより小さい単位の地名とか、あとは山川海岸等含めて観光名所名なんかは全然足りてないと思います。
<追記>
あ、全国の駅名は入れてあったっけ。
あと、温泉名もそこそこ入れた気がする。
続きを読む
忙しかったり疲れてたりで。
一応、cannadic改の方では作業したりあれこれ調べたりとかはしてたんですが、blog 書く元気がなかった。
ところで、掲示板の方で最近、「東尋坊」とか「白川郷」とか「四万十川」とか、「何でそんな『入ってて当然』と思われるような地名が入ってないの?」と言われかねないような登録依頼をいただいてますが、正直言って地名は全然足りてません。
国名とか首都名とか都道府県名、市町村郡名くらいまでは入れてありますが、それより小さい単位の地名とか、あとは山川海岸等含めて観光名所名なんかは全然足りてないと思います。
<追記>
あ、全国の駅名は入れてあったっけ。
あと、温泉名もそこそこ入れた気がする。
続きを読む
2007年07月26日
痛恨の一撃
第3第4水準単漢字辞書の漢字部分の方も、送り仮名ありの読みに「-」を入れる作業を開始してたんですが、間違えて他の要らんファイルと一緒に削除しちまった... orz
またかよ...
まだそんなに進んでなかったのが救いですが。
でもかなりショックだ...
いい加減、面倒くさがらずに、CVS か Subversion の使い方覚えた方がいいかな...
ああ、鬱だ...
またかよ...
まだそんなに進んでなかったのが救いですが。
でもかなりショックだ...
いい加減、面倒くさがらずに、CVS か Subversion の使い方覚えた方がいいかな...
ああ、鬱だ...
2007年07月17日
人名誤登録一覧
オリジナルの cannadic にあった人名のうち、誤登録と判断して削除ないし修正したものの一覧を貼っておきます。
jn-miss.txt
このうちの多くのものは SKK-JISYO.jinmei にもまだ含まれているようなので、メンテナの方が確認&修正する際の一助となればいいなと。
「どこがどうおかしいのか」の説明はしておらず、あくまで「おかしいと判断したもののリスト」でしかないので不親切ですが…。
聞いていただければ答えられると思います。
# どうも大元は Wnn の gerodic っぽいですね。
jn-miss.txt
このうちの多くのものは SKK-JISYO.jinmei にもまだ含まれているようなので、メンテナの方が確認&修正する際の一助となればいいなと。
「どこがどうおかしいのか」の説明はしておらず、あくまで「おかしいと判断したもののリスト」でしかないので不親切ですが…。
聞いていただければ答えられると思います。
# どうも大元は Wnn の gerodic っぽいですね。
2007年07月14日
単漢字問題
【これまでの経緯】
1. 「動く」や「新しい」などの訓読み送りがなありのものや「既に」などの助詞が付くものの読みを送りがなや助詞を付けた形で登録している
例)
うごく #KJ 動
あたらしい #KJ 新
すでに #KJ 既
2. anthy のバージョンによっては「うごく」や「あたらしい」で変換すると、単漢字の「動」や「新」が先頭に来てしまう。
3. 単漢字は「読み」に「:」を付けて変換するようにして回避
例)
うごく: →(変換) 動
あたらしい: →(変換) 新
しかし、「:」(他の記号でも)が半角で入力されるか全角で入力されるかはユーザの環境次第。
その後、単漢字は候補の先頭に来なくなったので、「:」は取って元に戻した
4. しかし、白井さんから「そもそも候補リストにでないようにして欲しい」というご要望を頂いた。
(anthy は cannadic の単漢字辞書を使うよう変更された)
5. 手元の辞書ファイルで、語幹部分と送りがな部分(という言い方は正確ではないが)の間にハイフンを入れた。
例)
うご-く #KJ 動
あたら-しい #KJ 新
すで-に #KJ 既
さらに、リリース用ファイルでは送りがな部分を削除し、
例)
うご #KJ 動
あたら #KJ 新
すで #KJ 既
ファイルも gtankan-okuri.ctd という別ファイルにした。
以上がこれまでの経緯。
続きを読む
1. 「動く」や「新しい」などの訓読み送りがなありのものや「既に」などの助詞が付くものの読みを送りがなや助詞を付けた形で登録している
例)
うごく #KJ 動
あたらしい #KJ 新
すでに #KJ 既
2. anthy のバージョンによっては「うごく」や「あたらしい」で変換すると、単漢字の「動」や「新」が先頭に来てしまう。
3. 単漢字は「読み」に「:」を付けて変換するようにして回避
例)
うごく: →(変換) 動
あたらしい: →(変換) 新
しかし、「:」(他の記号でも)が半角で入力されるか全角で入力されるかはユーザの環境次第。
その後、単漢字は候補の先頭に来なくなったので、「:」は取って元に戻した
4. しかし、白井さんから「そもそも候補リストにでないようにして欲しい」というご要望を頂いた。
(anthy は cannadic の単漢字辞書を使うよう変更された)
5. 手元の辞書ファイルで、語幹部分と送りがな部分(という言い方は正確ではないが)の間にハイフンを入れた。
例)
うご-く #KJ 動
あたら-しい #KJ 新
すで-に #KJ 既
さらに、リリース用ファイルでは送りがな部分を削除し、
例)
うご #KJ 動
あたら #KJ 新
すで #KJ 既
ファイルも gtankan-okuri.ctd という別ファイルにした。
以上がこれまでの経緯。
続きを読む
2007年07月01日
まったく人名って奴は…
2007年03月07日
直近の予定
・地名の並び順見直し --- done
→ 以前やったと思い込んでいたがやってなかった。全部見直した
・主要な品詞(自立語)のエントリすべてに Yahoo! の hit 数をつけてランク分けし、順位情報として使えるかどうか試す
→ 現在 hit 数付加中(残りはあと KK と KY と RT)
・可能動詞を品詞コード「KD」として登録、anthy へのパッチも作る
→ 「書けまい」を正しく出せるようになるだけでなく、辞書側で登録してあれば頻度の調節もできるようになるので「書けない」「行けない」が後ろの方にしか出なくて「ゴルァ」ということもなくなる
canna 用の辞書は anthy 用とは分け、「KD」は「KS」に変換する。もしくはそもそも入れない
取りあえず直近(今月)はこのくらいが限度。
やるべきことはまだまだあるけど。
→ 以前やったと思い込んでいたがやってなかった。全部見直した
・主要な品詞(自立語)のエントリすべてに Yahoo! の hit 数をつけてランク分けし、順位情報として使えるかどうか試す
→ 現在 hit 数付加中(残りはあと KK と KY と RT)
・可能動詞を品詞コード「KD」として登録、anthy へのパッチも作る
→ 「書けまい」を正しく出せるようになるだけでなく、辞書側で登録してあれば頻度の調節もできるようになるので「書けない」「行けない」が後ろの方にしか出なくて「ゴルァ」ということもなくなる
canna 用の辞書は anthy 用とは分け、「KD」は「KS」に変換する。もしくはそもそも入れない
取りあえず直近(今月)はこのくらいが限度。
やるべきことはまだまだあるけど。

