2007年08月17日

anthy の複合語登録について

以前からまとめておきたいと思っていながらほったらかしてましたが、内海さんが Anthy-dev にちょうどいいのをポストされてたので、これを機に一度まとめてみたいと思います。

…が、今日は遅くなってしまったので、明日書きます。

<追記>
また遅くなっちゃった…
延期。

<追記2>
書いた↓

続きを読む
posted by vagus at 12:00| 東京 ☀| Comment(7) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2007年08月04日

地名不足問題

ご無沙汰です。
忙しかったり疲れてたりで。

一応、cannadic改の方では作業したりあれこれ調べたりとかはしてたんですが、blog 書く元気がなかった。

ところで、掲示板の方で最近、「東尋坊」とか「白川郷」とか「四万十川」とか、「何でそんな『入ってて当然』と思われるような地名が入ってないの?」と言われかねないような登録依頼をいただいてますが、正直言って地名は全然足りてません。

国名とか首都名とか都道府県名、市町村郡名くらいまでは入れてありますが、それより小さい単位の地名とか、あとは山川海岸等含めて観光名所名なんかは全然足りてないと思います。

<追記>
あ、全国の駅名は入れてあったっけ。
あと、温泉名もそこそこ入れた気がする。

続きを読む
posted by vagus at 16:09| 東京 🌁| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2007年07月26日

痛恨の一撃

第3第4水準単漢字辞書の漢字部分の方も、送り仮名ありの読みに「-」を入れる作業を開始してたんですが、間違えて他の要らんファイルと一緒に削除しちまった... orz

またかよ...

まだそんなに進んでなかったのが救いですが。
でもかなりショックだ...

いい加減、面倒くさがらずに、CVS か Subversion の使い方覚えた方がいいかな...

ああ、鬱だ...

posted by vagus at 22:29| 東京 🌁| Comment(2) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2007年07月17日

人名誤登録一覧

オリジナルの cannadic にあった人名のうち、誤登録と判断して削除ないし修正したものの一覧を貼っておきます。

jn-miss.txt

このうちの多くのものは SKK-JISYO.jinmei にもまだ含まれているようなので、メンテナの方が確認&修正する際の一助となればいいなと。

「どこがどうおかしいのか」の説明はしておらず、あくまで「おかしいと判断したもののリスト」でしかないので不親切ですが…。
聞いていただければ答えられると思います。

# どうも大元は Wnn の gerodic っぽいですね。

posted by vagus at 00:51| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2007年07月14日

単漢字問題

【これまでの経緯】

1. 「動く」や「新しい」などの訓読み送りがなありのものや「既に」などの助詞が付くものの読みを送りがなや助詞を付けた形で登録している

  例)
   うごく #KJ 動
   あたらしい #KJ 新
   すでに #KJ 既

2. anthy のバージョンによっては「うごく」や「あたらしい」で変換すると、単漢字の「動」や「新」が先頭に来てしまう。

3. 単漢字は「読み」に「:」を付けて変換するようにして回避

  例)
   うごく: →(変換) 動
   あたらしい: →(変換) 新

 しかし、「:」(他の記号でも)が半角で入力されるか全角で入力されるかはユーザの環境次第。
 その後、単漢字は候補の先頭に来なくなったので、「:」は取って元に戻した

4. しかし、白井さんから「そもそも候補リストにでないようにして欲しい」というご要望を頂いた
  (anthy は cannadic の単漢字辞書を使うよう変更された)

5. 手元の辞書ファイルで、語幹部分と送りがな部分(という言い方は正確ではないが)の間にハイフンを入れた。

  例)
   うご-く #KJ 動
   あたら-しい #KJ 新
   すで-に #KJ 既

  さらに、リリース用ファイルでは送りがな部分を削除し、

  例)
   うご #KJ 動
   あたら #KJ 新
   すで #KJ 既

  ファイルも gtankan-okuri.ctd という別ファイルにした。


以上がこれまでの経緯。

続きを読む
posted by vagus at 19:14| 東京 ☔| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2007年07月01日

まったく人名って奴は…

合ってんのか間違ってんのか、ほんとにワケワカメ。

「苦労して調べて直しても、もしかしたらこんなの誰も一回も変換しないかもしれんのだよなぁ」と思うと、禁煙のイライラも相俟って、ちゃぶ台返しメーターの針が振り切れそうです。

ところで、
ひょうす #JN 兵頭
ってのがあって、ホンマかよと思ってググったら、出てきたのがなんと Matzにっき。ホンマでっかって、同級生にいたそうなので本当なんでしょうね。しかし、Google でも他にはまったく引っかかってこないし、名字見聞録名字データベースでも出てこないんですよねぇ。
辞書にはさらに
ひょうず #JN 兵頭
と濁るのも入ってて、もう… 知らんわ。

posted by vagus at 05:48| 東京 🌁| Comment(5) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

2007年03月07日

直近の予定

・地名の並び順見直し --- done
 → 以前やったと思い込んでいたがやってなかった。全部見直した

・主要な品詞(自立語)のエントリすべてに Yahoo! の hit 数をつけてランク分けし、順位情報として使えるかどうか試す
 → 現在 hit 数付加中(残りはあと KK と KY と RT)

・可能動詞を品詞コード「KD」として登録、anthy へのパッチも作る
 → 「書けまい」を正しく出せるようになるだけでなく、辞書側で登録してあれば頻度の調節もできるようになるので「書けない」「行けない」が後ろの方にしか出なくて「ゴルァ」ということもなくなる
   canna 用の辞書は anthy 用とは分け、「KD」は「KS」に変換する。もしくはそもそも入れない


取りあえず直近(今月)はこのくらいが限度。
やるべきことはまだまだあるけど。
posted by vagus at 23:50| 東京 ☀| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。