2007年07月14日

単漢字問題

【これまでの経緯】

1. 「動く」や「新しい」などの訓読み送りがなありのものや「既に」などの助詞が付くものの読みを送りがなや助詞を付けた形で登録している

  例)
   うごく #KJ 動
   あたらしい #KJ 新
   すでに #KJ 既

2. anthy のバージョンによっては「うごく」や「あたらしい」で変換すると、単漢字の「動」や「新」が先頭に来てしまう。

3. 単漢字は「読み」に「:」を付けて変換するようにして回避

  例)
   うごく: →(変換) 動
   あたらしい: →(変換) 新

 しかし、「:」(他の記号でも)が半角で入力されるか全角で入力されるかはユーザの環境次第。
 その後、単漢字は候補の先頭に来なくなったので、「:」は取って元に戻した

4. しかし、白井さんから「そもそも候補リストにでないようにして欲しい」というご要望を頂いた
  (anthy は cannadic の単漢字辞書を使うよう変更された)

5. 手元の辞書ファイルで、語幹部分と送りがな部分(という言い方は正確ではないが)の間にハイフンを入れた。

  例)
   うご-く #KJ 動
   あたら-しい #KJ 新
   すで-に #KJ 既

  さらに、リリース用ファイルでは送りがな部分を削除し、

  例)
   うご #KJ 動
   あたら #KJ 新
   すで #KJ 既

  ファイルも gtankan-okuri.ctd という別ファイルにした。


以上がこれまでの経緯。

現在の anthy のデフォルトでは gtankan-okuri.ctd だけでなく、gtankan.ctd(そもそも送りがな部分を持たないもの)も(何故か)外されたままで、cannadic の単漢字辞書が使われています。
gtankan.ctd には記号類も入っているので、「記号と読みの対照表」を見て入力してるのに出したい記号が出てこない、ということが起こっているかと思います。

# anthyスレにギリシャ文字やキリル文字の辞書を貼ってくれた人も、このパターンかもしれません。もしそうならごめんなさい。

で、「こりゃいかん。一応対応は終わってるんだから、gtankan を使って貰うよう田畑さんにお願いしなければ」と思ったわけですが、「gtankan-okuri.ctd も入れて貰うようお願いしても大丈夫かな?」と思って調べたんですが、不味いことが判明してしまいました。

「たわむ」で変換すると「戯」(「たわむ-れる」から「-れる」を削除した読み)とかが出てきてしまう。しかも「撓む」より先に。

「しょーがない。候補リストに出てこないようにするには上の 3. のように何かをくっつけるしかないな」と思ったものの、記号や数字は上述の「全角/半角はユーザの環境依存」という問題があるので使えない。

ならば、というわけで「読み」に「t」を付けた形で出すようにしました。
アルファベットなら多分常に半角だろうと思うし、フロントエンドはローマ字入力でもかなに直してから anthy に投げるだろうから変なところで区切られたりしないだろう、と思ったので。

  例)
   うごくt #KJ 動
   あたらしいt #KJ 新
   すでにt #KJ 既

「再変換時におかしくなるかな」とちょっと不安でしたが大丈夫そうです。

「これは結構いい思いつきだ、これ以上の解決策はもうないだろう」と一人でかんどーしてたんですが、これでもまだダメっすね…。
かな入力派の人は多分「t」を入力できないですよね…?
できても面倒なことしないとダメとか。

しかし、もう辞書側ではこれ以上の対応は不可能だと思うので、かな入力派の人には申し訳ないですが、次回のリリースからこれで行きます。

で、次回リリースしたらその時に gtankan* を使って貰うよう田畑さんにお願いします。
今すぐ gtankan.ctd を使いたい人は、お手数ですが mkworddic/dict.args にある gtankan.ctd の行のコメントを外し、tankanji.t をコメントアウトして anthy.dic を作り直してください。
gtankan-okuri.ctd についてはまだ入れない方がいいでしょう。

# さっき別件で Anthy-dev にメール出したんだが、承認待ちにされてしまった。
# 「本文が長すぎます」って、そんなに長くないと思うんだけど…
# 設定が変わったんだろうか?
# ひょっとして、添付した gzip ファイルが展開されて本文とみなされた? zip にしときゃよかったかな…
posted by vagus at 19:14| 東京 ☔| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は90日以上新しい記事の投稿がない ブログに表示されております。