2006年12月22日

jis 第3第4水準単漢字辞書

anthy-8409 以降の dict.args.in を見ると次の一行が追加されている。
set_dict_encoding eucjp

ここの「eucjp」を「utf8」とかにしてやると utf-8 な共有辞書が生成されるんではないかと思うが、まだ確認していない。日曜まで時間が取れないので日曜に確認するつもり。

もしお代官様が農民の願いを聞き入れて下さって、共有辞書が utf-8 化できるようになったのだとすると、anthy で第3第4水準の文字が使えるわけで、こちらとしても「おお、第3第4水準の単漢字辞書を出さねば」ということになるわけですが、今月はムリです... orz

ML には「8割方できてます」と書きましたが、後でよく見たら6割くらいですた(w
いや、作業したのが随分前で、その時「あとこんだけのことをすれば終わりだけど、どうせまだしばらくは使えないんだから一旦ここらで止めとくか」と思ったのが記憶にあって、それが「8割方」という感覚になってました。ごめんなさい。

でも、何とか頑張って 1 月には出します。

ところで、「多分 canna では使えないだろうから anthy 用と canna 用とで分けてリリースするようにしないとダメかな」とか考えてたんですが、何か canna でも第3第4水準の文字を出せるとかいうウワサが...。何でも EUC-JIS-2004 な環境にすればいいらしいですが、未確認です。

もっとも、第3第4水準の文字に関してはこれから多分色々問題が出てくると思うので、自分で対処できる人以外はまだ使用を控えた方がいいと思います。当面は私も普段の環境では使う気はありません。vista が出て、「化けたぞ、ゴラァ」等の祭りが一段落するくらいまでかな?

ただ、「使用はあくまでユーザの自己責任で」とは言っても、やはり、 atok みたいでなくてもいいけど、何らかの形で「この候補には第3第4水準の文字が含まれていますよ」とユーザに注意を喚起するような仕組みは必要だとは思います。で、中本さんが今作業されている独自候補ウィンドウというのがそれに使えるのかなと思って眺めています。「語義・語法」が出ているところに、代わりに「この候補には第3第4水準の文字が含まれているため、他の環境で表示できないなどの問題が発生する恐れがあります」とかの警告文を表示させてやればいいかと。

でも、scim-anthy 以外のフロントエンドを使ってる人はどうすれば...
...えー、多分エライ人が何とかしてくれるでしょう。多分... きっと... うん、じゃないかな...

そうそう、あと、第3第4水準の文字に関しては単漢字辞書はできるだけ早く出しますが、第3第4水準の文字を含んだ一般のエントリ(人名や普通名詞や動詞等)については当面は積極的に作業するつもりはありません。
というか、これ、どういう風に扱うか考えんといかんな...。 第1第2水準のエントリと一緒じゃマズいだろうから。

posted by vagus at 10:46| 東京 🌁| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック