2007年08月10日

extra のみ出し直し

焦げそうな一日でしたね、今日は。

昨日も書きましたとおり、白井さんと松鵜さんのお陰で gt34-tankanji-hikanji.t が ~/.anthy/imported_words_default.d/ に置いても使えることが判明しましたので、出し直しました。

ついでに、ベースとして JISX0213 InfoCenter の「漢字音訓索引(onkun0213.txt [2000-09-11])」を使わせて頂いていることを README に書いていなかったので、書き足しました。

以下、蛇足というか備忘録。

  • ~/.anthy/imported_words_default.d/ に置くファイルは LANG=C で sort していなければならない

  • ただし、それは読みの部分だけでいいらしい。品詞コードや候補の部分は LANG=C でなくても、またそもそも sort されてなくてもいいらしい

  • C と ja_JP.UTF-8 とで並び順が変わるのは、ひらがな以外の文字が入ってきたときらしい。ひらがなだけなら多分一緒。
    だから、ja_JP.UTF-8 で sort したのにも関わらず gt34-tankanji-hikanji.t 以外の 2ファイルは使えたのだと思う。
    この 2ファイルの読みはケツの「t」以外はすべてひらがななので。
    <追記>(ただ、白井さんによると Solaris8 では locale によって変わることはないらしい。ザウルスや Cygwin も?ってことは多分、SUSE や Fedora 等 Linux のディストリビュータが当てている i18n のパッチはこの辺の関係のものなんでしょう。)

  • anthy が何故 LANG=C で sort するようになってるのかは分からないが、多分田畑さんは読みに数字や記号が使われることは想定してなかったんではないかと思う。
    「読み」と言えば普通ひらがなだし、ひらがなだけなら locale 多分関係ないしで、この辺は気にしてなかったんではないかと想像。
    自分はそこに見事にハマった、と。
    加えて、せっかく LANG=C で sort してみることを思いついておきながら、「-d」を外すのを忘れてたとか、自前でも穴掘ってドツボった、と。



うーん、「夏全開、自分らしさも全開」って感じ。

posted by vagus at 00:07| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック