2008年11月01日

Anthy, Canna用 成分未調整アウトレット辞書 alt-gskk

復帰した時に、最近の状況はどうなってるのかと色々検索していて gskk-for-alt-cannadic (下の方)というのを知り、そこから gskk という辞書の存在を知りました(不覚にもそれまで知らなかった…)。

gskk-for-alt-cannadic の中を見ると、入っていて当然な語句がまだまだ入ってないことを思い知らされてブルーになりましたが、それは置いておいて、元になった gskk が 2004年12月8日作成と随分古かったので、最新の SKK-JISYO.L をベースにして作り直しました。

元にしたのは、2008年10月15日に落としてきた SKK-JISYO.L

そこから、

 ・送りなしのエントリのみを対象
 ・cannadic改 081018版に含まれていないものを抽出
 ・SKK 独自の登録形式のエントリを除外
 ・読みがひらがな以外のものを除外

して、

 ・品詞コードはすべて T35
 ・頻度はすべて「1」

にしたものです。
(ただ、候補が一文字のものはほとんど単漢字で、人名用の読みとか特殊なものが多かったので、ファイルを分けました)。

それ以上は一切調整などをしていない、完全未調整のアウトレット辞書です。

ダウンロード

「*.t」が anthy 用(UTF-8、LANG=C で sort 済み)、
「*.ctd」が canna 用(EUC-JP、読みが同じものは一行にまとめてある)です。

anthy では anthy/mkworddic/ に入れてコンパイルする方法でも、~/.anthy/imported_words_default.d/ に放り込んで個人辞書として使う方法でも、どちらでも使えるはずです。

canna での使い方は元の gskk と同じなのでこのサイトとかを参考にして下さい。ググれば他にも出てきます。

なお、ライセンスは SKK-JISYO の GPL を継承します。

SKK-JISYO の編纂に関わられた方々に感謝しつつお使い下さい。


≪独り言≫
本当は、辞書屋の仁義というか(そんな立派なもんじゃないですが)、更新継続中の辞書から貰ってくるというのは、他人が苦労して作ったものからおいしいとこだけを楽して取ってくるみたいで、あまりやりたくなかったんですが、かと言って、入っていて当然な語がいつまでもないままというのも申し訳ないですし、自分も十分な語彙数になるまで続けていられるわけではないので、利用させて頂くことにしました。

あと何か、説明が投げやりですみません。ちと疲れてるので…
後で読み直して足りないところがあったら追記します。
posted by vagus at 00:04| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - その他 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック