2009年12月31日

暫定版: depgraph改 【追記】1/2

案の定間に合わないので、手元のものをそのまま丸ごとパッケージ化して、暫定版として置いておきます。

A. anthy-9100h.orig.newdep.tar.gz
B. anthy-9100h.09Y15.newdep.tar.bz2
C. anthy-9100h.09Z21.newdep.tar.bz2

※どれも展開後のディレクトリ名は "anthy-9100h/" になるので注意!!
 make dist でパッケージングしたため。.gz と .bz2 があるのもそのため。
※ほとんどテストできてないので、もしかしたらうまく動かないかもしれません。

それぞれベースは、

A. anthy-9100h.tar.gz のみ
B. anthy-9100h.tar.gz +
  anthy-9100h.patch13Bptn23.iconv.2009Y15.bz2 + anthy-9100h.mkworddic_fix.tar.bz2
C. anthy-9100h.patch13B-23-iconv-ucdict-combinedphrases.2009Z21.alt-depgraph-090712.alt-cannadic-091122.tar.lzma

です。

C は試験版なので、通常は B もしくは A をお使い下さい。

[変更点]

・辞書は alt-cannadic 091230 版相当にしましたが、さらに品詞コードも一部変わってます(後述)。

・alt-depgraph-090712 同様、alt-cannadic/extra/ にある辞書は $(datadir)/anthy/extradics/ 以下にインストールされるようになってます。
$ ln -s /usr/share/anthy/extradics/gt-tankanji_hikaji-uni.t \
~/.anthy/imported_words_default.d/uni-kigou.t
とかすれば使えます。

・corpus.{1,3,5,x}.txt から corpus.{y,z}.txt を生成。
 corpus.y.txt は「2文節以上の例文を 1文節ごとに分割したもの」。
|あたらしい|あさが|きた| |新しい|朝が|来た|
   ↓
|あたらしい| |新しい|
|あさが| |朝が|
|きた| |来た|

 corpus.z.txt は「3文節以上の例文を 2文節ごとに分割したもの」。
|あたらしい|あさが|きた| |新しい|朝が|来た|
   ↓
|あたらしい|あさが| |新しい|朝が|
|あさが|きた| |朝が|来た|

これによって例文数が増えたので、update_params2 は以前の 3回から 2回に減らしてみた。

尚、試験版の C は接頭辞、接尾辞を自立語と合成せず、分割するように変更されているため、本当は例文もそれに合わせて修正しなければならないが、大変なのでやっていない。

・形容詞の品詞コードを細分化した。
 このため、ここに入っている gcanna.ctd は anthy, canna との互換性はありません(最後なので非互換な変更をしてもいいかなと。ずっとやりたかったので)。

*「寒し」「青し」を正しく出すために、ク活用とシク活用を区別
* ウ音便は KYU を使うように
* イ音便、エ音便は "KYi" "KYe" にしていたのをウ音便に合わせて "KYI" "KYE" に変更
*「いい」「ない」「よい」は特殊なので、専用の品詞コードを割り当て
 * 「いい」: 終止形と連体形しかない
 * 「ない」: 「そうだ」が付く時「なそうだ」になる。また、「すぎる」が付く時も「なすぎる」になる
 * 「よい」: 「そうだ」が付く時「よそうだ」になる。でも、「すぎる」が付く時は一般の形容詞同様「よすぎる」になる(「さ」を挟まない)










新品詞コード元の品詞コード説明
KYKY形容詞ク活用
KYsKY形容詞シク活用
KYiiKY「いい」
KYnKY「無い」
KYyKY「よい」
KYUF1[24]形容詞ウ音便
KYIKYi形容詞イ音便
KYEKYe形容詞エ音便


depgraph については、勿論まだ抜けや間違いは残ってるとは思いますが、自分の中ではこれでもう「完成と言いたい」レベルに達したと思うので(ちゃんとリリースしたら)終了です。

それでは、よいお年を。

【追記】1/2
gcanna.ctd は alt-cannadic-091230 の gcanna.ctd よりもちょっと増えてます(バレたか)。alt-cannadic-091230 を出した後に追加したものなので、リリース漏れとかではありません。習慣でつい「これは登録してあったっけ?」と気になってしまい、調べて「…ありゃ、なかった」となると、登録しないわけにもいかず…。
ちなみに、今現在、さらにまたちょっと増えてます。
完全に手を引くまでは続くでしょう。

あと、calctrans/corpus.z.txt を Makefile.am に追加するのを忘れてたので、corpus.z.txt が入ってなかったりする。しかも、corpus.y.txt の冒頭のコメントの例が間違ってたりする。最終版はちゃんと直して出します。

posted by vagus at 23:32| 東京 ☁| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック