2010年01月10日

depgraph改: 100109 【追記】1/10, 1/11, 1/20, 1/22, 1/26

細かい所を気にし出したらキリがないので、出しました。
左のリンクからどうぞ。

暫定版からの変更点は、

・gcanna.ctd → gcanna.t にファイル名変更
・make update_params0 時に calctrans/devide.shdivide.sh で corpus.{1,3,5,x}.txt から corpus.{y,z}.txt を自動生成するようにした
・あと、辞書や depgraph の細かい修正

です。

一応、パッケージも置いときます。(1/11 1/21 1時頃 更新)
anthy-9100h.orig.newdep.final.tar.gz
・anthy-9100h.patch13B-09Y15.newdep.final.tar.bz2
・anthy-9100h.patch13B-09Z21.newdep.final.tar.bz2


リリースものはこれで終了です。
あとは、後片付け。

【追記】1/10
diff -r anthy-9100h.orig.newdep.final/alt-cannadic/gcanna.t alt-depgraph-100109/anthy-9100h.org/alt-cannadic/gcanna.t
111360c111360
< へり #T35*300 縁 #T35*252 ヘリ 減り #T35*200 へり
---
> へり #T35*252 ヘリ 減り #T35*200 へり #T35*150 縁
これは意図的なものです。「縁(へり)」より「ヘリ(ヘリコプターの略)」の方がよく使うだろうし、「縁」は「へり」より「ふち」の方が一般的だろうし、ということで。…ということでいいのかな?
gt_okuri.ctd , gkuten.ctd が消えた?
綴り間違い?、誤?:devide.sh、正?:divide.sh
gt_okuri.ctd , gkuten.ctd は Canna 用なので。anthy の場合は、extra/gt-tankanji_okuri.t と extra/gt-kuten-* をお使い下さい。
devide.sh はご指摘の通りです orz
素で「devide」だと思ってました…(超恥

ちなみに、corpus.{y,z}.txt の目的は、短い文節で変換した時の変換精度が悪かったのを(労力をかけずに)改善しよう、ということです。一応それなりに効果があるんじゃないかと思ってますが。

【追記】1/11
そのままにしておくのはあまりにみっともなかったので、出し直しました。

・calctrans/devide.sh -> divide.sh にファイル名変更(G-HAL 氏に感謝)
・Changes.txt が何故か消えていたので、入れ直した

上のパッケージも更新済みです。

「へり」は、
vagus.up.seesaa.net側に置いてあるパッケージと、
sourceforge.jp側に置いてあるアーカイブとで、
内容が違っていました。
げ、すみません。一部更新漏れがあったようです。これも更新しておきました。ご指摘ありがとうございます。

【追記】1/20
alt-cannadic/Changes.txt
alt-cannadic/README_euc.txt
alt-cannadic/extra/README
の3ファイルが、パッケージ/アーカイブ毎に違う物になっている模様。

alt-cannadic/extra/README
alt-cannadic/extra/g-jiritu-34.t
が、古い版に戻っている模様。

パッケージ側の
configure.ac
config.h.in (configure.ac からautoreconfにて生成)
が謎の文字コードになっている模様。
ご指摘ありがとうございます。直して全部出し直しました(反応が遅くてすみません)。
# これだけだと寂しい気がしたので、gcanna.t に 400語ほど追加した

これでほんとに最後…だといいなぁ…。
また不備があったりして…

【追記】1/21
ああ、クソ、不備見つけた… orz

【追記】1/26
--- alt-depgraph-100120/alt-cannadic/gcanna.t.orig	2010-01-20 22:24:48.000000000 +0900
+++ alt-depgraph-100120/alt-cannadic/gcanna.t 2010-01-26 20:09:35.000000000 +0900
@@ -55898,9 +55898,9 @@
しゅびよく #F14*200 首尾よく #F14*150 首尾良く
しゅびりょく #T35*200 守備力
しゅぴーげる #T35*150 シュピーゲル
-しゅぴっつぁー #TJN*10 シュピッツァー
-しゅぴっつあー #TJN*10 シュピッツアー
-しゅぴってらー #TJN*10 シュピッテラー
+しゅぴっつぁー #JN*10 シュピッツァー
+しゅぴっつあー #JN*10 シュピッツアー
+しゅぴってらー #JN*10 シュピッテラー
しゅふ #T35*300 主婦 #T35*250 主夫 #T35*150 首府
しゅふぎょう #T35*250 主婦業 #T35*200 主夫業
しゅふとせいかつしゃ #KK*150 主婦と生活社
@@ -121125,7 +121125,7 @@
みらさか #CN*100 三良坂 #JN*10 三良坂
みらの #CN*180 ミラノ
みらびりす #T35*150 ミラビリス
-みらぼー #TJN*20 ミラボー
+みらぼー #JN*20 ミラボー
みらんだ #JN*100 ミランダ
みらんど #JN*10 ミランド
みり #T35*300 ミリ #JN*150 美里
です。
これだけなので、もう出し直しはしません。悪しからず。

ちなみに、configure.ac が化けてたのは、
「kwrite3 で開いたが、文字コードの自動認識はしてくれないので UTF-8 になってた。普段はここで eucjp で再読み込みするんですが、うっかり忘れて、UTF-8 のまま保存した」
ためです。ハズカシイ…。
posted by vagus at 00:33| 東京 ☀| Comment(2) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
ご無沙汰しております。
「たんたんめん」で気がついた事があったのでご報告まで。

担担麺 - Wikipedia
http://ja.wikipedia.org/wiki/%E6%8B%85%E6%8B%85%E9%BA%BA
>日本では、店のメニューに「坦坦麺」
>もしくは「坦々麺」と書いてある例も
>少なくないが(正:担、誤:坦)、これは
>日本語入力の際の漢字変換辞書に
>「担担麺」が登録されておらず、
>「平坦な」という意味の「坦坦」、
>「坦々」が呼び出されたのに気づかずに
>確定してしまったことによる誤記と
>考えられる。
Posted by salvan at 2010年02月20日 18:35
いつもご指摘ありがとうございます。
手元では修正しておきました。

Posted by vagus at 2010年02月24日 23:20
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。