2009年04月15日

D2T35 を有効にする方法

一昨日昨日からの続き。

なんともう反応が。さすが、仕事が速い…。
#D2T35 に関して。
[Anthy-dev 3457] 2007年 4月 20日 (金) anthy-8819 では使える状態だったが、
[Anthy-dev 3465] 2007年 5月 7日 (月) anthy-8906 にて使えない状態になっていた。
anthy-8906/DIARY に
> --(2007/04/25)(yusuke)
> 「運転席|側」のように接尾辞は別文節にする
とあるので、故意に切ったと思われます。
src-worddic/wtab.h の #D2T35 の行を
> {"#D2T35",POS_NOUN,COS_SUFFIX,SCOS_T40,CC_NONE,CT_NONE,WF_INDEP /* "名詞化接尾語(っぱなし)"*/},
に書き換えて、depgraph/verb_base.depdef に
> @カ行5段連用形5 "き" Cy@
を追加した所、「書き様」(かきよう)が1文節で生成できた。
「書」(か)#K5、「き」付属語、「様」(よう)#D2T35。
# 付属語グラフで「HvCy@」とかすれば、元の品詞が何であっても #D2T35 が付けられる様な気が。
この辺りの複合語は、きりが無いので、バッサリ切り捨ててしまうのも手かと思います。
「書き|方|する」とすれば変換できますし。

おおう、そうでしたか。
確かに「|書き様|」「|書き方|」で変換できました。
さらに「|書かれ方|」もできました。つまり、助動詞が挟まっても D2T35 は効きました。

本当は depgraph/conjugate_table_indep.depdef で
> @_カ行5段語幹後 "" Cy@カ行5段連用形5
という風にしたいんですが、これじゃ効かないらしい。「Cy@ノード名」となってるとダメで、「Cy@」という風に「@」で終わってないとダメらしい。どうしてかは何となく想像がつく気はする。

D2T16 は元々使われてなかったのか。
N2T35 で使われてた T41 は anthy/wtype.h からも消されてますね。使う場合はこっちも T40 で構わないだろうし、問題ないか。【追記】4/22 N2T では使えなかった。
T40 は後ろの付属語は T35 と同じっぽい(ちゃんと確かめたわけじゃないけど)。【追記】5/4 自分が depgraph でそうしていただけだった。

なるほど。やり方は分かったぞ。ありがとうございます。
後は、実際に使うかどうかをもう少し考えます。
「書き|方|する」という風に区切るのは、

 ・「連用形+名詞」という並びになるのが嬉しくない
 ・「着|方」「見|方」のように、動詞の語幹部分の読みが 1文字しかないもののことを考えると辛い

というのがありますので。
まあ、「これで万事OK」という解はありえないですけれども。

「[こそあど]の程度」「ある程度」は、いっそ全部消すのも、一つの手かと思います。
変換する時に「|××程度|」になったり「|××|程度」になったりで迷わなくて済みますので。

そうですね。
ただ気になるのは、「消しちゃって、Canna は大丈夫なのか?」ということなんですが…。
一応「確認は Anthy で行い、Canna では行っていません」と言ってあるので、いいと言えばいいんですが、「|××程度|」になったり「|××|程度」になったりで迷うという程度のことなら、Canna ユーザのために残しておいてあげた方がいいかなと。
posted by vagus at 00:11| 東京 ☁| Comment(2) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
何か色々とお疲れさまです。
ええと、ここでいいのかな。
alt-depgraph-0905xx にて D2KY,yasui,D2T16,D2T35 あたりの連用形が使われていますが、2点、問題がある事に気付きました(原作版anthy用 alt-depgraph, 拙作パッチ用alt-depgraph、共にあてはまります)。

(1) 連用形用の品詞は、wtab.h にて WF_INDEP にしないと、候補が生成されない事がある。
(2) 文節区切りの位置を手動で指定/変更すると、連用形の候補が生成されない。

(1)に関しては、単純に wtab.h にて WF_NONE を WF_INDEP に書き変えれば、候補が生成される様になりました。
副作用として、「っ放し」や「甲斐」などが、単独の文節でも出てくる様になります。

(2)に関しては、src-splitter/evalborder.c の metaword_constraint_check() の処理を改造するしかない模様です。
副作用は、現在実地で試している範囲では見つかっていません。
Posted by G-HAL at 2009年06月29日 22:41
わざわざお知らせ頂き、ありがとうございます。

(1)は、原作 Anthy を見て、「接尾語なのに何で WF_INDEP ?」と思って、私が勝手に変更したもののように思います。ちゃんと理由があってのことだったんですね。戻しておきます。

Posted by vagus at 2009年06月30日 01:13
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック