2009年11月24日

いくつか応答

「|付け|忘れ|が|」
ご指摘有難うございました。
cannadic改 091122 に「わすれ #D2T35 忘れ」を入れたので、「|付け忘れが|」と一文節で出るようになったと思います。

動詞連用形名詞化に手が回ってないせいもそうなんですが、この辺は他にもちょっと問題がありまして…。

「〜し忘れる」「〜し始める」「〜し終わる」「〜し続ける」「〜し切る」「〜し掛ける」「〜し合う」「〜し直す」「〜しまくる」等の「他の動詞連用形に付いて複合動詞を作る物」は、非常に多くの動詞につくため、すべてを登録するのは大変で、また、もしやったら辞書が一気に肥大化するので、どうしたもんかなぁ、で止まっています。

# 「付け忘れる」が一語で動詞で登録されていないと、「付け忘れ」が連用形名詞化の
# リストに上がってこない

D2S5 とか D2KS みたいな品詞コードを作ってみようかなぁとも思ったりしますが、wtype.h, ptab.h, wtab.h に登録しただけじゃ無理そう(anthy 本体の処理の部分もいじらないとダメそう)な気がしますし、やると、またありえない候補を作りまくるかもなぁ…、と。

depgraph に入れると漢字表記が使えなくなるのでやりたくないし。

細かいことを言えば、「〜し直し始める」「〜し忘れかける」みたいに、上記の語が連続する場合もあったり。
でも、まあ、この場合は一文節にしなくてもいいと思いますが。

「動詞連用形+動詞」という並びから言えば、連用修飾の次に用言が来てるわけで、適切な並び順なので、無理に一語/一文節にしなくても、「|遊び|続ける|」のように区切るようにしておいて、「付け忘れ」のような連用形名詞化の場合は、D2T?? でカバー(もしくは、名詞として一語で登録)する、という現状のままでもいいと言えばいいんですが、でも、実際は区切りミスが多いので、そうなると一語/一文節にしたくなるという…。

# あれ? 何か同じことをどこかで書いたような記憶が…
# 書いたけど消しちゃったんだったかな?? まぁいいや。

・「|旧|仕様|」
接頭辞、接尾辞の話は、自分も、全く下書き部分に書かれてる通りだと思っています。

「出すべきものは出せるように、でも、ありえないものは出さないように」しようとすると、

 a. あり得るものだけ一つ一つ辞書に登録する(一般辞書/複合語辞書(/用例辞書))
 b. 品詞コードを細分化して、接続を細かく指定できるようにする
 c. コーパスとかで単語レベルの接続情報を持たせる

のどれかになるのではないかと思いますが、現状は、「誤変換が比較的目立たないか、あるいは、無効にするデメリットの方が大きいもの」は残しつつ、残りを一番原始的だが一番確実な a で凌いでる状況、でしょうか。

b は、一年前くらいに考えたことがありますが、「多分ムリだ」という結論に達しました。詳細は忘れましたが…。

c は正直、よく分かりません。
「|旧|市街|」「|急|発進|」「|問題|外|」とかは行けるかもしれませんが、数詞絡みの表現はどうなんだろう…?


ともあれ、何か上手い手があればいいのですが…。
posted by vagus at 02:25| 東京 ☁| Comment(0) | TrackBack(0) | cannadic改 - 作業メモ | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック