ご指摘有難うございました。
cannadic改 091122 に「わすれ #D2T35 忘れ」を入れたので、「|付け忘れが|」と一文節で出るようになったと思います。
動詞連用形名詞化に手が回ってないせいもそうなんですが、この辺は他にもちょっと問題がありまして…。
「〜し忘れる」「〜し始める」「〜し終わる」「〜し続ける」「〜し切る」「〜し掛ける」「〜し合う」「〜し直す」「〜しまくる」等の「他の動詞連用形に付いて複合動詞を作る物」は、非常に多くの動詞につくため、すべてを登録するのは大変で、また、もしやったら辞書が一気に肥大化するので、どうしたもんかなぁ、で止まっています。
# 「付け忘れる」が一語で動詞で登録されていないと、「付け忘れ」が連用形名詞化の
# リストに上がってこない
D2S5 とか D2KS みたいな品詞コードを作ってみようかなぁとも思ったりしますが、wtype.h, ptab.h, wtab.h に登録しただけじゃ無理そう(anthy 本体の処理の部分もいじらないとダメそう)な気がしますし、やると、またありえない候補を作りまくるかもなぁ…、と。
depgraph に入れると漢字表記が使えなくなるのでやりたくないし。
細かいことを言えば、「〜し直し始める」「〜し忘れかける」みたいに、上記の語が連続する場合もあったり。
でも、まあ、この場合は一文節にしなくてもいいと思いますが。
「動詞連用形+動詞」という並びから言えば、連用修飾の次に用言が来てるわけで、適切な並び順なので、無理に一語/一文節にしなくても、「|遊び|続ける|」のように区切るようにしておいて、「付け忘れ」のような連用形名詞化の場合は、D2T?? でカバー(もしくは、名詞として一語で登録)する、という現状のままでもいいと言えばいいんですが、でも、実際は区切りミスが多いので、そうなると一語/一文節にしたくなるという…。
# あれ? 何か同じことをどこかで書いたような記憶が…
# 書いたけど消しちゃったんだったかな?? まぁいいや。
・「|旧|仕様|」
接頭辞、接尾辞の話は、自分も、全く下書き部分に書かれてる通りだと思っています。
「出すべきものは出せるように、でも、ありえないものは出さないように」しようとすると、
a. あり得るものだけ一つ一つ辞書に登録する(一般辞書/複合語辞書(/用例辞書))
b. 品詞コードを細分化して、接続を細かく指定できるようにする
c. コーパスとかで単語レベルの接続情報を持たせる
のどれかになるのではないかと思いますが、現状は、「誤変換が比較的目立たないか、あるいは、無効にするデメリットの方が大きいもの」は残しつつ、残りを一番原始的だが一番確実な a で凌いでる状況、でしょうか。
b は、一年前くらいに考えたことがありますが、「多分ムリだ」という結論に達しました。詳細は忘れましたが…。
c は正直、よく分かりません。
「|旧|市街|」「|急|発進|」「|問題|外|」とかは行けるかもしれませんが、数詞絡みの表現はどうなんだろう…?
ともあれ、何か上手い手があればいいのですが…。
【関連する記事】