nosuke さんのところの「anthy で『あいだに』が『愛だに』になる」の件。
実は depgraph 作ってる関係で少し前に調べたりしてたので、書いてみます。
まず、この「だに」が何かと言われれば、「副助詞の『だに』です」というのがその答えですが、「こんなのがホイホイ出てきていいのか」→「depgraph の登録はこれでいいのか」と言われるとちょっと調査が必要です。
書かれてる通り、「未だに」は「未だ+に」なので別で、「微動だに」の「だに」がそうですが、こいつは今でも当たり前に使われる語なのかというと、やはり文語というか、今ではあまり使われない気がします。今なら大体「すら」か「さえ」を使うでしょう。かと言って、全然使われないかと言うと、ぱっと思い浮かぶところでは、「微動だに」の他に「想像だに」「予想だに」なんかはまだ使われてるので、そうとも言い切れない。
検索してみると他に「一顧だに」「夢想だに」などがまだ使われてるようで、少ないところでは「仮定だに」「白状だに」なんてのもありました。
さらに「想像するだに恐ろしい」とか「口(耳)にするだに恐ろしい」とか「思い出すだに腹が立つ」のように、動詞(連体形)の後に付く用法もまだ残ってます。
これが今の depgraph で出すようになってるかどうかは調べてない(今は自作 depgraph を使ってる)ので分かりませんが、もし接続できるようにしたとすると、多分、例えば「絨毯の中で蠢くダニ」の「蠢く|ダニ」の部分が一文節で「蠢くだに」になったりと、動詞連体形+「ダニ」の文はことごとく一文節になるでしょう。
動詞連体形+「ダニ」の文も相当レアケースだと思いますが、でも、ダニついて書いてる時には結構出てくるはずだし…。
というわけで、こういう「あっちを立てるとこっちが立たず」の場合は、「どっちが賢く見えるか、バカに見えないか」で判断します。
「口にするだに恐ろしい」を出したかったのに「口にするダニ恐ろしい」になったとすると、はっきり言って笑います。「蠢く|ダニ」が「蠢くだに」になる方が全然マシです。
なので、「だに」は動詞連体形に接続させることにします。
最初の名詞につく場合は、慣用句的な決まりきったものが多いので、そのまま辞書に登録し、depgraph では接続させないことにします。
これだと「仮定だに」「白状だに」「飯だに」「電車だに」「仕事だに」等は文法的に誤りじゃないのに出せなくなりますが、「現在ではほとんど使われない」「誤変換起こすよりマシ」ということで許して貰えるんじゃないかと。
とりあえず、手元ではそうしました。
…でも、弱い接続にして、一応出せるようにはしておいた方がいいかなという気がしてきたので、そうするかもしれません。
辞書と depgraph にはここらが限界で、後はコーパスなり学習機能なりでカバーして貰うしかありません。
ついでに、思い出したので「アン氏んです」の話。
「アン氏んです」はご想像通り、人名「アン」+人名接尾語「氏」という metaword(?) に助詞「の」の音便化「ん」+助動詞「です」がついてできた文節になります。
で、問題のこの「ん(の)」ですが、文法的には準体助詞という奴で、「俺んち」「俺んとこ」の「ん(の)」とはちょっと違います。こっちの「ん(の)」は格助詞の連体修飾格というんだそうです。
何が違うかと言うと、連体修飾格の方は、名前の通り体言に連なりますが、準体助詞の方はそれ自体が言わば体言です。「〜のもの」の「もの」が省略され、「の」が「もの」の役割まで含むようになったもの、と考えればいいんだと思います。「俺のが」は意味的には「俺のものが」と同じなように。「助詞だけど体言に準ずる働きをする」というわけで準体助詞というんでしょう。体言と同じ機能を持つわけなので、たとえば後ろに格助詞(「が」とか「を」とか)を取ることができます。
文法的な説明なんか聞きたくないでしょうが、この二つが微妙に違うんだということを抑えておかないと、ちゃんとした対応ができません。
面倒になってきたので結論を書くと、depgraph では
・準体助詞「の」
・準体助詞「の」の音便化「ん」
・格助詞連体修飾格「の」
・格助詞連体修飾格「の」の音便化「ん」
の 4つは分けて扱う必要があります。
……俺は誰に向かってこんな説明してるんだろうか?
……「んな説明いいからパッチ出せ」という声が聞こえてきそうだ。でも、パッチはないです。だってもう、オリジナルの方の depgraph はいじってないし。
【追記】
書き忘れた。
連体修飾格の「ん」の用例は、「俺んち」「お前んとこ」など人を表す名詞に付く場合の他に「前んとこ」「駅んとこ」みたいに場所を表すものに付くのがありますね。さらに「頭ん中」「腹ん中」みたいなのもあります。
こうしてみると、後ろに来るのが「ち(家)」「とこ(ろ)」「中」に限定されてる気がするので、この辺でコントロールしてやれば誤変換を減らせそうな気がします。
【関連する記事】