お、確かに。
理由は、「お」の読みは、本式の(?)音訓にある読みではなく、名付けというのか名乗りというのか正確な用語はわかりませんが、人名で使われる特殊な(?)読みだからですね。それ系の読みはカバーできてないので、多分他にもたくさんあると思います。
「夫」の「お」は登録させて頂きました。いつもいつもご指摘感謝です。
●補助動詞、補助形容詞、形式名詞を depgraph で出すべきか否か
「〜している」「〜しておく」「〜になる」「〜にする」の「いる」「おく」「なる」「する」などは補助動詞というそうですが、これらを「|〜して|いる|」のように区切りを入れるべきか「|〜している|」と一文節にして出すべきかという話。
自分もきっちりした考えをもっているわけではないので、要点を挙げるに留めます。
<一文節にした場合の問題点>
・anthy の depgraph では漢字表記が使えないようなので、同音の漢字表記がある場合、区切り直さないとそれらが出せなくなる。
「こと/事」「もの/物」「とき/時」のような形式名詞や「〜してくる」「〜していく」の「くる/来る」「いく/行く」など。
また、「こと/事」「いく/行く」は同じ語の異なる表記だが、例えば「なる」には「成る」の他にも「鳴る」があるので「〜になる」を一文節にすると「鐘が静かに鳴る」の「静かに鳴る」が「|静かになる|」になって、区切り直さないと出せなくなる。
他にも「〜による」「〜していた」が一文節になると「夜」「板」などが区切り直さなければ出せない。例えば「腐って板が抜けた」は「|腐っていたが|抜けた|」になる。
・文節がやたら長くなる
「|〜してみてくれているわけだけど|」とか。ここに助動詞が絡むと更に長くなる。「|出せるようにしておきたいのでしょうけれどもね|」とか。
【追記】4/4
・anthy.dep のサイズがデカくなり、変換動作も(少なくとも理屈上は)遅くなる
補助動詞などの活用語の場合は特にだが、一語入れることにするだけで、後続ノードを 100以上定義しなければならないので。
<区切った場合の問題点>
・変換精度が落ちる傾向がある
「〜してくれて」が「〜して|暮れて」になったり、「〜してきた」が「〜して|着た」「〜して|北」になったりする。基本的に「いる」「ある」「くる」「する」「ない」「もの」「こと」というように読みの字数が少ないものが多いので、どうしても誤変換を起こしやすい。
・くだけた表現ではそもそも区切りを入れられないものがある
「〜してる」は「〜している」の「い」が省略されたものだが、そうすると語幹が無いので辞書に登録できない。
「〜したる」は「〜してやる」の「てや」の部分が融合して「た」に音便化してるが、区切りは本来「て」と「や」の間にある。
(他にもあった気がするけど思い出せないので、思い出したら付け足す。)
一言で言うと、「繋げると区切り直さないと出せないものが出てくる、かと言って、短く区切ると誤変換が増えるので悩ましい」、ということでしょうか。
一応今のところの方針としては、「基本的には区切る」が、「誤変換が最小になるように、よく使われる方の表現が先に出るように」ということも配慮しつつ、個別に対応する、という感じでやってます。
例えば、「〜している」なら、区切ると「〜していたが」がほぼ「〜して|板が」になる。それも日本語として間違いではないが、「いたが」の方がよく使われると思うので先に出したい。なので、ここは一文節で出す。
でも、「〜による」は「酒に|酔って」とか「新宿駅に|夜|8時に来て下さい」とか「帰りにスーパーに|寄った」とかを出せるようにしておきたいので、こっちは区切るようにする。
とまあ、こんな感じです。
もっとも、「|疲れたからだ|」と「|疲れた|体|」のように補助動詞や形式名詞がからまないものでも同じ問題があったりするんですけどね。
これはもう仕方がない。どっちも正しい上によく使われる表現だし、理由を表す「から」は付属語で出すべきものだと思うので、入れざるを得ないし。
「常に期待通りの変換になるようにするのは不可能、できる限りストレスを感じないような変換結果を考えてそれに近づけようとすることしかできない」と思う。
勿論これは全般的な話で、個別の対応の仕方、「具体的にどういうのが一番ストレスを感じない変換結果か」についてはまた色々考え方があると思いますが。「〜にある」については一文節で出すべきだ、いや、それは区切るべきだ、みたいな。形式名詞については自分でも今の depgraph改は一文節で出しすぎてるかなと思ってますし。
でも、これは個人の好みで結構違うと思うので、また難しいと思うんですよね。
【関連する記事】