もしあれば、
週末には|見んな|散って|しまう
誰が|来んな|落書きを|書いたのか
夢かな|えてくれよ
といった、文の途中に終助詞が来てしまうタイプの誤変換は直せると思う。
「ぶんせつのくぎりかたとかのはなしはどうなるのだろう」も、n文節最長一致モードでも、
文節の|区切り方とかのは|なしは|どうなるのだろう
と、若干改善されるはず。
また、「終わらね」「知らね」「違うんじゃね」等を出せるようにしても、副作用の誤変換はほぼ起こさないはず。
でも「文末」属性って、具体的にはどう定義したらいいんだろうか?
単純に考えれば「これより右側に次の文節が来ることはない」ということになると思うが、「絶対に来ない」「来ることはありえない」とするとマズい。句読点や閉じ括弧、疑問符、感嘆符といった記号類はあり得る。
「後ろに次の文節がない(最後尾の文節である)か、後ろの文節が単漢字のみの文節である」なら OK、そうでなければスコアを大きく下げる、とか? 「単漢字のみの文節」は「単漢字の"記号のみの"文節」にできればいいけど、漢字も非漢字も品詞コードは「KJ」で区別がないから無理か。読みが記号かどうかで区別できそうだけど、あまりスマートじゃないかも。
【追記】5/2
また書いた途端に実現されていました。
凄いなあ…。あっと言う間だもんなぁ
これは個人的には「是非欲しい」と思っていた機能なので、早速 alt-depgraph も対応させて頂きました(手元では)。
「|夢か|萎えてくれよ|」(|ゆめか|なえてくれよ|)。 なかなか思い通りにはいかない様でして……。これは仕方ないので気にしない方向で…。むしろこういう助詞の省略パターンこそ、区切り位置指定で回避して欲しいと思ってたり。
なお、 文末属性の文節の次の文節が、単漢字の文節か否か、で 判定するのは無理です。 「次の文節」の後ろ側の文節区切りの位置によって、 単漢字になったり名詞/動詞/(以下略)になったり変化するので、 処理できません。そうでしたか…。
「|見んな|と言った|」(|みんな|といった|)は不適切な区切りで、 「|見んなと|言った|」(|みんなと|いった|)が適切な区切りだろうか。 「見んな」(みんな)に文末属性を付けると、そうなってしまうけれども。「|みんなと|いった|」となるのが希望です。
「そうなってしまう」がどっちを指しているのかちょっと判然としないので、誤解しているかも知れませんが、「@「な」終助(禁止)」に「Sz@」をつけても、「@_引用(共通)」にも接続できるようになっているので、「|見んなと|」もちゃんと出せます。
が、現状は、「と言った」が一語で辞書に登録されているので、そっちに引きずられて「|みんな|と言った|」になりますね。「と言った」の頻度を下げた方がいいかな。
あと、 付属語グラフで文末属性に対応すると、 付属語グラフを文末属性対応に書き換える必要が有る、 原作版そのままの Anthy では使用できなくなる (要、文末属性対応パッチ)、 コーパスデータベースの更新 update_params が必須になる (既に alt-cannadic で、そうなってはいますが)、 問題と言うか手間と言うかがあります。この辺は何とかします。
「来んな」(くんな)が出ない。(中略)「くん #kxuru 来ん」で登録すると、 「|来んな|」「|来んなよ|」などは出るけれども、 「|来ん|」「|来んようだ|」なども出てしまう。 カ行変格活用動詞 終止形/連体形の全部が全部、 撥音便になるわけではないらしい。 ……、カ行変格活用動詞 終止形/連体形は、 「来る」(くる)と「得る」(うる)しかないらしい。 ……、となると、 語幹を「来」「得」で登録して付属語グラフを……、 Canna が駄目か。ご指摘の通り、これは新しい品詞コードを起こさないと対応できないので、Canna は諦めて貰うしかありません。anthy では出せるようにしました。
…が、G-HAL 氏のパッチを当てた anthy では出来たんですが、オリジナルの anthy だと上手く行かん… 同じことやってるのに何故だ…?? しかも「食んな」とか何か変な候補が出てきたぞ…???
ついでに言うと、D2T35 も有効にできない。何か忘れてるんだろうか?
実は、これにハマってて今 alt-depgraph を出せずにいます。オリジナルの方は出せるようにしないことにしようかな…。
「|末日|」(|まつび|)が変。 「まつび #JSSUC*20 末日」を「|末日|」単体で変換すると、 スコアが最低値になっている。まず、調べてみると「末日」はどうも「まつび」とは読まないみたいです。「まつじつ」だけらしい。「月末日」は「げつまつび」ですが。というわけで、「まつび #JSSUC*20 末日」は削除しました。
あと、JSSUC は助数詞につく接尾語なので、単体で上の方に出てくるのはマズいと思われます。従って、スコア最低でよろしいかと。
(本来は多分「5」(数詞)+「月」(助数詞)+「末日」(JSSUC)で「|5月末日|」になるというように、metaword の構成要素になるんだと思いますが、anthy では助数詞までしか使わず、JSSUC は metaword の構成要素にはされていない(ありえない候補を作りまくるから)ので、結果的に「単体で後ろの方に出すだけ」という扱いになってるんだと思われます)。
【追記】5/6
「ありえない候補を作りまくるから」というより、そもそも自立部には「接頭辞 + 自立語の並び + 接尾辞」という構造を仮定していて、「接尾辞の後ろにさらに接尾辞が来る」というのは初めから想定してない、ということかも知れない。分からんけど。
【関連する記事】
「|見んなと|言った|」の区切り方を推奨、
「|見んな|と言った|」は非推奨、
と言う事ですか……。まあ、瑣末な事ですが。
「末日」は、単に私の読み方が間違っていただけ、と言う事で。
説明有り難うございます。
「〜といった」の場合(「と」の前に語がある場合)、
・「と」は助詞(付属語)なので「と」の前で区切るのはおかしい
・「みんな|といった」と区切られると「みんな(皆)と行った」が区切り直さないと出せない
(「言った」「行った」だけでなく、「〜と|{思う, 考える, 見なすetc}」もありますし)
ので、「と」の後ろで区切れると考えるのが自然だと思います。
辞書にある「と言った」「と言って(も)」等は、前の文や段落全体を受けて、主に"文頭で"使われることがあるので、それ用のもののつもりです。
例:
と言うわけで、千葉にやって参りました。
といった感じでお願いします。
と言っても、間違いというわけじゃないんですけどね。
実際には綺麗に変換し分けるようにさせるのは難しいですが、一応意図としてはこういうつもりでやっています。
あと、
> 「見んな」に文末属性を付けたら、 「こんな」にも文末属性が付いてしまった気がする
の件ですが、この場合の「こんな」は恐らく
こ カ変「来る」未然形
ん 助動詞「ぬ」終止形(音便)
な 終助詞「な」
Sz@
(=「来ないな」)
で、「こんな」を単独で変換した場合に出る候補だと思います(これはこれで正しい)。
「こんな顔」の場合の「こんな」は辞書にある「こんな #RT こんな」が使われると思うので、特に問題はないと思いますが。
> 「みしよう」
「魅しよう」「魅し様」「みし様」、確かに…。D2T35 の副作用ですね。
私も「間違い」より先に「待ち甲斐(まちがい)」とか出てきてちょっと頭を抱えてます。便利は便利なんですけどねぇ… > D2T35
区切り位置指定と文末属性の実装、ありがとうございました。
アイデア自体は何年も前に思いついていて、頭の中で「こうなるんじゃないか」とか色々想像していたんですが、実際に試せるようになって非常に有難いです。
やはり、想像するのと実際にやってみるのとでは大違いですね。