2007年11月20日

Re: Anthyする

nosuke さんの日記ですが、自分も無関係ではないようなので、一応自分の考えを書いてみるテスト。

コードは読めないので、「多分こうなんじゃないかな」という憶測に基づくものであることを予めお断りしておきます。

<追記>
別記事で書き直した。

コメント欄にある ML のメールを読んで「オレのかい!」と思ったわけですが、改めて読むと(当時は depgraph のことを全然知らなかったので何とも思いませんでしたが)、これってどうなんでしょ。

元々の問題は、辞書が
ひょうじょう #T35*102 表情 #T35*101 氷上 #T30*100 評定
であるときに、「表情をする」が出せない(「評定をする」になって「表情」が候補に出ない)、ということですが、ポイントは 2点。

 1. サ変名詞がある「〜をする」のとき T35 が(というかサ変名詞でない名詞が)候補に出ない
 2. 「評定をする」が全体で一文節になる

で、対応
一般の名詞全てがサ変名詞と同じ接続も持てるようにする
+ @名詞のあと "" .@する名詞
だったわけですが、まず、サ変名詞の名詞部分と「する」の間に「を」が入った場合でもこれが効くというのが新発見でした。

9100d の depgraph をザックリ grep した感じでは、depgraph で出せるようにしているわけではなさそう。「サ変名詞であれば間に『を』が入るのも許す」というルールを入れているんだろうか。

確かに、サ変名詞というのは元々「名詞+を+する」の「を」が省略されて一語のようになったもの(複合語と言えるのかも)だったはずなので、「サ変名詞であれば間に『を』が入るのも許す」というルールは(もしそういうヒューリスティック(って言うんですか?)を入れているとしての話ですが)故あるものだと思います。

ですが、そうすると当然「〜をする」が全体で一文節になってしまいます。普通「〜をする」と言った場合は、「〜を|する」という風に文節が切れるべきだと思います(尤も、手元の atok2005 でも「表情をする」は一文節で出るんですがね…。ただ、「表情」「氷上」もちゃんと候補にいますけど)。
さらに「サ変名詞であれば」という制限があるので、サ変名詞でないものが候補から外されてしまうことになる。

「表情をする」が区切り直さないと出せなかったのはこういうことじゃないかと思います。

しかし、「〜をする」というのは別に何も特別なパターンであるわけではなく、「本を読む」とか「文字を書く」と同じく、「名詞+を+動詞」と見ることもできるんであって、それらと同じものとして扱えばいいんではないかと思います。

これならサ変名詞に限定されることはなく、一文節になることもないので、「表情」もちゃんと候補に出てくるはずだと。

なので、この問題、「一般の名詞全てがサ変名詞と同じ接続も持てるようにする」ことで対応すべきではなく、「サ変名詞であれば間に『を』が入るのも許す」というルールをなくし、「する」も他の動詞と同じように扱うことで対応すべきだったんではないかと、今は思ってます。

…というわけで、
@名詞のあと "" .@する名詞
を消すと「表情をする」が区切り直さないと出せない問題が再発するはず…と思って、今 9100d で(消さずに)「ひょうじょうをする」を変換してみたら「氷上を|する」になった orz。
ちゃんと区切れてるじゃん。「氷上」だけど。

ちなみに今の辞書はこう↓。
ひょうじょう #T30 A 0 表情 43300000
ひょうじょう #T35 B 0 氷上 1440000
ひょうじょう #T30 C 0 評定 1260000

やっぱり、以前は「@する名詞 "を" @する」が depgraph にあったんだけど、どこかで消したんだろうか?

というわけで、単純に
@名詞のあと "" .@する名詞
を消して問題ないかと思われます(何じゃそりゃ…)。

# 一緒に消されてる「.@さ(名詞化)」の話は今回はスルーで。


[予告]
昨日からちっと anthy で単純な実験をしてたので、明日早く帰ってこれればそれについて書きます。
ほんとは今日書こうと思ったんですが、これ書いてたら時間がなくなりました。

# 「実験」は「実験する」って普通に使うサ変名詞ですが、前に「単純な」が付くと自分的には「単純な実験をする」と「を」を入れないと気持ち悪い。
# しかし「単純に」だと「実験する」「実験してた」で違和感ない。
# ほんに日本語ってややこしいのぅ…。
posted by vagus at 00:36| 東京 ☁| Comment(2) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
> 9100d の depgraph をザックリ grep した感じでは、depgraph
> で出せるようにしているわけではなさそう。「サ変名詞であれば間に
> 『を』が入るのも許す」というルールを入れているんだろうか。

つ noun.depword:@名詞のあと "" @を
Posted by sage at 2007年11月20日 12:50
コメントありがとうございます。

分かりにくくて申し訳なかったですが、自分が書きたかったのは、「サ変名詞+を+する」という並びを定義したエントリが 9100d には見あたらなかった、ということでした。

> noun.depword:@名詞のあと "" @を
はそれだけでは単に「@名詞のあとというノードは、後ろに@をというノードが続くよ」ということを定義しているだけなので、「サ変名詞+を+する」が全体で一文節になることはないと思います。

仮に「@を "" @する」というエントリがあれば「名詞+を+する」が全体で一文節になりますが、「@名詞のあと "" @を」だけだと、「名詞+を」が一文節になるだけで、「する」を続けても「名詞+を|する」と区切りが入るはず(だと思う)。

Posted by vagus at 2007年11月20日 23:27
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は90日以上新しい記事の投稿がないブログに表示されております。