2007年11月20日

Re: Anthyする - 書き直し

分かりにくかったので書き直し&書き加え。

元々の問題は、辞書が
ひょうじょう #T35*102 表情 #T35*101 氷上 #T30*100 評定
であるときに、「表情をする」が出せない(「評定をする」になって「表情」が候補に出ない)、ということですが、ポイントは 2点。

 1. サ変名詞がある「〜をする」のとき T35 が(というかサ変名詞でない名詞が)候補に出ない
 2. 「評定をする」が全体で一文節になる

で、対応が
一般の名詞全てがサ変名詞と同じ接続も持てるようにする
+ @名詞のあと "" .@する名詞
だった。

ここで depgraph にこのエントリが入ったために変な候補ができるようになってしまって、nosuke さんの貴重な時間を奪うことになってしまった、と。

まず、7500 でなぜ「評定をする」が一文節になって「表情をする」が候補に出ないかというと、noun.depword に
@する名詞 "を" Hv@する
というエントリがあるためだと思います。

「@する名詞」がこのノードの名前で、「文字『を』に『@する』ノードが続く」ということを規定しているわけですが、depgraph にこういう風に定義されたものは、途中で文節区切りが入らず、一文節となります。つまりここでは、「を」と「する」の間で文節が切れずに、「〜をする」までで一文節になります。

7500 では「する」接続ありになっている名詞にしかこれが定義されていなかったので、T30(する接続あり) も T35(する接続なし) も候補に持つ「ひょうじょう」という読みの場合、

 1. 「T30(評定)+を+する」の並びが優先された
 2. これは「評定をする」全体が一文節
 3. 「表情」と「氷上」は T35 で、T35 には「を+する」までの全体を一文節にするような接続は、depgraph に定義されていない(「表情を|する」と区切りが入らなければならない)
 4. よって、「表情」と「氷上」は候補リストから外された

ということになったんだと思います。

ちなみに、9100d には
@する名詞 "を" Hv@する
はないので(また「@を "" @する」というノードもないので)、昨日書いた通り、「ひょうじょうをする」は「氷上を|する」となります。つまり、全体で一文節とはならず、区切りが入ります。

どこかの段階で「やはり問題あり」として消されたんだと思いますが、それに合わせるために入れられた
@名詞のあと "" .@する名詞
は気づかれずに残ってしまっている、ということではないかと思います。

なので、「@する名詞 "を" Hv@する」を消したのなら、こっちも消した方がいいと自分も思います。

次に、それに対する対応が
一般の名詞全てがサ変名詞と同じ接続も持てるようにする
+ @名詞のあと "" .@する名詞
だった件についてですが、よく考えると、これはあながち間違った対応とも言えないのではないかという気がしてきました…。

9100d で「氷上を|する」となってしまっていますが、やはり「を」に「する」が続くときはサ変名詞が優先されて欲しい。サ変名詞の由来から言ってもそう思います。

--- おかしかったので書き直した↓ ---
が、depgraph に「を」に「する」が続くときだけサ変名詞を優先するようなエントリを入れると、結局「〜をする」全体が一文節になってしまうので、また「表情をする」とか「する」接続なしの名詞が区切り直さないと出なくなる(同じ読みに「する」接続ありのものがある場合)。

# 今は「表情」は T30 になってるから出るけど。

加えて、
@名詞のあと "" .@する名詞
という対応では弱い接続とはいえどんな名詞も「する」に接続できてしまって変な候補をたくさん作ってしまうので上手くない。

--- ↑ここまで ---

depgraph で「『を』に『@する』が続くけど、間に区切りが入るよ」という指定が出来ればいいのかと思うけど…。

あるいは、「〜をする」と言える名詞はすべてサ変名詞化すると考えて、辞書の方で「する」接続ありで登録しちゃうか?
しかし、それも微妙だなぁ…。例えば、「口上をする」とは言うけど、「口上する」とは普通言わないしなぁ。大辞泉でも「口上」はサ変名詞になってないし、atok2005 も「口上する」は候補にないなぁ。一回確定したら学習して出てきたけども。

# ちなみに、Yahoo!J での hit数
# "口上する"  171件
# "口上をする" 87件
# Google だと
# "口上する"  471 件
# "口上をする" 17,400 件
# …なんだこの違いは???
# と思ったら Google の "口上をする" にはリンクが 6つしかなく、
# 6番目をクリックしたら件数が 49件になった…。
# ほんとにアテにならねぇな、Google は。
# しかし、もしかしたら「〜をする」と言える名詞はすべてサ変名詞化すると考えてもいいのかもなぁ…。

やっぱ、「〜をする」の場合にサ変名詞を優先させ、かつ、非サ変名詞も候補に入れるということを実現するためには、depgraph で区切りを置く位置を指定できるようにするか、本体にそういうコードを入れるかするしかないんじゃないかと。

ところで、9100d では noun.depword から
@する名詞 "を" Hv@する
は消えてますが、
@する名詞 "を" Hv.@させる
は残ってるんですな。

試しに、「ひょうじょうをさせる」で変換してみたら、「氷上を|させる」になった。区切り直して全体を一文節にしたら、「表情をさせる」になった。候補の中に、「氷上をさせる」もある。

…んん???何でだ?弱い接続だからか?
何か混乱してきた。今日はここまで。明日また考える。
posted by vagus at 23:05| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は90日以上新しい記事の投稿がないブログに表示されております。