2009年03月04日

うーん

某所に「数詞がらみの合成語は確率を下るようにしてみた」とあったので試してみたのですが、やはり「|大体千部|」「|約千部|」になりました。「約千部」は「やくぜんぶ」で日本語としてはおかしいですが、テスト変換なのでそこは無視で。

普段自分がやっているように「update_params2 × 3」でやったので傾向が変わってしまったのかもと思い、anthy-9100h.patch13ptn20.2009225.alt-depgraph-090223.calctrans.tar.bz2 の corpus_info, weak_words でやってみましたが、同じでした。

何か間違えてるのかな?

でも、それはそれとして、もう一回数詞がらみはチェックしなきゃなと思うので、また hogedic 作ってみよう。

posted by vagus at 00:18| 東京 🌁| Comment(2) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
呼びました?。どうも、0.5(接頭辞/接尾辞、片側の場合)〜1(両方の場合)文節ぶんの確率下げでは足りないみたいです。
VITERBI_MODE_DECREASE_PROBABILITY_PHRASE_WITH_PRE_AND_POST 5.0e-13
VITERBI_MODE_DECREASE_PROBABILITY_PHRASE_WITH_PRE 7.0e-7
VITERBI_MODE_DECREASE_PROBABILITY_PHRASE_WITH_POST 8.0e-7
指定で1〜2文節分下げて、ようやく「|大体|全部|」になりました。2文節分下げると、「|大体千部|」が3文節と等価の確率になっている筈なんですが。
確率を下げすぎると、今度は「|約二百個|」みたいな物が、「|訳に|百個|」になってしまいますし。

# あれ、alt-depgraph-090223だと「|等価の|」が出ない。#T17 かな。
Posted by 匿名希望 at 2009年03月04日 23:09
いやいや(^^;>

patch13ptn20.2009303 で確認致しました。> 「|大体|全部|」

ただ、よく考えたら cannadic改はオリジナルの anthy にも対応させないといけないんですよねぇ。
オリジナル anthy でも「|大体千部|」「|週六単語|」にならないようにしないといけないとなると、やはり結局「数詞に付く接頭辞」は消すしかないと思います。

せっかく実装してくださった G-HAL 氏には大変申し訳ないのですが…。ごめんなさい。

> 「|等価の|」が出ない。#T17 かな。
ビンゴです。修正しておきました。ありがとうございます。
Posted by vagus at 2009年03月05日 01:12
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は90日以上新しい記事の投稿がないブログに表示されております。