これは衝撃的…。
従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。
マリモでは、「〜している」など、文の構造を解析するのに役立つ補助動詞や助詞など約1000語からなる辞書だけを持つ。このアイデア自体は自分ですら思いついたくらいなので(自分の場合は思いついただけですが)、そんなに驚きはない。
実際の形態素解析に用いる辞書(従来の意味での辞書と異なるため、ムーターは「学習モデル」と呼ぶ)は、ネット上のテキストを収集し、そこから自動生成する。ネット上のテキストは誤変換やら typo やら誤用やらが非常に多いので、ここは個人的には「ちょっと…」という感じですが。やっぱ辞書生成用のテキストは校正済みのものでないとマズくないですか?
動詞や形容詞の活用形についての知識を持たず、って、活用形の情報もなしなの?
頻度情報と位置情報を使った統計処理だけで、どの音のつながりが単語で、その単語が動詞であるか形容詞であるかまで判定するすげー。
「漢字部分以外は、すべてローマ字に変換して行うため、ああ、やっぱ今後はローマ字単位になっていくんですね。
母音と子音の組み合わせから新語の品詞が推定できます」(テクノロジー部門担当執行役 田中優氏)。例えば「かっこいい」「かわいい」などの形容詞があることから「ナウい」という語を認識できるのだという。どうやって???
ライセンス料も1CPU当たり100万円からと、既存製品に比べると半値程度だ。充分高いです…。
いやー、驚き。使ってみたいなぁ。
アルゴリズムとかは仮にきちんと説明されても理解できんと思うのでいいですが、辞書部分や頻度情報、位置情報は一度見てみたい。
かな漢字変換エンジンもやがては辞書のいらない時代が…来ねぇか。来ねぇな、やっぱ。
【関連する記事】