こいつは anthy で形態素解析を行うためのツール。
ぶっちゃけた言い方をすれば、かな漢字変換の逆をやるわけです。
以前、これを未知語(辞書に未登録の語)を見つけるのに使えないかと思って試してみたが、「セグメンテーション違反です」と言われて試せなかった。
今回リベンジということでまた試してみた。 on anthy-7900
<結果>
$ cat hoge.txt
これはテストです
$ anthy-morphological-analyzer hoge.txt
segments: 2
indep_word id=66370729 hash=66370729 yomi_hash=66370729 seg_class=11 #T これ これ
dep_word hash=677692 は
indep_word id=2146461299 hash=2146461299 yomi_hash=2109413213 seg_class=12 #T30 てすと テスト
dep_word hash=66401047 です
おお!行けた。
では、未知語があった場合はどう出るかを確かめる。
$ cat hoge.txt
こっちはモヒョロホです
$ anthy-morphological-analyzer hoge.txt
segments: 2
indep_word id=2143607059 hash=2143607059 yomi_hash=2143607059 seg_class=11 #T こっち こっち
dep_word hash=677692 は
あう、未知語があるとそれ以降出力がなくなっちまうのか。
つーことは、未知語探しには使えませんねぇ。ガックシ
【関連する記事】

