2008年11月25日

G-HAL 氏の Anthy パッチとコーパスについてちょっと思ったこと

G-HAL 氏の Anthy パッチには、現在 patch0〜13 まであるようですが、このうち、コーパスを切る(空にする)のは patch0 だそうです。で、さらに下の方に書かれてるように、
patch0 の内容は、patch0 以外のパッチには含まれていません。

patch1〜patch13 は、どれか1つだけ選ぶ必要があります (大きい番号のパッチは、それより小さい番号のパッチ全部を含んでいます)。
ということなので、たとえば patch13 のみを適用しただけではコーパスは切れてないはずなんですよね。

どうも patch0 を適用せずに、他の patch を適用しただけでコーパスも切ったと思われてる方が多い気がするんですが、大丈夫でしょうか?

コーパスを切った方がいいかどうかは各自で判断していただくとして、一応ちょっと気になったのでつぶやいてみるテスト。



posted by vagus at 00:17| 東京 ☔| Comment(7) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
ああー、そうでしたか。
http://www.fenix.ne.jp/~G-HAL/soft/nosettle/anthy.html#patch13
> コーパスは使用していません
ここを斜め読みしたのでコーパスは使っていないものかと思っていました。
風邪気味できついのであとで確認します。

//
gcanna.ctd
> りな #JN*50 美那
これは「みな」かも。

gtankan.ctd
> ー #KJ*5 - − ─
「嬉しいー」が「嬉しい-」になるので、
手元では
> ー #KJ*10 ー
を加えてみました。

最初「うれしいよー」を試してみたら
「嬉しいЁ」に。
これはこれで後でチェック。
(私家版辞書+patch13なので公式版では問題ないかもしれません)
Posted by ut at 2008年11月25日 03:07
手元では次の変更も施しました。
tankanji.t
> ゆー U
「ってゆー」が「ってU」になるので、
「ゆー」を優先。

> いよー Ё
いよー イヨー を優先。

gcanna.ctd
> ただ #CJ 只単に
> ただ #CJ 唯単に
読ませすぎのような気がしたので削除。
Posted by ut at 2008年11月25日 10:57
>> コーパスは使用していません
> ここを斜め読みしたのでコーパスは使っていないものかと思っていました。
ほうほう、確かにそう書いてありますね。
ちょっとだけ patch13 を試したところでは、また「化」がケツの方へ回されてたので、コーパスが全く使われていないというわけではなさそうです。「文節区切りの判定には使っていない」ということでしょうか?

>> りな #JN*50 美那
> これは「みな」かも。
それが「りな」だったりもするらしいです。
http://blog.yam.com/asdfgh2501/article/17721433
ちなみに「みな #JN 美那」は登録済みでした。
個人的には人名にはできれば関わりたくないです。確認しようがなかったりするので。

「嬉しいー」「うれしいよー」はやるとしたら辞書ではなく、depgraph ですね。

「ってゆー」は、んー…。本来は「言う」という動詞で、ありそうなのは「ってゆー(か|な|ぞ|連体修飾|文末)」くらいでしょうか。やるとしたら depgraph かなぁ。終止形・連体形以外の活用がないから、動詞で登録はできないですし。「ってゆーか」は CJ で入れていますが…。
単漢字では分節のつながり無視することになるんで、「ってゆーひとが」とか後ろに名詞が続く場合とかにやっぱり正しく出せないと思います。
depgraph でできることはできるんですが、かなりくだけた表現なので、誤変換だけが怖い。
一応考えますが、最悪これは出せなくても許してねで済ますかもしれません。

> ただ #CJ 只単に
> ただ #CJ 唯単に
これは私の方には入ってないと思いますよ。
Posted by vagus at 2008年11月25日 23:03
>> ただ #CJ 只単に
>> ただ #CJ 唯単に
> これは私の方には入ってないと思いますよ。

失礼、見間違えてました。ありました。
読みを「ただたんに」にしておきました。

ご指摘感謝です。
Posted by vagus at 2008年11月26日 00:22
> これは私の方には入ってないと思いますよ。

alt-cannadic-081018.tar.bz2 の
gcanna.ctd 70448行めに
> ただ #F14*500 ただ (略) #CJ*50 只単に 唯単に
とあるのですが...

> 「文節区切りの判定には使っていない」ということでしょうか?
辞書を変えているので何ともいえないのですが、
コーパスの例文を2-3なぞってみた限りでは
特に関連性がみられませんでした。
(オリジナルのAnthyのパッチ前と後を
チェックしようかと思いましたが
面倒なので見てません)

いまG-HALさんのサイトを拝見すると文章が更新されていて
> 文節区切りに於いてはコーパスは使用していません。
> 変換候補の並び替えでコーパスを使用しているか否かは不明です。
> ソースコード読んで探すの面倒
となっています。
将来コーパスを利用される可能性もあるかもしれないので、
いちおう手元でもコーパスを消すようにしました。

> 「ってゆー」は、
「ゆー」の第一候補が「U」になるケースを避けたいだけなので、
gtankan.ctdを変更するぶんにはそんなに悪影響もないかなと。
このへんは好みですね。

> 手元では次の変更も施しました。
> tankanji.t
これはgtankan.ctdの間違いでした。
Posted by ut at 2008年11月26日 00:45
うわー、入れ違いになってしまった。
とりあえず幻覚じゃなくてよかった。
悪寒がするので寝ます...
Posted by ut at 2008年11月26日 00:48
> うわー、入れ違いになってしまった。
ごめんなさい。申し訳なかったです。

コーパスの影響の有無については、サイトに

> patch0 を使わずに、patch無印〜patch1〜patch13 だけを使用した場合、 コーパスは有効になります。 コーパスを使用するか否かは、各自で判断して下さい。

と書いてくださったようです。
しかし、G-HAL 氏は本当に凄いですね。パッチ自体も勿論ですが、あの解説を書くだけでも相当大変だった筈。頭が下がりますし、非常に勉強になりました(一部まだ頭が読むのを拒んでる部分がありますが…)。

> 悪寒がするので寝ます...
大丈夫ですか? お大事になさってください。
Posted by vagus at 2008年11月26日 22:58
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は90日以上新しい記事の投稿がないブログに表示されております。