2007年11月22日

【実験】hogedic - 寄り道

まだ、助詞等がついたときにどうなるかとかを書く予定ですが、実験ついでにちょっと寄り道。

前の実験で固有名詞が極端に虐げられているのが分かりましたが、では
一体「京都」の頻度をどのくらい上げれば「教徒」や「凶徒」より先に「京都」が出るのか?
についてちょっと試してみました。

続きを読む
posted by vagus at 00:31| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年11月21日

【実験】hogedic - その1(追記)

【目的】
anthy が候補をどう並べているか、そこに辞書の頻度はどう影響するかを見る。

【方法】
・読みは同一で品詞コードを変えたエントリを持つテスト用自立語辞書 hogedic?.t を用意。
・dict.args から hogedic?.t と gcannaf.ctd、udict 以外の辞書はすべて外す(gcannaf.ctd, udict はないとエラーになる)。
・make update_params0 を行っておき、corpus が影響しないようにしておく。
・上記3つの条件下で anthy.dic を作る。
・hogedic の各品詞コードのエントリの頻度をすべて同じにしたり、変えたり、辞書内での並び順を変えたりして候補の出方がどう変わるかを見る。

続きを読む
posted by vagus at 00:11| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年11月20日

Re: Anthyする - 書き直し

分かりにくかったので書き直し&書き加え。

元々の問題は、辞書が
ひょうじょう #T35*102 表情 #T35*101 氷上 #T30*100 評定
であるときに、「表情をする」が出せない(「評定をする」になって「表情」が候補に出ない)、ということですが、ポイントは 2点。

 1. サ変名詞がある「〜をする」のとき T35 が(というかサ変名詞でない名詞が)候補に出ない
 2. 「評定をする」が全体で一文節になる

で、対応が
一般の名詞全てがサ変名詞と同じ接続も持てるようにする
+ @名詞のあと "" .@する名詞
だった。

ここで depgraph にこのエントリが入ったために変な候補ができるようになってしまって、nosuke さんの貴重な時間を奪うことになってしまった、と。

続きを読む
posted by vagus at 23:05| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

Re: Anthyする

nosuke さんの日記ですが、自分も無関係ではないようなので、一応自分の考えを書いてみるテスト。

コードは読めないので、「多分こうなんじゃないかな」という憶測に基づくものであることを予めお断りしておきます。

<追記>
別記事で書き直した。

続きを読む
posted by vagus at 00:36| 東京 ☁| Comment(2) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年10月29日

anthy-9100d

例文数が 1万を越えたそうですね。凄いペースです。
協力された方々と作業されたいくやさんに感謝です。

続きを読む
posted by vagus at 23:29| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年10月25日

anthy の corpus 関連覚え書き

・いくやさんの方針とリリース予定
・Anthy の方針
「開発者と単にダウンロードした人との間で持ってる情報に差が出ないようにしたいので、再配布可能なデータを持つようにしています。」


続きを読む
posted by vagus at 10:44| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年10月02日

知識のない妄想 再び(corpus収集の件)

「スルーで」とか言っときながら、実はあれからずっと、ない頭で考えてたりするわけですが。

要するに、コーパスの元ネタの文章には著作権の問題がつきもので、それを回避しつつ、どうやって不特定多数から協力を得るか、ということなんですよね、多分。

で、基本的な方向性としては以下の二つが考えられる、と。

続きを読む
posted by vagus at 19:10| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年09月26日

anthy: corpus用例文収集にご協力を

と、いくやさんがあちこちで呼びかけていらっしゃいます。

現在の anthy は例文を増やしていくことで賢くなっていくそうなので、変換精度にご不満の方は、ここはいっちょ協力されてみてはいかがでしょうか。

具体的なやり方は、例えばここに書かれています。

どんなのを送ればいいのかは田畑さんのメールのこれこれが参考になるかも知れません。

ちなみに、ライセンス関係でちょっとモメて(?)たりするようですが、基本的には皆さん自分の権利を主張したいわけじゃなく、「後々になって問題が発覚して anthy が使えなくなるとか何かそういうようなことが起こらないように」と予防策を講じておきたいだけだと思うので、自分はこの辺はスルーします。というか、苦手なんです、こういう話(^^; まぁ、「好きな人なんているのか」と言われちゃうかもですが。

続きを読む
posted by vagus at 00:52| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年09月24日

anthy.dic を後から再構築する - その2

前のエントリからの続きです。

何で mkworddic をラッパースクリプトにしておかなきゃいけないのか(読んでも)理解できてませんし、mkworddic/.libs/lt-mkworddic を含めてしまうというのがやっていいことなのかどうかと迷いましたが、一応何かの役には立つかも知れないと思ったので、置いておくだけ置いときます。

自分はもうこれ以上のことはしません(だって分かんないし)。
辞書の作業の方に戻ります。

続きを読む
posted by vagus at 23:33| 東京 ☁| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年09月23日

anthy.dic を後から再構築する - 追加

debian がどうやってるのかと思ってちょっと debian の anthy パッケージを探したんだけど見つけられなかった。「いいや、自前でやってみよう。できなかったらまたその時探そう」と思ってやってみたら、あっさりできた。

続きを読む
posted by vagus at 04:31| 東京 ☀| Comment(4) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年08月30日

肉の日

そう言えば、いつの頃からか「肉の日リリース&焼肉食い」って聞かなくなったなぁ。他の皆さんもビンボーになったんだろうか?(違

posted by vagus at 08:44| 東京 ☔| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年07月20日

tomoe-0.6.0

入れました。

 tomoe-0.6.0
 tomoe-gtk-0.6.0
 scim-tomoe-0.6.0

変更点などはこちらにあります。
ユーザから見えるところはそんなに変わってない気がします。

続きを読む
posted by vagus at 00:24| 東京 ☁| Comment(6) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年07月16日

scim-bridge-0.4.13

入れました。

F10 を GTK アプリに取られる問題は直ってました。大力さんに感謝。
ちなみにこの問題、Gnome 設定エディタ(gconf-editor) から

 desktop -> gnome -> interface

と開いていって、「menubar_accel」の値の「F10」を変更ないし空にしてやることでも回避できるそうです。

ただ、gtk では以上のように問題なくなったんですが、Qt の方が…

続きを読む
posted by vagus at 22:26| 東京 ☁| Comment(2) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年05月26日

scim-bridge バグ? - 追記

何か、半角英数変換しようと F10 押すと「ファイル」メニューが開く…

64bit アプリだけみたい。

$ GTK_IM_MODULE=scim gedit

で起動するとならないから多分 scim-bridge だと思うんだけど。

前はならなかったから 0.4.12 からか…と思ったけど、前は 64bit アプリでは scim-bridge は使ってなかったんだった。

あとでもうちょっと調べよう。

続きを読む
posted by vagus at 19:46| 東京 ☀| Comment(4) | TrackBack(1) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年05月21日

anthy-8916

何やら変換精度を向上させる(かもしれない)機能が加わったそうなので、この修正を加えた上で、やってみました。

anthy.dic を置いておくので、向上したかどうかはご自身で判断してください。

 update_params2×20回: anthy-20.dic
 update_params2×50回: anthy-50.dic

(上のファイルを /usr/share/anthy/ にある anthy.dic と入れ替えて再ログイン)

<追記>
読み返したらえらいぶっきらぼうな文章だった…

正直、もう自分には anthy が分からなくなってます。
以前は「辞書をこういじるとこう変わる」というのがある程度見当がついて、それに基づいて変更したりしてたんですが、今は例文から計算するので辞書の登録内容はあまり関係ない気がしてます。誤変換があっても、どうしてそうなるのか見当もつかない…。

そんなこんなで、実際のところ、今回の新機能で精度が向上したのかどうかも判断できずにいます。

# seesaa クソ重い…

posted by vagus at 22:27| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年05月20日

M17N の scim-bridge その3

大力さんに「suse の qt3 は ライブラリのファイル名に lib64 をつけて 32bit と区別しているようだ」と教えて頂いた(見たら確かにそうだった)ので、「じゃあ、QT アプリも GTK みたいに 32bit と 64bit の両方で scim-bridge が使えるかな」と思ってやってみた。

続きを読む
posted by vagus at 20:57| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年05月19日

「ねぇ uim。あなたはどうして uim なの?」

数日前、「uim」を逆さに見ると「win」になることに気づいた。

ちょっと uim が嫌いになった。

posted by vagus at 12:58| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年05月16日

M17N の scim-bridge その2

えー、何か記事を書けば書くほど一緒に恥もかいてる気がしますが、気にせずに行きます。

本来の流れで行けば前回のエントリのコメント欄に書くべきなんですが、長くなるのでこちらに書かせて頂きます。

# 何か seesaa の動きが怪しいな…大丈夫か?

続きを読む
posted by vagus at 23:57| 東京 ☀| Comment(5) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年05月15日

M17N の scim-bridge

4月に環境いじってたと言いましたが(この辺の顛末は気が向いたら書きます)、すったもんだの挙句、結局今は以前と同じ XP と openSUSE 10.2 x86_64 のデュアルブートという環境に戻りました。くたびれもうけ。

一回 Linux パーティション全部消したりしたので、10.2 を入れ直したわけですが、scim-bridge については m17n で提供されるようになったので、自分でビルドした奴じゃなく、そっちのを使おうと思って入れました。

が、なぜか GTK 64bit アプリでしか使えない。
scim が使えない firefox や、scim-qtimm を入れれば scim 使えるけど入れるとコンカラが死にまくるので入れたくない QT アプリで scim-bridge が使えない。
要するに、必要ないところで使えて、必要なところで使えないというマヌケな状態。

「んだよもー」と思いながらも、先週までは完全廃人状態だったので調べることもせずにほったらかして、QT アプリや firefox とかでは kinput2/canna 使ってました。

しかし、「やっぱ俺 ぱそこん 嫌いだわ。Windows もクソ、Linux もクソ」「他のことも一切何もやる気がせん。飯?メンドクサイ。風呂?メンドクサイ」とかいう「ひたすら真っ直ぐ後ろ向き」なドツボ状態からもようやく抜け出したので、ボチボチと調べてみた。

続きを読む
posted by vagus at 19:32| 東京 ☔| Comment(7) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2007年04月23日

scim-1.4.6 & scim-bridge-0.4.12

出たみたい。

かな入力時の「ろ」の問題が解決されたらしいので、かな入力派の人にはかなり朗報かと。

ただし、まだあと scim-anthy の新しいのが必要なので、それ待ちみたいです(リリースまで待てなければ CVS のを使えばいいんですが)。

しかし、自分は環境いじりまくっててちっとも落ち着かないので、全然試す以前の段階。


# 「疲れはまだ取れないけどそろそろまた動き出さなきゃ」と思ったら花粉症が始まったよ…。文章や物を考えられん… orz

posted by vagus at 23:37| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。