2010年06月25日

厄介な「な」

毎度お馴染み G-HAL 氏の所より。
alt-depgraph-100603
「文節のみな」(ぶんせつのみな) が1文節にできない。
「文節な」(ぶんせつな) は1文節に出来る。

この「…な…」は、多分ここ 20年くらいでよく使われるようになったんじゃないかという気がするんですが、形容動詞の活用語尾の流用なのかなぁ…。あるいは、助動詞「だ」か。
ここまでくると、殆ど "引用" に近い使われ方だなぁ…。

これが厄介だと思うのは、「語A + な + 語B」とあったときに、この「な」が、前の語(語A)ではなく、むしろ後ろの語(語B)に規定されてるケースがあると思われるからなんですよねぇ。

 …な気がする
 …な訳ないだろ
 …な筈なのに
 …なせいだった
 …なままで

みたいな。
後ろの語に規定されるケースは、anthy の depgraph では想定されてない。

ともあれ、「のみ」や「だけ」も、「文節」(T35) と同じように、弱い接続で接続できるようにしてもいいんですが、誤変換が怖い…。

# 実は今日、「おおきなもんだいというわけでは」が
# 「|お起きなもんだいと|言うわけでは|」になって驚いた。
# 「お起き」は T35。
# この「な」が何の「な」なのかは未確認ですが、多分、
# 「@_名詞35のあと "" Hj.@形動ダナ連体形」
# まぁ、例文登録すれば直るとは思いますが…

悩む…

続きを読む
posted by vagus at 00:49| 東京 ☀| Comment(3) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年06月21日

alt-depgraph: ToDo

・「…しおる」を出せるようにする(「…しよる」は保留)
・「…してんだ{よ,から,けど,etc}」を出せるようにする
・「…に|立って」と区切るようにする(|舞台に|立って| etc)
・「ご覧」「御免」「お止め」「お帰り」のような動詞丁寧語表現を別品詞にする(OKX 復活?)

動詞丁寧語は元々は OKX だったけど、「する接続」の有無をコントロールしたくて名詞の品詞コードにした。
でも、それだと上記のような「する接続無し」のものの「…なさい」が誤変換を起こす。

条件
・語幹が名詞か否か
・「する接続」の有無
・「する接続無し」のものも「…なさる」が付く
 「…下さい」は大抵誤変換しないし、漢字表記を使いたいので一文節にはしない

こんな感じか?

compound.t のマージ作業が終わったらやる
posted by vagus at 20:31| 東京 ☀| Comment(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年06月10日

update_params に掛かる時間

時間かかるんですよねぇ、こいつは。
相変わらず make update_params0 ; make update_params ; make update_params2 ; make update_params2 が完了するまでに80分くらいかかるし……。
現状、過去版、安定版、試験版、の3系列を持っているから、 この更新だけで4時間以上は消費してしまう……。
お疲れ様です。

ウチは、先日 MacBookPro にしたおかげで大分速くなりました。
G-HAL 氏版だと update_params2 1回が 10分くらい。
原作版だと 5分前後なのでほとんど気にならなくなった(だから 5回もブン回したりした)。

NetBook とかの非力なマシンでやったらどのくらいかかるんだろうか?
持ってないから試せないけど。

posted by vagus at 00:28| 東京 ☁| Comment(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年06月08日

相変わらず詰めが甘い【追記】6/9,6/13

G-HAL 氏からの突っ込み発見。
誤:
% gpatch -p1 -N < ../alt-depgraph-100603/alt-depgraph_*
../alt-depgraph-100603/alt-depgraph_*: Ambiguous.
%

正その1:
$ cat ../alt-depgraph-100603/alt-depgraph_* | gpatch -p1 -N

正その2:bourne shell の場合。
$ for FILE in ../alt-depgraph-100603/alt-depgraph_*
> do
> gpatch -p1 -N < $FILE
> done

「あれ? 出す前にやった時は通ったけどな」と思ってもう一度やってみたら "Ambiguous."…。
なぜ、前は通った…。
ともあれ、ご指摘ありがとうございます。
calctrans/divide.sh
depgraph/mkdepword
chmod +x 忘れ?

そうでした orz

というわけで、訂正メール出しました。
いつもすみませんです…。

しかも、alt-depgraph-100603 の G-HAL 氏版 Anthy 用のパッチを作ってたら、すでに対応済みだった…。
しまった。こっちを先にやっておけばよかった。

ごめんなさい。

# gendic_zip.rb は元々は公開するつもりはなかったので、
# ruby1.9 限定で書きました。1.9 の方が楽なので。ご了承下さい。


【追記】
今思ったけど、「patch < *」の件は、前にも G-HAL 氏にご指摘を受けたような気がしなくもない…

【追記】
anthy-9100h.patch13B-23-iconv-ucdict.2010512.alt-depgraph-100603.alt-cannadic-100603.zipdic-201005-patch100608.tar.lzma

確認したところ、問題ありませんでした。
ちょこちょこいじるところがあったはずなんですが、さすがです。

…というか、例文に変換できない奴があるな orz

【追記】6/9
続きを読む
posted by vagus at 22:00| 東京 ☔| Comment(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年06月01日

とりあえず何とかなったっぽい【追記】6/2, 6/3

git に不慣れで随分手間取ったけど…。

もうちょっと確認して問題なければ明日あたり送る予定。

【追記】6/2
一応できた。

【追記】6/3
余計なことしてたら、作ったところで今日は力尽きた…。メールは明日だ

posted by vagus at 00:43| 東京 ☀| Comment(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年05月14日

mozc

ipadic と言っても、mecab-ipadic の方か。

もしそのまま mecab で使えるなら、昔言ったような「mecab に web 上の文章食わせて未知語を取り出し、それを辞書に追加、追加された辞書でまた形態素解析して未知語を取り出し辞書に追加」というサイクルができるかもね。というか、Google はそういう風なことをやってるんだろうと思いますが。

posted by vagus at 01:05| 東京 ☀| Comment(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年04月29日

MacUIM に Anthy 用辞書エディタが入るらしい、と思ったけど前からあったらしい

ふと「先日出た MacUIM って、G-HAL 氏のどのパッチ使ってるんだったっけ?」と思って、リポジトリ覗いたら、AnthyDict というディレクトリが追加されてるのを見つけた。

README には
AnthyDict is a personal dictionary editor of Anthy
とあるので、個人辞書ツールらしい。

そう言えば、MacUIM には個人辞書ツールがなかったのか。
uim-dict-gtk を移植するのかな?



# 風邪ひいたらしい。熱がある。ダルい…

【追記】
リポジトリ見ても、G-HAL 氏のどのパッチか分からなかった。
ekato さんの日記を見て分かりましたが、コメント欄に AnthyDict がどうこうという話が…。 あら? 以前からあったんですか? 何か見当たらないんですけど。どこだ…。

あった。
/Library/Anthy/AnthyDict.app
知らなかった…か? なんかデジャヴな気もしてきた…
posted by vagus at 01:22| 東京 ☁| Comment(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年04月25日

数字に続くハイフンの入力【追記】4/25,4/27,5/4

郵便番号辞書つながりでもう一つ。

現在、読みとして入力する郵便番号は「1000014」のようにすべて数字になっています。

でも、本来は「100-0014」「100─0014」のようにハイフンを入れたい。見やすいし、「1000014えん」が「|東京都千代田区永田町|円|」になるのも防げるだろうから。

なぜそうなっていないのか、郵便番号変換機能が実装された時の経緯は分かりませんが、仮に今それをやりたいと思ったとしても上手く行きません。
というのも、現状のフロントエンド({scim,uim,ibus}-anthy で確認)では、前の文字が数字でもハイフンは長音記号のままになってしまうから。
例: 100ー0014

※uim-anthy は「英数モード」に変えてから入力すればハイフンになります。
 また、テンキーから入力した場合どうなるかは、ウチにはテンキーがないので分かりません。

勿論、「100ー0014 #CNS 東京都千代田区永田町」という風に、読みをハイフンでなく長音記号で登録すれば、「100ー0014」から「東京都千代田区永田町」に変換できますが、みっともないので自分はやりたくない(フォントによっては全角ハイフンと長音記号の区別がつかないかもしれませんが(特にゴシック体)、区別してあるフォントの場合は、長音記号は左端が上がってる)。

数字の次にハイフンがくるのは郵便番号だけでなく、他にも

日付: 2010-4-24
住所: ○○市××町3-2-1-503
バージョン: 1.2.3-4

などがある。
数字の直後に長音記号がくることは、多分まずないと思うので、「前が数字だったら長音記号ではなく、ハイフン」という動作にして問題ないと思うんですが、どうでしょうかね。


ちなみに、「数字の次の句読点も同じようにカンマやピリオドに」というのは、マズい気がする。
「右に30、左に5。」みたいな文が「右に30,左に5.」になってしまうので。

ならば、「前の文字が数字かどうか」ではなく「後ろの文字が数字かどうか」で判断すれば行けるんではないかと、ちょっと思ったけど、これも「今日は、24日です」が「今日は,24日です」になるのでマズい。

【追記】4/25
続きを読む
posted by vagus at 01:08| 東京 ☀| Comment(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

全角/半角の違いを誰が吸収すべきか問題【追記】4/27,5/4

昨日の続き(元々はこっちからつなげる積もりだったんですが、どっちでもいいや)。

昨日の話は郵便番号辞書の話でしたが、これは別に郵便番号辞書に限った話ではなく、いわゆる全角/半角の種別のある文字を変換する場合すべてについて言える。

簡単にまとめると、要するに、

・英数記号にはいわゆる全角/半角の 2種類がある(他に「ヴ」と「う゛」というパターンもある)
・全角を好むユーザもいれば、半角を好むユーザもいる
・なので、IME は両方に対応できなければならない
・この差異を誰が吸収すべきか(フロントエンド? 変換エンジン? 変換辞書?)

という問題です。

本音をぶっちゃけると、現状はこの差異を辞書が吸収してるんですが、リソースの無駄だと思うので、フロントエンドか変換エンジン側でやってくれたらなぁ、というお話です。

続きを読む
posted by vagus at 01:07| 東京 ☀| Comment(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年04月24日

ibus-anthy の辞書管理機能(郵便番号辞書について)【更新】4/27,5/4

ibus-anthy-1.2.1 が出てますが、更新をサボっていたせいで色々知らない機能が増えてました。
親指シフト関係が充実したようです。また、「逐次変換」というもの見えます(まだ使ってない)。

---------
【追記】5/4
前にもどこかに書いた気がしますが、新しめの ibus 関係のパッケージは、openSUSE なら OBS のこの人のところから入れられます。ただし、公式パッケージではないので、自己責任で。
※自分は自前でビルドしてしまったので、使ってないです。
---------

その中で、新たな辞書管理機能についてちょっと書いてみます。

ibus-anthy-121_dict.png

この[拡張辞書]の部分ですね。

これは、一言で言うと、自分が以前、

~/.anthy/imported_words_default.d/ について
個人辞書ツール

という記事で書いたようなこと(というか、それ以上のもの)が実装された感じ、と言えばいいでしょうか。

続きを読む
posted by vagus at 01:38| 東京 🌁| Comment(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年04月21日

かな英字交じり文を一度に変換する方法のまとめ【追記】4/22

「日本語入力」「かな漢字変換」とは言っても、実際にユーザが入力したいのは「ひらがな」「カタカナ」「漢字」だけじゃなく、「アラビア数字(算用数字)」や「アルファベット」や「記号」もある。

それらを uim-anthy, scim-anthy, ibus-anthy でどう入力するか、というお話(但し、uim-anthy 以外はローマ字入力方式限定ですが)。

尤も、「カタカナ」「漢字」は通常「ひらがな」から変換して出すし、ローマ字入力なら「アラビア数字」と「記号」はそのまま普通に入力できるので、結局、問題は「アルファベット」だけ、ということになる。

まぁ、知ってる人はとっくに知ってる話だと思いますが、一応自分の知ってる範囲でのまとめ。

続きを読む
posted by vagus at 01:51| 東京 ☔| Comment(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年04月19日

scim(-anthy) の謎 - 文節区切り表示

uim には、こういう風↓に文節区切りを表示する機能があり、非常に分かりやすくていい。

uim-anthy_border.png

でも、scim-anthy は注目文節の前後しか区切り位置が分からず、うっかり確定すると、実は変なところで区切られてて、それを学習してしまったために変換結果が悪化する、ということが起こる。

scim-anthy_border1.png

と、そう思われてると思いますが、というか、実際そうなんですが、実は、scim-anthy でも、文節区切りが表示されることがある。

scim-anthy_border2.png

これは、Firefox 内のテキストボックスで入力した時のものですが、文節の切れ目で下線が切れてます。
(Firefox 内なら、検索ボックスでもどこでもこうなるらしい)。
scim(-anthy) も、実は文節の切れ目を表示してる?
それともこれは Firefox 側で何かやってるんでしょうか?

よく分かりませんが、今の所、scim-anthy で文節の切れ目が表示されるのは、自分の知る限り、Firefox だけで、他は Thunderbird でもダメでした。

また、Firefox でも、ibus の場合は切れ目は表示されませんでした。

うーん、謎。
posted by vagus at 23:47| 東京 ☀| Comment(5) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年03月23日

anthy で、「きょう?」で日付に変換する 【更新】3/31,4/27

-----
【更新】3/28
G-HAL 氏に反応を頂いたので(いつもお世話になります…)、実行時に学習履歴から古い日付エントリを削除するよう対応してみました。
自己責任でどうぞ。

datedic.t を更新した後、text の last-record* から日付エントリ(「きょう?」とか「ことし?」とか)の行を削除、その後、バイナリの last-record*.bin を削除します。
euc の場合も考慮したつもりですが、utf-8(last-record*.utf8)と euc の履歴ファイルが混在しているケースは考慮してません(普通、ないですよね?)

まぁ、作者が作者なので、一応、実行する前に ~/.anthy/ をバックアップしておくことをお勧めします。
一応、1世代だけバックアップ取るようにしてはありますが。

※以下の本文も若干変更しました。
P.S. 「言問橋」は「言問団子」等とともに登録させて頂きました。ありがとうございます。repo 公開準備ができるまでもうちょっとお待ちを。ここ 2ヶ月ほど格闘してるんですが、なかなかまとまらん…。でも多分もうすぐ

【更新】3/29
つまらないミスをしてコケてたので修正しました。

【更新】3/31
クォートをミスっていて、ケツの文字のない「きょう」や「きのう」等も履歴ファイルから削除されてしまっていたのを修正しました。確認したはずだったんですが…。すみません…。
ついでに、履歴ファイルが EUC、かつ、ruby1.9 を使った場合にエンコーディングがおかしくなるのも修正。

【更新】4/27
マジックコメントは "encoding" という文字列をキーにしてるんだから、"fenc" ではダメなんだよね、という訳で修正。
影響があるのは ruby1.9 系のみです。
-----

個人的には特に欲しい機能でもないんですが、「一応出来なくはない」のに「出来ない」と思われてるようなので、ruby の勉強がてら作ってみました。

datedic.rb.bz2 【更新】4/27

落として展開して実行権限付けて実行すると、

~/.anthy/imported_words_default.d/datedic.t

という辞書が作成されます(~/.anthy/imported_words_default.d/ がない場合は作成します)。

そのまま、「きょう?」と、読みのケツに "?" を付けて変換すると、「2010/3/23」や「平成22年3月23日」に変換できます。
「きょう?」で変換したところ
(画像は、「-f」オプションで全角数字の候補は出さないようにしたもの)

後は、「$ crontab -e」して自分の crontab に
@daily /path/to/datedic.rb
@reboot /path/to/datedic.rb
とか書いておけば宜しいかと。
(「/path/to/datedic.rb」は「datedic.rb の絶対パス」です。例えば「/home/vagus/bin/datedic.rb」とか。)
(「@daily」は「毎日0時0分に実行」。これだけだと、0時0分にマシンが起動していなかった場合には辞書が更新されないので、「@reboot」で起動時にも実行するようにする。
※ただ、その時間にスリープ中だった場合にはどうしようもないので、その場合は手動で実行する必要があります。)

続きを読む
posted by vagus at 01:16| 東京 ☀| Comment(10) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年01月10日

depgraph改: 100109 【追記】1/10, 1/11, 1/20, 1/22, 1/26

細かい所を気にし出したらキリがないので、出しました。
左のリンクからどうぞ。

暫定版からの変更点は、

・gcanna.ctd → gcanna.t にファイル名変更
・make update_params0 時に calctrans/devide.shdivide.sh で corpus.{1,3,5,x}.txt から corpus.{y,z}.txt を自動生成するようにした
・あと、辞書や depgraph の細かい修正

です。

一応、パッケージも置いときます。(1/11 1/21 1時頃 更新)
anthy-9100h.orig.newdep.final.tar.gz
・anthy-9100h.patch13B-09Y15.newdep.final.tar.bz2
・anthy-9100h.patch13B-09Z21.newdep.final.tar.bz2


リリースものはこれで終了です。
あとは、後片付け。

続きを読む
posted by vagus at 00:33| 東京 ☀| Comment(2) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年12月31日

暫定版: depgraph改 【追記】1/2

案の定間に合わないので、手元のものをそのまま丸ごとパッケージ化して、暫定版として置いておきます。

A. anthy-9100h.orig.newdep.tar.gz
B. anthy-9100h.09Y15.newdep.tar.bz2
C. anthy-9100h.09Z21.newdep.tar.bz2

※どれも展開後のディレクトリ名は "anthy-9100h/" になるので注意!!
 make dist でパッケージングしたため。.gz と .bz2 があるのもそのため。
※ほとんどテストできてないので、もしかしたらうまく動かないかもしれません。

それぞれベースは、

A. anthy-9100h.tar.gz のみ
B. anthy-9100h.tar.gz +
  anthy-9100h.patch13Bptn23.iconv.2009Y15.bz2 + anthy-9100h.mkworddic_fix.tar.bz2
C. anthy-9100h.patch13B-23-iconv-ucdict-combinedphrases.2009Z21.alt-depgraph-090712.alt-cannadic-091122.tar.lzma

です。

C は試験版なので、通常は B もしくは A をお使い下さい。

続きを読む
posted by vagus at 23:32| 東京 ☁| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

いつもながら

G-HAL 氏のところを改めて読み直してましたが、いつもながら、凄いと言うか、感服すると言うか…。
あのややこしい部分を実装してテストするだけでも大変だろうと思うのに、それを言葉でも説明するなんて…。

とにもかくにも、実験本当にお疲れ様でした & ありがとうございました。
また、しばらく留守にしていてすみませんでした。

明日 alt-depgraph 出したら反応できるところに反応していきたいと思ってます。

# しかし、議論についていくのが大変だ orz

posted by vagus at 01:26| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年11月13日

エラー潰し

またまた G-HAL 氏が凄いことをして下さった。
素晴らしい、というか、凄いです。

何故こんなことをサクッとやれてしまうのか、つくづく感心します。

やって頂いた以上は、と言うわけで、エラーとして上がってきた例文のエラー箇所を全部潰した。

例文の不備もさることながら、辞書の不備、付属語グラフの不備も結構あって、非常に有益な作業だった。
一番多かったのは複合語辞書を読まなくなったことによる影響でしたが…。

品詞コード付与(必要と思われる部分のみ)は明日以降にやります。

(余談)
用例辞書にて、3文節以上からなる内容を1行で記述できるマクロを追加。

こんな感じ。
\compound 3 |い+の|なか+の|かわず+_|たいかい+を|し+らず| |井+の|中+の|蛙+_|大海+を|知+らず| |#T35+*|#T35+*|#T35+*|#T35+*|#R5+*|

見ての通り、データを作るのがかなり面倒。
これは mecab を使えば、ある程度までは(読み付与と分かち書き)自動化できそうな気がしますが、それでも、品詞コードは辞書見ながら手作業で入力になるし、最終的には全部目でチェックしなきゃダメなので、やっぱり大変か…。
posted by vagus at 01:12| 東京 ☁| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年11月09日

効いてるかどうかが分からない - 【追記】11/9,11/10,11/12

~/.anthy/conf の CANDIDATE_STRUCT_PROB_WITHOUT_CORPUS と CANDIDATE_SCORE_CORPUS_UDICT の値を色々変えて区切りと候補の並び順がどう変わるか見てるんですが、値を変えても一向に変化がない…。

違いが出るような文に当たってないのかなぁ…

【追記】11/9

続きを読む
posted by vagus at 00:24| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年11月08日

うーむ…

国民投票: 使っているIMEは? - スラッシュドット・ジャパン

canna 使ってる人って、まだ結構いるんですね…。
もうサポート止める気満々だったんですが…。

posted by vagus at 22:12| 東京 ☀| Comment(2) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年11月06日

G-HAL 氏版 anthy 2009Y04 【追記】11/7, 11/8, 11/9

現在 update_params 中ですが、一個ケアレスミス発見。

--- anthy-9100h/src-splitter/Makefile.am.orig   2009-11-04 09:00:00.000000000 +0900
+++ anthy-9100h/src-splitter/Makefile.am 2009-11-06 18:46:23.000000000 +0900
@@ -13,4 +13,4 @@
wordborder.h lattice.c segclass.c \
depgraph_type_sym.h depgraph_type_sym.c cand_wt_name.h cand_wt_name.c \
lattice.h lattice_common.c lattice_maxlen.c lattice_manual.c \
- metaword_relationscore.h metaword_relation_score.c
+ metaword_relationscore.h metaword_relationscore.c


と言ってるそばから update_params がコケた orz

【追記】11/7
続きを読む
posted by vagus at 18:50| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。