2009年11月03日

「着ー」

「キー」(key)が出したくて「きー」を変換したら、「着ー」とか「来ー」とか「気ー」とかが候補にあって(しかも「キー」より前)、「何じゃこりゃ? まさか alt-depgraph のせいか?」と思って焦った。
でも、調べてみたが、alt-depgraph には該当するようなエントリはなかった。

「もしかして」と思って、~/.anthy/conf の「DEPGRAPH_WITH_PART」を "false" にしてみたら、出なくなった。
あー、「ぁぃぅぇぉゃゅょっ」だけじゃなく、音引きもそうだったのね。

この辺はあった方が嬉しい人(特に「っ」)とそうでない人の好みが分かれる所だと思いますが、自分は "false" で行こう。

# G-HAL 氏版 Anthy の話です。素の Anthy は関係なし。

posted by vagus at 00:40| 東京 ☁| Comment(2) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年11月02日

scim-anthy のカタカナ変換問題

ずっと忘れてたけど、思い出した。

現象: scim-anthy で「う゛」をカタカナ変換(F7キー)しても「ヴ」にならず、「ウ゛」(「ウ」+「゛」の二文字)になる

※ ローマ字かなテーブルが「va vi vu ve vo」 → 「う゛ぁ う゛ぃ う゛ う゛ぇ う゛ぉ」のものの場合。

例: 「う゛ぃーなす」で F7 → 「ウ゛ィーナス」(「ヴィーナス」にならない)

※「ヴィーナス」は辞書にある語なので、F7 押さずに変換キー押せば正しく変換されますが、ここでは例として敢えて F7 で変換。

scim-anthy-1.2.7 で確認。

ちなみに、
[ibus-anthy]
元から「v[aiueo]」は「ヴ[ぁぃ ぇぉ]」なので(カスタマイズもできないし)この問題は起きない。

[uim-anthy]
ちゃんと「う゛」→ F7 →「ヴ」に変換。
素晴らしい。

【追記】
チケットに登録してみた。ログインするのが面倒だったので匿名で。
で、タイトルに「scim-anthy」と入れ忘れたことに気づいた。
匿名だと再編集できなかった… orz
posted by vagus at 19:19| 東京 ☁| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年10月24日

用例辞書 ucdict について

G-HAL 版 anthy の新用例辞書 ucdict について。
※ 「ucdict について論評する」とかそういうものではなく、主に「自分が理解するために自分の頭で考えてみる」というものです。色々難しいので…。

ucdict の登録の仕方は、mkworddic/ucdict の先頭部分を参照。
内部の動作等、詳しい話は G-HAL 氏の日記(?)の Mon,05 Oct,2009 以降を参照。

続きを読む
posted by vagus at 23:25| 東京 ☁| Comment(12) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

何か変…?

うちのネットワークがトラブってて、ucdict についてはさっきようやく書き始めたところなんですが、その前にちょっと。

anthy-9100h.patch13B-23-iconv-ucdict.2009X22.alt-depgraph-090712.alt-cannadic-090921.tar.lzma で、「さくらのさきに」を変換して

sakini_1.jpeg

とフォーカスを「咲きに」に移して変換キーを押し、候補リストを表示させると

sakini_2.jpeg

1番目が「先に」で「咲きに」が 8番目になってる…。

ucdict はちょっと変更したけど、それ以外はデフォルトのままの状態。
ucdict も「桜」や「咲」に関わる部分はいじってないです。

バグでしょうか?

posted by vagus at 18:56| 東京 ☀| Comment(2) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年10月22日

さすが、仕事が速い

G-HAL 氏が anthy の用例辞書を作り直してるということなので、どんな感じかと試していたら(2009X19 版)、早くも更新されてた…。

いつもながら仕事が速い、速すぎます…。

というわけで、2009X21 版を落としてきて改めてやり直し。
新用例辞書の ucdict についてはもうちょっといじってから明日書きたいと思いますが、ちょっと気づいた点。
多分
コーパスから自動生成した用例辞書の加点数を、単語の辞書の頻度値の 100相当になるように大幅に下げた。
の影響だと思いますが、変換の傾向が結構変わった。さっき入れ直したばかりで、まだあまり使ってないのでアレですが、以前は文節を短く切ろうとする傾向が強かった(原作からの傾向)のが、長い文節をかなり許容するようになった気がする。ただ、やや緩すぎる(長い文節を許容しすぎる)感じがする。CANDIDATE_SCORE_CORPUS_UDICT というのを調節してみればいいんだろうか?

と思って、「307200」にしてみたが、うーん、微妙。「204800」のままでいいかも。
もうちょっといじってみよう。
posted by vagus at 00:51| 東京 ☁| Comment(4) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年09月13日

ibus/ibus-anthy 更新

ibus-1.2.0.20090904, ibus-anthy-1.2.0.20090907 にそれぞれ更新してみた。

ibus 本体をビルドした時、最初 ./configure が「iso-codes がねえ」とか言ってコケた。「え?」と思って確認したら、iso-codes はちゃんと入れてあった。よく分からないまま、iso-codes-devel も入れてみたら、今度は通った。…そうなの? なんか釈然としないけど、通ったので良しとする。

続きを読む
posted by vagus at 00:59| 東京 🌁| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年07月13日

alt-depgraph-090712

出しました。左のリンクからどうぞ。

(とりあえず、お知らせのみ)

posted by vagus at 00:56| 東京 ☀| Comment(2) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年06月25日

scim-anthy のかな入力が CapsLock ON の時に変な件の続き

scim-anthy のかな入力が CapsLock ON の時に変な件 【追記】6/6, 6/21, 6/22の続き。
※ 流れでタイトルに「scim-anthy」と入ってますが、「scim-anthy」も「scim」も実際は関係ないです

Ubuntu-ja-9.04-Desktop 入れてみました。
インストーラのキーボードの設定のところで「既定」を選ぶと、確かに CapsLock キー単独で CapsLock On/Off がトグルしました。
$ sudo dpkg-reconfigure console-setup
で、「日本語106」を選んだ後「OADG109A」にして再起動すれば確かに直りました。

あと、/etc/default/console-setup を直接編集して、
XKBLAYOUT="jp,jp"
XKBVARIANT="106,"
XKBLAYOUT="jp"
XKBVARIANT="106"
にして再起動しても直るようです(「106」の代わりに「OADG109A」でもいい)。


続きを読む
posted by vagus at 01:03| 東京 ☁| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年06月18日

霞で使える品詞コードをちょっと増やしてみた 【追記】6/24, 8/3

「形容詞 - しく活用」の誤りを修正するついでに、もうちょっと、利用可能な品詞コードを追加してみた。

【追記】6/24
パッチ置いときます kasumi2.patch.bz2

【追記】8/3
霞の 2.5 が出たようなので(ありがとうございます)、そちらをどうぞ。

続きを読む
posted by vagus at 01:06| 東京 ☀| Comment(2) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年06月06日

scim-anthy のかな入力が CapsLock ON の時に変な件 【追記】6/6, 6/21, 6/22

Ubuntu フォーラムに出てるこの件のことなんですが、これは scim-anthy のバグじゃないかなぁという気が。【追記】6/6 バグではないという結論に達した

再現手順は、

 ・scim-anthy の「入力方式」を「かな入力方式」に設定
 ・CapsLock を ON にする

この状態で色んなキーを押していくと、

 「z」キー → 「っ」(shift modifiered)
 「e」キー → 「ぃ」(shift modifiered)
 「3」キー → 「あ」(non modifiered)
 「4」キー → 「う」(non modifiered)

というように、「通常時(CapsLock OFF 時)には shift キーを押して出す文字」とそうでない文字とが混ざってる。

かな入力はほとんど使ったことないし、「CapsLock が ON の時に IME はどういう動作をするべきか」とかほとんど気にしたこともないので、あまり偉そうなことは言えないんですが、「あるキーは non modifiered な文字を返し、別なキーは shift modifiered な文字を返す」というマチマチな動作はやはり意図された動作とは思えないですよね、普通。

とりあえず、回避策としては、とにかく CapsLock キーは使わずに、「無変換」キーとか別なキーを割り当てて使うようにするしかないんじゃないかな。「とにかく CapsLock は ON にしない」と。MacBook しか持ってないんで、断言はできませんが。

でも、これって、多分相当前からあった現象なんじゃないかと思うんですが、今まであまり知られてなかったと言うのは驚き。それだけかな入力の人口が少ないってことなんでしょうねぇ。

あー、あれ? よく読むと、「CapsLock」キーを単独で押したときに、Eisu_Toggle が発行されるのと同時に CapsLock も ON になっちゃうのが問題? でも、手元では「CapsLock」キーを単独で押しただけじゃ、CapsLock は ON にはならないな。インジケータは点灯するけど…。

何か混乱してきたぞ。

【追記】6/6

続きを読む
posted by vagus at 01:12| 東京 ☔| Comment(1) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年06月03日

ibus-anthy に日本人開発者が現れた模様 - 【追記】6/4, 6/8, 6/10, 6/16, 6/17

ibus-anthy

まだよく分かってないですが、Hideaki Abe さんという方らしい。
ibus-anthy-1.1.0.20090603 がリリースされたようなので、あとで入れてみる。

【追記】6/4
入れてみたので、スクリーンショットを追加。
ibus-1.1.0.20090531 + ibus-anthy-1.1.0.20090603

※実は ibus-setup が起動しなかったりするんですが、openSUSE の場合、そのうちここのリポジトリに上がってくると思うので、もう自分ではやらない。
【追記】6/8
単に python-xdg ってのを入れ忘れてただけでした。

続きを読む
posted by vagus at 21:35| 東京 ☀| Comment(4) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年05月27日

正変換の候補の中に逆変換の候補が混じることに気づいた

例えば、「?」単独で変換してみると「はてなまーく」「はてな」「くえすちょんまーく」「ぎもんふ」等が候補に出てくる。

調べたところ、

anthy-9100h → 正常
anhty-9100h + alt-depgraph-090525 → 正常
anthy-9100h + patch13Bptn23-2009520 → OUT

となったので、どうも patch13Bptn23 の不具合っぽい。
「いつから?」と思って 2009503 版で確認してみたら、これもアウトだった。
…うそ、昨日まで全く気づいてなかったんですけど…。

「G-HAL 氏が確か何か書かれてた気がする」と思って探してみた
うーむ、scim-anthy で出てるんでこれは違うのかも。
オリジナル uim-1.5.5 (~/.uim 無し)でも同じ症状だし。

LATTICE_HINTING_BY_CHARACTER を有効にしてるので、ANTHY_RECONVERT_? は「強制的にDISABLE」のはずだと思うが、試しに「AUTO」になってたのを「DISABLE」にしてみるも、やはり変わらず、逆変換の候補が出てくる。

現象としては、「通常変換時に逆変換用のエントリも引っ張ってきてしまっている(あるいは、通常変換時に同時に逆変換も行ってしまっている)」ように見えますが…。


【追記】
原因は判明した模様。いつも素早い対応ありがとうございます。
が、そんな以前からだったとは……

# seesaa 何か重いな

【追記2】
2009527 版、治ってるのを確認しました。ありがとうございました。

posted by vagus at 20:16| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年05月25日

自作 depgraph 更新(5/25) 【追記】5/28

alt-depgraph 更新しました。

【変更点】
09/05/24
* G-HAL 氏の patch を anthy-9100h.patch13Bptn23.2009520 に更新
* depgraph: 色々調整(中)
* alt-cannadic/extra: $(datadir)/anthy/extradics にインストールするようにした
* alt-cannadic/extra/g-keiyousi_ie-std.t: 新規追加
 「さみ(寒)ー」「切ねえ」等の形容詞イ音便・エ音便辞書
  anthy/wtype.h
  src-worddic/ptab.h
  src-worddic/wtab.h も変更
* mkworddic/extra.t: 複合語を compound.t に移動、重複削除、誤登録若干修正

続きを読む
posted by vagus at 23:08| 東京 ☀| Comment(2) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

depgraph改: 一応作った

けどもう説明を書く気力がないので明日(ってもう今日だけど)出します。

posted by vagus at 02:15| 東京 ☁| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年05月23日

お詫び

先日はお見苦しい記事を書いてしまい、すみませんでした。
寝不足が続いてイラついてたらしい。それで昨夜はピークが来て、飯食った後に暴力的な睡魔に襲われ、風呂も入らずに寝てしまいました…。「出す」とかホザいてたのにごめんなさい。

# 色々書いたが結局言いたいことがまとまらなかったので削除

日曜までには出すと思います(多分)。
posted by vagus at 02:18| 東京 ☁| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年05月21日

クソムカツク。止めた

「|修正で|切るだろう|」等を直そうと散々色々試したが、全然直らん。どうやっても直らん。久々にトサカに来た。
もう知らん。これ以上やってられないので止め。時間がかかりすぎる。しかも結局直らんし。

明日出します。


# 取り乱しててすんません

posted by vagus at 00:56| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年05月18日

もうちょっと延期

出そうとしたんですが、いくつか気になるところが出てきたのでもうちょっと延ばします。

それから、またありがたい情報が。いつもありがとうございます。助かります。

「てんてん」は入力方法を変えることで対応して頂くとして、
|終了ですか|そうですか|
|仕様ですか|そうですか|
|中毒ですか|そうですか|
|送るべきか|送らない|
|行うべきか|否か|
|買うべきか|否か|
|考えるべきか|あぐねて|
|どうするべきか|迷う|
|変換するべきか|区切らずに|
|熱狂しているからか|本当に|
以上の、「〜か|〜」のパターンはすべて alt-depgraph のせい(文末属性対応時のチェック漏れ。「か」副助 が付いてなかった)です(修正済)。
|悲しみよ|こんにちは|
の「よ」は、言われてみれば(大きな切れ目ではあっても)文末とは言えないので、「Se@」に修正しました。

残るは
|混ぜるな|危険|
ですが、これは慣用句と見て一語で辞書に登録することにします。
これを「Se@」にすると、また「みんな」「こんな」が「見んな」「来んな」になってしまうので。


しかし、たったこれだけで済んだと言うのはちょっと驚き。

posted by vagus at 01:22| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年05月16日

「|直すの|大変だよ|」

一週間があっという間なんですけど…。
anthy-9100h + patch13Bptn23 + alt-depgraph-090506。
「|直すの|大変だよ|」(|なおすの|たいへんだよ|)
が、1発では出ない。
の件。

これは alt-depgraph の不備です。すみません。
--- particle_kaku.depdef.orig   2009-05-06 01:22:07.000000000 +0900
+++ particle_kaku.depdef 2009-05-16 01:22:07.000000000 +0900
@@ -329,6 +329,7 @@
# 「お前んとこ」 何にでも付くわけではないので微妙
@「の」格助(連体・音便) "ん" St@
#
+@「の」格助(準体) "の" Se@
@「の」格助(準体) "の" @_助動「だ」
@「の」格助(準体) "の" @_助動「です」
@「の」格助(準体) "の" @_助動「らしい」
で正しく出せるようになると思います。

明日か明後日、また出すつもりですが。
posted by vagus at 01:29| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年05月10日

応答いろいろ

こちらへの応答。

簡単なものから行きます。
「@_サ変連用形(共通)」から遷移しようとしている「@_補動「やる」(複合・可動)」
「@_上下一段連用形(共通)」から遷移しようとしている「@_補動「やる」(複合・可動)」
が、無い。 と思ったら、コメントアウトしてあった。
「@_補動「やる」(複合・可動)」「@_補動「やる」(複合・音便・可動)」は、あまり使われない & 入れると誤変換しそうだと思ったので今のところ全部外してありますが、あった方がいいでしょうか?
@「たら」終助
@「たら」副助
@「ちゃ」接助(引用)
@「ほど」副助(準体)
@補動「ある」終止形I
が、未使用
これらも確かに全部未使用です(一応、チェックスクリプト作ってあって、すべて把握済み)。定義だけ作って、実際にはどこにも接続させてません。結構微妙なものたちなので…。
続きを読む
posted by vagus at 20:06| 東京 ☀| Comment(4) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2009年05月05日

自作 depgraph 更新(5/4) - 出し直し(5/6)

【追記】5/6
いくつかミスを発見したので出し直しました。

---------------
alt-depgraph 更新しました。

多分、常用しても問題ないくらいにはなったと思います(ほんとか?)ので、ヒトバシラーズの皆様には是非積極的に使って頂きたく。

※「常用しても問題ないくらい変換精度が上った」という意味では決してありませんので、そこは誤解なきように。「付属語グラフが、通常使われる表現はほぼ出せるレベルになった」という意味です。「付属語グラフ」というのは、ごく簡単に言うと、助詞や助動詞がどういう自立語に付くか、また、助詞助動詞同士はどういう繋がり方をするか、というのを定義したもののことです。例えば、ここに「名詞の後ろに助動詞『です』が付く」という定義がないと、「のみものです」を変換しても「|飲み物|デス|」とかになってしまい、「|飲み物です|」と一文節で出すことができない、というようなものです。

【変更点】
・G-HAL 氏のパッチを patch13Bptn23.2009503 に更新
・G-HAL 氏のパッチを使用する場合、文末属性を利用するように
D2T35 を再有効化
カ変とサ変「する」で、同じ活用形に複数の読みがある場合に、それらを区別するように

【注意点】
・G-HAL 氏のパッチが patch13Bptn22 で、再度「学習データ形式変更」になっています。原作 anthy もしくは G-HAL 氏の以前のパッチを当てた anthy を使っていて、かつ、学習機能を利用している場合は、形式変換の作業が必要になるそうです。
詳細はこちら
学習データの形式が、また変更になっています。 オリジナルの Anthy もしくは patch1〜patch13Bptn21 までの Anthy から patch13Bptn22以降に移行する場合、 一旦、

% rm ~/.anthy/last-record1_*.bin
% anthy-agent --update-base-record
% rm ~/.anthy/last-record1_*.bin
% anthy-agent --update-base-record

を実行(同じ事を2回繰り返していますが、間違いではありません)して、 学習データの形式変換をして下さい。


posted by vagus at 01:00| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。