2010年06月25日

厄介な「な」

毎度お馴染み G-HAL 氏の所より。
alt-depgraph-100603
「文節のみな」(ぶんせつのみな) が1文節にできない。
「文節な」(ぶんせつな) は1文節に出来る。

この「…な…」は、多分ここ 20年くらいでよく使われるようになったんじゃないかという気がするんですが、形容動詞の活用語尾の流用なのかなぁ…。あるいは、助動詞「だ」か。
ここまでくると、殆ど "引用" に近い使われ方だなぁ…。

これが厄介だと思うのは、「語A + な + 語B」とあったときに、この「な」が、前の語(語A)ではなく、むしろ後ろの語(語B)に規定されてるケースがあると思われるからなんですよねぇ。

 …な気がする
 …な訳ないだろ
 …な筈なのに
 …なせいだった
 …なままで

みたいな。
後ろの語に規定されるケースは、anthy の depgraph では想定されてない。

ともあれ、「のみ」や「だけ」も、「文節」(T35) と同じように、弱い接続で接続できるようにしてもいいんですが、誤変換が怖い…。

# 実は今日、「おおきなもんだいというわけでは」が
# 「|お起きなもんだいと|言うわけでは|」になって驚いた。
# 「お起き」は T35。
# この「な」が何の「な」なのかは未確認ですが、多分、
# 「@_名詞35のあと "" Hj.@形動ダナ連体形」
# まぁ、例文登録すれば直るとは思いますが…

悩む…

続きを読む
posted by vagus at 00:49| 東京 ☀| Comment(3) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年06月24日

目が点になった

〈代表リポート〉「勝つために、2年半やってきた」 - asahi.com

W杯予選突破のかかったデンマーク戦を控えた岡田監督への(?)質問。
――もしデンマークに負けたら、そのときの心境は。

最近ニュース見てなかったからかもしれないけど、久々に見たな。
超絶破壊的バカ質問。

質問したの誰ですか? 日本人? デンマークの記者?
「マスコミ バカ質問コンテスト」みたいなのがあったら、エントリさせたい…。
posted by vagus at 22:04| 東京 ☀| Comment(0) | チラシの裏 | このブログの読者になる | 更新情報をチェックする

2010年06月21日

alt-depgraph: ToDo

・「…しおる」を出せるようにする(「…しよる」は保留)
・「…してんだ{よ,から,けど,etc}」を出せるようにする
・「…に|立って」と区切るようにする(|舞台に|立って| etc)
・「ご覧」「御免」「お止め」「お帰り」のような動詞丁寧語表現を別品詞にする(OKX 復活?)

動詞丁寧語は元々は OKX だったけど、「する接続」の有無をコントロールしたくて名詞の品詞コードにした。
でも、それだと上記のような「する接続無し」のものの「…なさい」が誤変換を起こす。

条件
・語幹が名詞か否か
・「する接続」の有無
・「する接続無し」のものも「…なさる」が付く
 「…下さい」は大抵誤変換しないし、漢字表記を使いたいので一文節にはしない

こんな感じか?

compound.t のマージ作業が終わったらやる
posted by vagus at 20:31| 東京 ☀| Comment(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年06月17日

これはコロンブスの卵かも

Mozc Issue 11: Suggestion: hybrid conversion engine

要するに、「Mozc は最小コスト法を採用してて、長い文章の変換は得意だけど、短い文節は苦手。短い文節の変換は N文節最長一致が得意。なら、読みが短い場合には N文節最長一致を使う hybrid engine にしたら?」ということだと思いますが、これは面白いかもなぁ(Mozc では却下みたいですが)。

posted by vagus at 00:58| 東京 ☁| Comment(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2010年06月11日

git 自分メモ

$ git clone git://git.example.com/hoge.git
$ cd hoge
;; base にしたい commit を checkout
$ git checkout [base にしたい commit-id]
;; 自分が作業するためのブランチを作成
$ git checkout -b mybranch
...
;; 「ファイルを更新し commit」を繰り返す
...
;; パッチ作成
;; 自分が mybranch に commit した分をすべて番号付きで "出力先ディレクトリ" に出力
$ git format-patch -o [出力先ディレクトリ] master..mybranch


format-patch で作成されたパッチは、git am で適用すると commit までしてくれる(commit log はパッチにあるものが使われる)。git apply で適用すると、ファイルの更新までで commit はされない。

git am でも git apply でも、ファイルのアクセス権の設定までやってくれるらしい(いちいち、スクリプトに chmod +x とかしなくていい)。

参考:
[git:ブランチの内容をマージする]
[Pro Git - プロジェクトの運営]
[How to create and apply a patch with Git]
posted by vagus at 01:16| 東京 ☁| Comment(0) | Linux | このブログの読者になる | 更新情報をチェックする

2010年06月10日

update_params に掛かる時間

時間かかるんですよねぇ、こいつは。
相変わらず make update_params0 ; make update_params ; make update_params2 ; make update_params2 が完了するまでに80分くらいかかるし……。
現状、過去版、安定版、試験版、の3系列を持っているから、 この更新だけで4時間以上は消費してしまう……。
お疲れ様です。

ウチは、先日 MacBookPro にしたおかげで大分速くなりました。
G-HAL 氏版だと update_params2 1回が 10分くらい。
原作版だと 5分前後なのでほとんど気にならなくなった(だから 5回もブン回したりした)。

NetBook とかの非力なマシンでやったらどのくらいかかるんだろうか?
持ってないから試せないけど。

posted by vagus at 00:28| 東京 ☁| Comment(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年06月08日

相変わらず詰めが甘い【追記】6/9,6/13

G-HAL 氏からの突っ込み発見。
誤:
% gpatch -p1 -N < ../alt-depgraph-100603/alt-depgraph_*
../alt-depgraph-100603/alt-depgraph_*: Ambiguous.
%

正その1:
$ cat ../alt-depgraph-100603/alt-depgraph_* | gpatch -p1 -N

正その2:bourne shell の場合。
$ for FILE in ../alt-depgraph-100603/alt-depgraph_*
> do
> gpatch -p1 -N < $FILE
> done

「あれ? 出す前にやった時は通ったけどな」と思ってもう一度やってみたら "Ambiguous."…。
なぜ、前は通った…。
ともあれ、ご指摘ありがとうございます。
calctrans/divide.sh
depgraph/mkdepword
chmod +x 忘れ?

そうでした orz

というわけで、訂正メール出しました。
いつもすみませんです…。

しかも、alt-depgraph-100603 の G-HAL 氏版 Anthy 用のパッチを作ってたら、すでに対応済みだった…。
しまった。こっちを先にやっておけばよかった。

ごめんなさい。

# gendic_zip.rb は元々は公開するつもりはなかったので、
# ruby1.9 限定で書きました。1.9 の方が楽なので。ご了承下さい。


【追記】
今思ったけど、「patch < *」の件は、前にも G-HAL 氏にご指摘を受けたような気がしなくもない…

【追記】
anthy-9100h.patch13B-23-iconv-ucdict.2010512.alt-depgraph-100603.alt-cannadic-100603.zipdic-201005-patch100608.tar.lzma

確認したところ、問題ありませんでした。
ちょこちょこいじるところがあったはずなんですが、さすがです。

…というか、例文に変換できない奴があるな orz

【追記】6/9
続きを読む
posted by vagus at 22:00| 東京 ☔| Comment(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

2010年06月01日

郵便番号辞書更新

Anthy 用郵便番号辞書を更新しました。

左上のリンク(zipdic-201005)からどうぞ。

郵便番号辞書については、多分、そのうち新部さんの方に引き取られて、自分はお役ご免になると思います


引き継ぎの意味で変換スクリプト(gendic_zip.rb)も同梱しましたが、普通の人は無視して下さい。

posted by vagus at 00:56| 東京 ☀| Comment(0) | cannadic改 - 更新情報 | このブログの読者になる | 更新情報をチェックする

とりあえず何とかなったっぽい【追記】6/2, 6/3

git に不慣れで随分手間取ったけど…。

もうちょっと確認して問題なければ明日あたり送る予定。

【追記】6/2
一応できた。

【追記】6/3
余計なことしてたら、作ったところで今日は力尽きた…。メールは明日だ

posted by vagus at 00:43| 東京 ☀| Comment(0) | 日本語入力 - アプリ | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。