2010年06月17日

これはコロンブスの卵かも

Mozc Issue 11: Suggestion: hybrid conversion engine

要するに、「Mozc は最小コスト法を採用してて、長い文章の変換は得意だけど、短い文節は苦手。短い文節の変換は N文節最長一致が得意。なら、読みが短い場合には N文節最長一致を使う hybrid engine にしたら?」ということだと思いますが、これは面白いかもなぁ(Mozc では却下みたいですが)。

posted by vagus at 00:58| 東京 ☁| Comment(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2009年11月06日

アクセス権風品詞コード

大分前(depgraph改を作り始めた頃だったかな)に思いついた、まあ、半分ネタです。

要するに、unix のファイルアクセス権の方式を品詞コードに応用するということですが、副詞なら、

0: 語幹が文節じゃない
1: 語幹が文節

0: 「と」も「たる」も「する」も接続しない
1: 「と」が接続
2: 「たる」が接続
4: 「する」が接続

で、unix のファイルアクセス権風に F[01][01234567] という品詞コードが作れる。
「語幹が文節で『と』と『する』に接続」(現行の F04)なら "F15" みたいに。

名詞も、

0: 語幹が文節じゃない
1: 語幹が文節

0: 「な」「さ」「する」への接続なし
1: 「な」接続
2: 「さ」接続
4: 「する」接続

0: 格助詞接続なし
1: 「の」(格助詞「の」(連体))接続
2: 格助詞接続

で、T[01][01234567][0123] という品詞コードにする。

現行の T35 は "T103"、T17 は "T110" になる。

ファイルアクセス権の場合は、「プログラムは該当ビットの ON/OFF を見ればいいので処理が高速」というメリットがあると聞いたことがありますが、そういうのは期待できない(実際の定義は depgraph でしていて、品詞コードだけを見て判断しているわけではないので)。
でも、「新しい属性を後から付け加えるのが容易」というメリットがある。

例えば、名詞に

0: 該当なし
1: 新属性1
2: 新属性2

という属性を新たに加えたとすると、新しい品詞コードは

T[01][01234567][0123][0123]

という風になり、単に後ろに付け加えていくだけでいい。
ということは、逆に、元に戻すのも簡単なわけで、一番ケツの [0123] を落とすだけで元の品詞コードが得られる。

つまり、「辞書に新しい属性が追加されたけど、変換エンジンはまだ対応してないので、以前の品詞コードを使いたい」という場合に楽に対応できる。
なので、辞書も、変換エンジンのことを気にせずに、独自に新しい属性を追加していくことができる。

まあ、新しい属性を追加するなんて、御免蒙りたかったりするんですがね…。


posted by vagus at 00:51| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2009年11月01日

ううう

書きたいことはいくつかあるんですが、書こうとするとなかなか書き出せず、時間だけが過ぎていく秋の夜更け…。己れの知識のなさが恨めしいですが、でも、別に専門でも仕事でもないし…、うがー、みたいな。

まあ、最近やってたことでも書いて時間稼ぎ。

ランクの付け直しは動詞まで終わって、名詞を残すのみ。でも、名詞が過半数を占めるので、要するにまだ全体の半分も終わってないと。
その上、ちょっとミスって、2日分の作業を全部見直しとかしてて泣いた。

「コマンド履歴が見れれば…」と思って一縷の望みを託したが、bash なので欲しい履歴は綺麗さっぱり消えてた。

続きを読む
posted by vagus at 01:23| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2009年06月03日

少し前の話ですが

大力さんが SCIM から手を引くことにされたのを知った。

とても残念です。
が、本業抱えながらはやはり大変だと思うので、仕方がないですね。
長い間本当にお疲れ様でした。

何もかも忘れてゆっくり休んで下さい。
そしてリフレッシュしたらまたもd(ry
posted by vagus at 00:50| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2009年04月23日

kotobank

kotobank - 朝日新聞社,ECナビ,朝日新聞出版,講談社,小学館の5社が所有する44辞典・事典 約43万語のデータを検索,閲覧できる

だそうです。メモ。検索プラグインもあったので入れておいた。

posted by vagus at 00:50| 東京 ☁| Comment(0) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2008年11月24日

「パソコンは日本語をどう変えたか」(ブルーバックス)



本屋で見つけて購入。
『YOMIURI PC』で連載されてたものを一冊にまとめたもの。
連載時に本屋で立ち読みしてたので半分くらいは読んだもののはずなんだけど、あまり覚えてなかった。
内容は『YOMIURI PC』での記事ということから想像がつくように、一般 PC ユーザ向けの読み物的な内容。しかも、「日本語処理全般」というとても広い範囲(入力方式、フォント、画面表示、印刷、文字コード等、ハードもメインフレームから携帯まで)を対象としているので、ひとつひとつのトピックもかなり限定されてる気がする。もうちょっと突っ込んだことを知りたかった自分としては物足りなかった。

でも、そういうものだと思って読めば、それなりにおもしろかった部分もある。開発者の人の声とか裏話とかがあるし、昔懐かしい名前や言葉が出てきたりとか。値段が値段だし、これはこれでいいんじゃないでしょうか。
posted by vagus at 22:52| 東京 ☔| Comment(0) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2008年11月10日

Ume Gothic C5, O5 の「癩」

何か潰れてる。(UTF-8: 0xE7 0x99 0xA9 UTF-16: 0x7669)
Ume_Gothic_C5.jpeg
Ume_Gothic_O5.jpeg

P でも UI でも、C5 と O5 は同じだった。C4 とか明朝は大丈夫だった。

何で気づいたかというと、「らい」で「頼」を出したくて変換したらこいつが 4番目にいて目についたから。ちなみに、「頼」は 24個中 23番目だった…。

ま た か。何でなんだ…。

【追記】
報告しとこうと思ったら、すでに報告済みだった。
で、ume20081006 (ume-yi-394.7z)に上げたら直ってました。すばらしい。
お騒がせしました。

posted by vagus at 07:26| 東京 ☁| Comment(0) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2008年11月05日

オプソな IME の未来

IMEインタフェース共通仕様が完成

 ワーキング・グループ3(WG3)は標準化を担当している。WG3では,発足当初から手がけてきたかな漢字変換などの入力メソッド(IME)インタフェースの共通仕様を完成させた。2008 年中に公開する予定だ。IMEインタフェース共通仕様と既存のIMEを接続するため,IME-BUSと呼ぶソフトウエアの開発をWG1と共同で進ている。またWeb非互換要因に関する調査を終え報告書を公開,それに対する対策のドラフトを完成させた。

「日中韓3国による共同開発・標準化の成果を発表---第7回北東アジアOSS推進フォーラム」- ITpro

ははぁ、これか…。
これまでに出てる分は後で読んでみよう。

でも、当面は

 そんなのおっぱっぴ〜!

かな(端折った)。
posted by vagus at 00:06| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2008年10月24日

文節操作のキー割り当て - 追記

・次の文節 -> Tab
・前の文節 -> Shift+Tab
・文節を伸ばす -> Right
・文節を縮める -> Left
・現在の文節を確定 -> Down

…これは結構快適かもしれない。
Shift をほとんど押さなくて済むから。

しばらくやってみよう。

(しかし、MacBook の矢印キーが小さいのがなんとも…。Down はしょっちゅう押し間違える)


【追記】
uim-anthy は文節移動が循環しないのか…。
scim-anthy は「最後の文節」の次が「最初の文節」になってくれるなぁ。
続きを読む
posted by vagus at 00:08| 東京 ☔| Comment(0) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2007年06月23日

久々にアクセスログ覗いたら

以前書いた「助ける」と「動ける」は同じか?という記事やその続きにやたらアクセスがあった。

何だろ?
「何こいつ?ど素人の勘違いくんが偉そうに講釈たれてるよm9(^Д^)プギャー」とか笑われてんだろうか?

うんうん。まぁ、笑われても仕方ない部分は多々あるな、確かに。
(もう笑われてることに決まったのか)

つーか、国文か言語学系の人、手伝ってくださいm(_ _)m
可能動詞や補助動詞もそうだけど、かな漢字変換エンジンにとって最適な品詞コード体系作って教えて欲しいよ...

別に品詞コード体系作ってくれなくても、登録だのチェックだのを手伝って貰えるだけでも大助かりなんだけどなぁ。
なかなかそういう奇特な人は少ないんだろうな。
何せ、膨大な時間を食うくせに何のスキルにもならんのだから。
posted by vagus at 00:02| 東京 ☔| Comment(0) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2007年05月29日

KOTONOHA現代日本語書き言葉均衡コーパス

「現代日本語の書き言葉の特徴が分かる 国語研がサイトを試験公開」[マイコミジャーナル] 経由

KOTONOHA現代日本語書き言葉均衡コーパス(デモ) [国立国語研究所]

おお、これは anthy の depgraph を強化するのに使えるカモ試練。

posted by vagus at 21:46| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2007年04月07日

Re: scim-anthy-1.3.0

ML に不具合報告を出されている松鵜さんから TB を頂いた。
初めましてです。

が、他の作業に掛かりっきりで scim-anthy-1.3.0 はあれ以降放ったらかしです。ごめんなさい。
来週になれば時間が取れると思うんですが…。

もっとも、時間ができたところで、お役に立てるかどうかははなはだ怪しいんですが…

# CVS が CSV になってるのハッケソ って、ああ、また余計な事を言わずにいられない自分… すみません。

ところで、『Inside Linux Software』についての松鵜さんの感想自分のと非常によく似ていてビビりました。
やっぱ「いい本」って事ですね。

posted by vagus at 00:02| 東京 ☀| Comment(2) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2007年04月05日

知識のない妄想の続き

以前「未来の input method (妄想)」というエントリを書いたが、win では既にできるのね。いつからかしらないけど、多分だいぶ前からっぽい。全然知りませんでした orz

ところで、
「グーグル中国、グーグルらしい機能を実装したIMEを無料配布」[CNET Japan]
だそうな。
windows 用らしいですが。続きを読む
posted by vagus at 20:00| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2007年02月15日

未来の input method (妄想)

「電子ペンでタブレットに描く未来」- [ITmedia]という記事を読みながら、「将来はペン入力がもっと普及するんだろうか?ってことは、日本語入力もペン入力になるんだろうか?」と思った。

このワコムの嘉本さんという人は
普段からE-mailにペン入力を使っている
そうだし。
ただ、画像を見る限り英語らしいが。

続きを読む
posted by vagus at 00:05| 東京 ☔| Comment(0) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2007年02月09日

「助ける」と「動ける」は同じか? --- 続きの続き

やはり同じようなことを考えている人がいました。

『日本語動詞述語の構造』(丹羽 一彌 著)という本です。
(2005年の本なのに、出版社のサイトの「書籍検索」で出てこないって、どういうことだよ)

まだ読み始めたばかりですが、最近自分が考えていたのと同じく、「動ける」の「け(ke)」の「e」の部分を可能を表す形態素とみなしています。

また、「φ」という記号を使って「ないものがある」という風に考えてもいるようです(こっちはまだちゃんと読んでみないと、自分と同じかどうかはっきりしたことは言えないんですが)。
(「φ」って、集合論での空集合の記号でしたっけ?)

続きを読む
posted by vagus at 22:11| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

MS-IME 2007 vs ことえり

ヨドバシ行ったついでに vista をちょっと触ってきました。

...結構使いやすいかも(おい
少なくとも xp なんかよりは数段上ですな。当たり前か。

どっかで RC だかβだか手に入れとけばよかったか。

それはいいとして、ついでに MS-IME 2007 が可能動詞をどう出してるかなと思って「うごけろ」と入れて変換してみました。

続きを読む
posted by vagus at 00:31| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2007年02月07日

「助ける」と「動ける」は同じか? --- 続き

前のエントリをあの後も考えつづけてました。

予想どおり、考え足りなかったです。

続きを読む
posted by vagus at 00:18| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

2007年02月03日

「助ける」と「動ける」は同じか?

ML に投げたメールにもちょっと書きましたが、現在 anthy では「動けまい」が出せません。
これに気づいたのは少し前で、その時は「5段動詞仮定形+まい」だろうと安直に思ってそれで出せるようにしたのですが、気になって辞書を引いてみると「まい」が仮定形に接続するとは一言も書いてない。

続きを読む
posted by vagus at 17:22| 東京 ☀| Comment(7) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。


×

この広告は1年以上新しい記事の投稿がないブログに表示されております。