要するに、「Mozc は最小コスト法を採用してて、長い文章の変換は得意だけど、短い文節は苦手。短い文節の変換は N文節最長一致が得意。なら、読みが短い場合には N文節最長一致を使う hybrid engine にしたら?」ということだと思いますが、これは面白いかもなぁ(Mozc では却下みたいですが)。
2010年06月17日
これはコロンブスの卵かも
Mozc Issue 11: Suggestion: hybrid conversion engine
要するに、「Mozc は最小コスト法を採用してて、長い文章の変換は得意だけど、短い文節は苦手。短い文節の変換は N文節最長一致が得意。なら、読みが短い場合には N文節最長一致を使う hybrid engine にしたら?」ということだと思いますが、これは面白いかもなぁ(Mozc では却下みたいですが)。
要するに、「Mozc は最小コスト法を採用してて、長い文章の変換は得意だけど、短い文節は苦手。短い文節の変換は N文節最長一致が得意。なら、読みが短い場合には N文節最長一致を使う hybrid engine にしたら?」ということだと思いますが、これは面白いかもなぁ(Mozc では却下みたいですが)。
2009年11月06日
アクセス権風品詞コード
大分前(depgraph改を作り始めた頃だったかな)に思いついた、まあ、半分ネタです。
要するに、unix のファイルアクセス権の方式を品詞コードに応用するということですが、副詞なら、
0: 語幹が文節じゃない
1: 語幹が文節
0: 「と」も「たる」も「する」も接続しない
1: 「と」が接続
2: 「たる」が接続
4: 「する」が接続
で、unix のファイルアクセス権風に F[01][01234567] という品詞コードが作れる。
「語幹が文節で『と』と『する』に接続」(現行の F04)なら "F15" みたいに。
名詞も、
0: 語幹が文節じゃない
1: 語幹が文節
0: 「な」「さ」「する」への接続なし
1: 「な」接続
2: 「さ」接続
4: 「する」接続
0: 格助詞接続なし
1: 「の」(格助詞「の」(連体))接続
2: 格助詞接続
で、T[01][01234567][0123] という品詞コードにする。
現行の T35 は "T103"、T17 は "T110" になる。
ファイルアクセス権の場合は、「プログラムは該当ビットの ON/OFF を見ればいいので処理が高速」というメリットがあると聞いたことがありますが、そういうのは期待できない(実際の定義は depgraph でしていて、品詞コードだけを見て判断しているわけではないので)。
でも、「新しい属性を後から付け加えるのが容易」というメリットがある。
例えば、名詞に
0: 該当なし
1: 新属性1
2: 新属性2
という属性を新たに加えたとすると、新しい品詞コードは
T[01][01234567][0123][0123]
という風になり、単に後ろに付け加えていくだけでいい。
ということは、逆に、元に戻すのも簡単なわけで、一番ケツの [0123] を落とすだけで元の品詞コードが得られる。
つまり、「辞書に新しい属性が追加されたけど、変換エンジンはまだ対応してないので、以前の品詞コードを使いたい」という場合に楽に対応できる。
なので、辞書も、変換エンジンのことを気にせずに、独自に新しい属性を追加していくことができる。
まあ、新しい属性を追加するなんて、御免蒙りたかったりするんですがね…。
要するに、unix のファイルアクセス権の方式を品詞コードに応用するということですが、副詞なら、
0: 語幹が文節じゃない
1: 語幹が文節
0: 「と」も「たる」も「する」も接続しない
1: 「と」が接続
2: 「たる」が接続
4: 「する」が接続
で、unix のファイルアクセス権風に F[01][01234567] という品詞コードが作れる。
「語幹が文節で『と』と『する』に接続」(現行の F04)なら "F15" みたいに。
名詞も、
0: 語幹が文節じゃない
1: 語幹が文節
0: 「な」「さ」「する」への接続なし
1: 「な」接続
2: 「さ」接続
4: 「する」接続
0: 格助詞接続なし
1: 「の」(格助詞「の」(連体))接続
2: 格助詞接続
で、T[01][01234567][0123] という品詞コードにする。
現行の T35 は "T103"、T17 は "T110" になる。
ファイルアクセス権の場合は、「プログラムは該当ビットの ON/OFF を見ればいいので処理が高速」というメリットがあると聞いたことがありますが、そういうのは期待できない(実際の定義は depgraph でしていて、品詞コードだけを見て判断しているわけではないので)。
でも、「新しい属性を後から付け加えるのが容易」というメリットがある。
例えば、名詞に
0: 該当なし
1: 新属性1
2: 新属性2
という属性を新たに加えたとすると、新しい品詞コードは
T[01][01234567][0123][0123]
という風になり、単に後ろに付け加えていくだけでいい。
ということは、逆に、元に戻すのも簡単なわけで、一番ケツの [0123] を落とすだけで元の品詞コードが得られる。
つまり、「辞書に新しい属性が追加されたけど、変換エンジンはまだ対応してないので、以前の品詞コードを使いたい」という場合に楽に対応できる。
なので、辞書も、変換エンジンのことを気にせずに、独自に新しい属性を追加していくことができる。
まあ、新しい属性を追加するなんて、御免蒙りたかったりするんですがね…。
2009年11月01日
2009年06月03日
少し前の話ですが
大力さんが SCIM から手を引くことにされたのを知った。
とても残念です。
が、本業抱えながらはやはり大変だと思うので、仕方がないですね。
長い間本当にお疲れ様でした。
何もかも忘れてゆっくり休んで下さい。
そしてリフレッシュしたらまたもd(ry
とても残念です。
が、本業抱えながらはやはり大変だと思うので、仕方がないですね。
長い間本当にお疲れ様でした。
何もかも忘れてゆっくり休んで下さい。
そしてリフレッシュしたらまたもd(ry
2009年04月23日
2008年11月24日
「パソコンは日本語をどう変えたか」(ブルーバックス)
本屋で見つけて購入。
『YOMIURI PC』で連載されてたものを一冊にまとめたもの。
連載時に本屋で立ち読みしてたので半分くらいは読んだもののはずなんだけど、あまり覚えてなかった。
内容は『YOMIURI PC』での記事ということから想像がつくように、一般 PC ユーザ向けの読み物的な内容。しかも、「日本語処理全般」というとても広い範囲(入力方式、フォント、画面表示、印刷、文字コード等、ハードもメインフレームから携帯まで)を対象としているので、ひとつひとつのトピックもかなり限定されてる気がする。もうちょっと突っ込んだことを知りたかった自分としては物足りなかった。
でも、そういうものだと思って読めば、それなりにおもしろかった部分もある。開発者の人の声とか裏話とかがあるし、昔懐かしい名前や言葉が出てきたりとか。値段が値段だし、これはこれでいいんじゃないでしょうか。
2008年11月10日
Ume Gothic C5, O5 の「癩」
何か潰れてる。(UTF-8: 0xE7 0x99 0xA9 UTF-16: 0x7669)
P でも UI でも、C5 と O5 は同じだった。C4 とか明朝は大丈夫だった。
何で気づいたかというと、「らい」で「頼」を出したくて変換したらこいつが 4番目にいて目についたから。ちなみに、「頼」は 24個中 23番目だった…。
ま た か。何でなんだ…。
【追記】
報告しとこうと思ったら、すでに報告済みだった。
で、ume20081006 (ume-yi-394.7z)に上げたら直ってました。すばらしい。
お騒がせしました。
P でも UI でも、C5 と O5 は同じだった。C4 とか明朝は大丈夫だった。
何で気づいたかというと、「らい」で「頼」を出したくて変換したらこいつが 4番目にいて目についたから。ちなみに、「頼」は 24個中 23番目だった…。
ま た か。何でなんだ…。
【追記】
報告しとこうと思ったら、すでに報告済みだった。
で、ume20081006 (ume-yi-394.7z)に上げたら直ってました。すばらしい。
お騒がせしました。
2008年11月05日
オプソな IME の未来
IMEインタフェース共通仕様が完成
ワーキング・グループ3(WG3)は標準化を担当している。WG3では,発足当初から手がけてきたかな漢字変換などの入力メソッド(IME)インタフェースの共通仕様を完成させた。2008 年中に公開する予定だ。IMEインタフェース共通仕様と既存のIMEを接続するため,IME-BUSと呼ぶソフトウエアの開発をWG1と共同で進ている。またWeb非互換要因に関する調査を終え報告書を公開,それに対する対策のドラフトを完成させた。
「日中韓3国による共同開発・標準化の成果を発表---第7回北東アジアOSS推進フォーラム」- ITpro
ははぁ、これか…。
これまでに出てる分は後で読んでみよう。
でも、当面は
そんなのおっぱっぴ〜!
かな(端折った)。
2008年10月24日
文節操作のキー割り当て - 追記
・次の文節 -> Tab
・前の文節 -> Shift+Tab
・文節を伸ばす -> Right
・文節を縮める -> Left
・現在の文節を確定 -> Down
…これは結構快適かもしれない。
Shift をほとんど押さなくて済むから。
しばらくやってみよう。
(しかし、MacBook の矢印キーが小さいのがなんとも…。Down はしょっちゅう押し間違える)
【追記】
uim-anthy は文節移動が循環しないのか…。
scim-anthy は「最後の文節」の次が「最初の文節」になってくれるなぁ。
続きを読む
・前の文節 -> Shift+Tab
・文節を伸ばす -> Right
・文節を縮める -> Left
・現在の文節を確定 -> Down
…これは結構快適かもしれない。
Shift をほとんど押さなくて済むから。
しばらくやってみよう。
(しかし、MacBook の矢印キーが小さいのがなんとも…。Down はしょっちゅう押し間違える)
【追記】
uim-anthy は文節移動が循環しないのか…。
scim-anthy は「最後の文節」の次が「最初の文節」になってくれるなぁ。
続きを読む
2007年08月15日
2007年06月23日
久々にアクセスログ覗いたら
以前書いた「助ける」と「動ける」は同じか?という記事やその続きにやたらアクセスがあった。
何だろ?
「何こいつ?ど素人の勘違いくんが偉そうに講釈たれてるよm9(^Д^)プギャー」とか笑われてんだろうか?
うんうん。まぁ、笑われても仕方ない部分は多々あるな、確かに。
(もう笑われてることに決まったのか)
つーか、国文か言語学系の人、手伝ってくださいm(_ _)m
可能動詞や補助動詞もそうだけど、かな漢字変換エンジンにとって最適な品詞コード体系作って教えて欲しいよ...
別に品詞コード体系作ってくれなくても、登録だのチェックだのを手伝って貰えるだけでも大助かりなんだけどなぁ。
なかなかそういう奇特な人は少ないんだろうな。
何せ、膨大な時間を食うくせに何のスキルにもならんのだから。
何だろ?
「何こいつ?ど素人の勘違いくんが偉そうに講釈たれてるよm9(^Д^)プギャー」とか笑われてんだろうか?
うんうん。まぁ、笑われても仕方ない部分は多々あるな、確かに。
(もう笑われてることに決まったのか)
つーか、国文か言語学系の人、手伝ってくださいm(_ _)m
可能動詞や補助動詞もそうだけど、かな漢字変換エンジンにとって最適な品詞コード体系作って教えて欲しいよ...
別に品詞コード体系作ってくれなくても、登録だのチェックだのを手伝って貰えるだけでも大助かりなんだけどなぁ。
なかなかそういう奇特な人は少ないんだろうな。
何せ、膨大な時間を食うくせに何のスキルにもならんのだから。
2007年05月29日
KOTONOHA現代日本語書き言葉均衡コーパス
「現代日本語の書き言葉の特徴が分かる 国語研がサイトを試験公開」[マイコミジャーナル] 経由
KOTONOHA現代日本語書き言葉均衡コーパス(デモ) [国立国語研究所]
おお、これは anthy の depgraph を強化するのに使えるカモ試練。
KOTONOHA現代日本語書き言葉均衡コーパス(デモ) [国立国語研究所]
おお、これは anthy の depgraph を強化するのに使えるカモ試練。
2007年04月10日
2007年04月07日
Re: scim-anthy-1.3.0
2007年04月05日
知識のない妄想の続き
以前「未来の input method (妄想)」というエントリを書いたが、win では既にできるのね。いつからかしらないけど、多分だいぶ前からっぽい。全然知りませんでした orz
ところで、
「グーグル中国、グーグルらしい機能を実装したIMEを無料配布」[CNET Japan]
だそうな。
windows 用らしいですが。続きを読む
ところで、
「グーグル中国、グーグルらしい機能を実装したIMEを無料配布」[CNET Japan]
だそうな。
windows 用らしいですが。続きを読む
2007年02月15日
未来の input method (妄想)
「電子ペンでタブレットに描く未来」- [ITmedia]という記事を読みながら、「将来はペン入力がもっと普及するんだろうか?ってことは、日本語入力もペン入力になるんだろうか?」と思った。
このワコムの嘉本さんという人は
ただ、画像を見る限り英語らしいが。
続きを読む
このワコムの嘉本さんという人は
普段からE-mailにペン入力を使っているそうだし。
ただ、画像を見る限り英語らしいが。
続きを読む
2007年02月09日
「助ける」と「動ける」は同じか? --- 続きの続き
やはり同じようなことを考えている人がいました。
『日本語動詞述語の構造』(丹羽 一彌 著)という本です。
(2005年の本なのに、出版社のサイトの「書籍検索」で出てこないって、どういうことだよ)
まだ読み始めたばかりですが、最近自分が考えていたのと同じく、「動ける」の「け(ke)」の「e」の部分を可能を表す形態素とみなしています。
また、「φ」という記号を使って「ないものがある」という風に考えてもいるようです(こっちはまだちゃんと読んでみないと、自分と同じかどうかはっきりしたことは言えないんですが)。
(「φ」って、集合論での空集合の記号でしたっけ?)
続きを読む
『日本語動詞述語の構造』(丹羽 一彌 著)という本です。
(2005年の本なのに、出版社のサイトの「書籍検索」で出てこないって、どういうことだよ)
まだ読み始めたばかりですが、最近自分が考えていたのと同じく、「動ける」の「け(ke)」の「e」の部分を可能を表す形態素とみなしています。
また、「φ」という記号を使って「ないものがある」という風に考えてもいるようです(こっちはまだちゃんと読んでみないと、自分と同じかどうかはっきりしたことは言えないんですが)。
(「φ」って、集合論での空集合の記号でしたっけ?)
続きを読む
MS-IME 2007 vs ことえり
ヨドバシ行ったついでに vista をちょっと触ってきました。
...結構使いやすいかも(おい
少なくとも xp なんかよりは数段上ですな。当たり前か。
どっかで RC だかβだか手に入れとけばよかったか。
それはいいとして、ついでに MS-IME 2007 が可能動詞をどう出してるかなと思って「うごけろ」と入れて変換してみました。
続きを読む
...結構使いやすいかも(おい
少なくとも xp なんかよりは数段上ですな。当たり前か。
どっかで RC だかβだか手に入れとけばよかったか。
それはいいとして、ついでに MS-IME 2007 が可能動詞をどう出してるかなと思って「うごけろ」と入れて変換してみました。
続きを読む
2007年02月07日
2007年02月03日
「助ける」と「動ける」は同じか?
ML に投げたメールにもちょっと書きましたが、現在 anthy では「動けまい」が出せません。
これに気づいたのは少し前で、その時は「5段動詞仮定形+まい」だろうと安直に思ってそれで出せるようにしたのですが、気になって辞書を引いてみると「まい」が仮定形に接続するとは一言も書いてない。
続きを読む
これに気づいたのは少し前で、その時は「5段動詞仮定形+まい」だろうと安直に思ってそれで出せるようにしたのですが、気になって辞書を引いてみると「まい」が仮定形に接続するとは一言も書いてない。
続きを読む