2009年11月06日

アクセス権風品詞コード

大分前(depgraph改を作り始めた頃だったかな)に思いついた、まあ、半分ネタです。

要するに、unix のファイルアクセス権の方式を品詞コードに応用するということですが、副詞なら、

0: 語幹が文節じゃない
1: 語幹が文節

0: 「と」も「たる」も「する」も接続しない
1: 「と」が接続
2: 「たる」が接続
4: 「する」が接続

で、unix のファイルアクセス権風に F[01][01234567] という品詞コードが作れる。
「語幹が文節で『と』と『する』に接続」(現行の F04)なら "F15" みたいに。

名詞も、

0: 語幹が文節じゃない
1: 語幹が文節

0: 「な」「さ」「する」への接続なし
1: 「な」接続
2: 「さ」接続
4: 「する」接続

0: 格助詞接続なし
1: 「の」(格助詞「の」(連体))接続
2: 格助詞接続

で、T[01][01234567][0123] という品詞コードにする。

現行の T35 は "T103"、T17 は "T110" になる。

ファイルアクセス権の場合は、「プログラムは該当ビットの ON/OFF を見ればいいので処理が高速」というメリットがあると聞いたことがありますが、そういうのは期待できない(実際の定義は depgraph でしていて、品詞コードだけを見て判断しているわけではないので)。
でも、「新しい属性を後から付け加えるのが容易」というメリットがある。

例えば、名詞に

0: 該当なし
1: 新属性1
2: 新属性2

という属性を新たに加えたとすると、新しい品詞コードは

T[01][01234567][0123][0123]

という風になり、単に後ろに付け加えていくだけでいい。
ということは、逆に、元に戻すのも簡単なわけで、一番ケツの [0123] を落とすだけで元の品詞コードが得られる。

つまり、「辞書に新しい属性が追加されたけど、変換エンジンはまだ対応してないので、以前の品詞コードを使いたい」という場合に楽に対応できる。
なので、辞書も、変換エンジンのことを気にせずに、独自に新しい属性を追加していくことができる。

まあ、新しい属性を追加するなんて、御免蒙りたかったりするんですがね…。


posted by vagus at 00:51| 東京 ☀| Comment(0) | TrackBack(0) | 日本語入力 - 一般 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック