SJ3強化辞書プロジェクト

まずはSJ3ってなに?(使い方も書いてあるよ!)

SJ3は本当は単純にしてはすごく使える漢字変換だと思うのですが、

どうもそれに執着してしまって。

もうひとつ現代でバリバリに使える漢字変換があってもいいと。

で、強化辞書募集したんですが、全く投稿ない。

みんなanthy-utかmozcで、べんりじゃん。

たった一人で辞書作成。

ろくにデータマイニングの知識もないのにどうしてはまる?


無理やり理由をつけると、とにかく、いま、Linuxで日本語入力ときたらmozc一択になりそうなこのご時世ですが、

何らかの情報を開発元のgoogleに送っているという事はなさそうだとされていますが、

無料で今まで考えられない品質のIMEが出るのはなにか引換があると思われ、

GoogleまたはAdsence広告主に都合のいいサジェスト、変換候補が現れる可能性があります。ちょっと緊張しませんか?

今ネットに出ている完成された辞書は3つ

賢いかな漢字変換システム Sj3からダウンロード出来る

elispというサイトにsj3-egg- 0.8.2.tar.gzがある。そのアーカイブの中のsj3main.src なお出どころ不明だがだれも気にしない

FreeWnn の付属のPubdic+辞書pod.cをコンパイルすればsj3の形式に変換できる

もちろん、これらの語を足してuniqして、でっかい辞書も作れます。

この場合9万語を超えるので辞書ファイルを複数にしないと溢れます。

SJ3の辞書の謎

SJ3には、manなどのドキュメントに載っていない機能がいくつか有ります。

辞書のフォーマットの詳細です。


丁寧1、丁寧2のタグは、公式のフリー版SJ3の辞書や他のSJ3辞書でも使われていませんがなんで?

一括というタグは、どう使うの?(多分、一括タグで登録された言葉だけをうつと 読みがその言葉だらけの辞書を読んで、候補に出すんじゃないか)

動詞の分類の[け、ける、けれ]というのは具体的にどうなの?(これ、活用だと思ったんですけれど、公式の辞書みてみるとあれれ?)

ソースコードを見ると、辞書の単語と読みは32バイト以下のようです。

それに、補助タグが存在するらしく、よく見ると、辞書のフォーマットの説明に

あーかんそー アーカンソー 地名:[州]:[都市]:[所]:

なんてかいてあります。

普通SJ3の辞書では、地名の品詞は「地名:」の品詞コードで締めます。しかも、「州」が品詞名について無く補助タグの方になる。

種類は、ソースコードのGramTableというファイルに書いて有る割り当てられた数が負の数のものです。

電車とか魚とか衣服とか国とか20ぐらいあります。

これらについて、Linuxなんて誰も知らない頃のpubdicのメーリングリストの記録を読みましたが、

ぱっぱと辞書作成に入ったりSJ3を作ったソニーがXの次のリリースに間に合わせようって急かしたりして(結局、Xには同梱されなかった)

そのへんの記述は全くありません。


更にもうひとついうと、形容動詞の分類に入っている単語がわずかしかなく、多くは名詞と形容動詞を兼ねた分類で、

国文法の研究でも「形容動詞は名詞の一部じゃ?こんな分類よくわからない!」という人が多くいて、私の辞書でも形容動詞の品詞コード使いたくないです。

C言語は工業高校で習ったぐらいで、

かつ、コメントも全くなく

はるか昔の、日本語EUCすらよめないコンパイラ向けに文字コード表現された文字列、コメントが/*XXX*/だけなど、SJ3のソースを読むのは観念します。

アップされたファイルはこちら - トップページ - コンピュータの話題

inserted by FC2 system