SJ3強化辞書プロジェクト

まずはSJ3ってなに?(使い方も書いてあるよ!)

SJ3は本当は単純にしてはすごく使える漢字変換だと思うのですが、

どうもそれに執着してしまって。

もうひとつ現代でバリバリに使える漢字変換があってもいいと。

anthyはすぐに忘れるか、パッチを入れると遅くて重たいし、libkkcは力が足りない SKKはShiftがめんどくさい

SJ3なら、日本の会社であるソニーが作ったものだし、今でも平気でコンパイルできて、軽くて精度もすごい。

やっぱり日本語入力は日本がやるべきですね。

今ネットに出ている完成された辞書は3つ

賢いかな漢字変換システム Sj3からダウンロード出来る

elispというサイトにsj3-egg- 0.8.2.tar.gzがある。そのアーカイブの中のsj3main.src なお出どころ不明だがだれも気にしない

FreeWnn の付属のPubdic+辞書pod.cをコンパイルすればsj3の形式に変換できる

もちろん、これらの語を足してuniqして、でっかい辞書も作れます。

この場合9万語を超えるので辞書ファイルを複数にしないと溢れます。

【【SJ3増補辞書プロジェクトページはこちら】】

SJ3の辞書の謎

SJ3には、manなどのドキュメントに載っていない機能がいくつか有ります。

辞書のフォーマットの詳細です。


丁寧1、丁寧2のタグは、公式のフリー版SJ3の辞書や他のSJ3辞書でも使われていませんがなんで?

一括というタグは、どう使うの?(多分、一括タグで登録された言葉だけをうつと 読みがその言葉だらけの辞書を読んで、候補に出すんじゃないか)

動詞の分類の[け、ける、けれ]というのは具体的にどうなの?(これ、活用だと思ったんですけれど、公式の辞書みてみるとあれれ?)

ソースコードを見ると、辞書の単語と読みは32バイト以下のようです。

それに、補助タグが存在するらしく、よく見ると、辞書のフォーマットの説明に

あーかんそー アーカンソー 地名:[州]:[都市]:[所]:

なんてかいてあります。

普通SJ3の辞書では、地名の品詞は「地名:」の品詞コードで締めます。しかも、「州」が品詞名について無く補助タグの方になる。

種類は、ソースコードのGramTableというファイルに書いて有る割り当てられた数が負の数のものです。

電車とか魚とか衣服とか国とか20ぐらいあります。

これらについて、Linuxなんて誰も知らない頃のpubdicのメーリングリストの記録を読みましたが、

ぱっぱと辞書作成に入ったりSJ3を作ったソニーがXの次のリリースに間に合わせようって急かしたりして(結局、Xには同梱されなかった)

そのへんの記述は全くありません。

どうも、ソニーのUNIXワークステーション「NEWS」についていた製品版のSJ3は、このような言葉ごとのつながりも計算する機能があったらしいです。


更にもうひとついうと、形容動詞の分類に入っている単語がわずかしかなく、多くは名詞と形容動詞を兼ねた分類で、

国文法の研究でも「形容動詞は名詞の一部じゃ?こんな分類よくわからない!」という人が多くいて、私の辞書でも形容動詞の品詞コード使いたくないです。

C言語は工業高校で習ったぐらいで、

かつ、コメントも全くなく

はるか昔の、日本語EUCすらよめないコンパイラ向けに文字コード表現された文字列、コメントが/*XXX*/だけなど、SJ3のソースを読むのは観念します。

- トップページ - コンピュータの話題

inserted by FC2 system inserted by FC2 system