SJ3辞書公開

このサイトの管理人に何らかの形でSJ3の辞書が来たら公開されます。

既存のSJ3の辞書をフュージョンさせちゃった。

最新版 open- usp-tukubaiのシェルコマンド群によりあらゆる重複を排し品詞タグの並びまでソート、かつてばやく作れました。

以前の版

これらはSJ3強化辞書にリンクのある3つの辞書をフュージョンさせました。

現在、私が辞書を作成するプロジェクトは、利用者が少なく気合いが出ないのと辞書のフォーマットに不明な点があり止まっています。

しかしフュージョン辞書はSJ3の辞書にしては驚異の105,092語で、sj3mkdicが読み切れないので2つのファイルに分けてあります。

ゆえに後述のsj3serv.luaの設定を使います。

これによって長文を一発で変換できる可能性が増えて快適です。

ライセンスはもとになった3っつのうち2つの辞書で不明で、かつelipsさんの辞書の説明に妙なことが書いてあるので決められません。

このフュージョン辞書を拡張する形で辞書を作れば効率がいいかも。

なお、open-usp-tukubaiの 提供するシェルコマンド群はまさに自分で作りたかったなあと思うSJ3のユーザーがとっても好きそうな物ばかりでしょう。

この強化辞書の使い方

強化辞書をいれたら、sj3のサーバーをとめ、sj3サーバーが使っている辞書ディレクトリのファイルを全部消して再起動してください。

それは恐らく(...)/var/lib/sj3/dict/user/(ユーザー名)/*のはずです。

SJ3は、システム辞書ファイルが9万語しか入らないといいますけれど

実は同じディレクトリに2つ3つ増やせます。

それらに違う単語を登録。

これを、sj3serv.luaにある

sj3.append_opendict {
file = "hogehoge.dic",
}

こういう関数を、複数記述できるので多分うまくいきます。

私はalt-cannadicからこうして単漢字辞書を入れてみたことがあります。

複数の辞書に同じ単語が入っていると、候補ウィンドウも同じ言葉が複数出ます。

管理人のプロジェクト結果をアップ

だれもあてにもしないプロジェクトで、虚しいので最近はフュージョン辞書で済ませています。

ええ、辞書が足りれば、mozcにならぶと、何とか希望を持ちたい。

地名辞書なんて作っていたら2ヶ月つぶしてしまった。簡単なのから行ってみる。

コンピュータ形態素解析用の辞書mecab-naist-jdic-0.6.3bから抽出

mecab-naist-jdic、品詞の分別が結構高精度。本当。ただし、「一般」という分別は、分けられなかったもののこと。

原ファイルnaist-jdic.csvのライセンス(本ファイル群も継承)
ただし私はNAISTの学生、関係者ではありませんので、なんかコピーライトをかえないと

SJ3のソースに組み込むことを考え、BSDライセンスの辞書を使っています。

ただし、日本郵便の郵便番号辞書からとった、simei.txt は パブリックドメイン

wgetなどの直ダウンロードでEUC-JPになっているはずです。

ここで公開する、人名辞書 mn.txt には、「ゐ」「ゑ」が読みで入っています。

sjrkというファイルが、SJ3に入っています、

これは、ローマ字かな対照表なので

そのファイルの中身に、

WYI	ゐ
WYE ゑ
を追加すると、ローマ字入力で打てます。

この変なひらがなはWikipediaに詳しく載っています。もっとへんな「変体仮名」はやっと対応フォントができた

最新のプロジェクト

人名辞書 苗字と名前

連体詞:接続詞辞書

感動詞:接続詞辞書

国名辞書「朝鮮民主主義人民共和国」は、読みが文字数制限に引っかかって入らない

Chakuwikiから人力で県区名抽出した辞書 11/25 修正

特殊な品詞コードの辞書 でも、これは必要です。

接尾[49]の辞書 いままでにない、接尾8の品詞が変換精度を上げる?

五段動詞の辞書 注意:2011/1/3 修正 今までの辞書と、基準が違います。口語が 打 てます。
(というか、今までの辞書は接頭の「お」の有無以外どういう感じで選別したかわからない)もはやSJ3に満足できない人へ。

一段動詞の辞書 上記と同じ選別基準 これで強化成るか?

名詞+副詞 またしても今までの辞書と分別が違います。

simei.txt おまじない入りの日本の市町村の「市」の辞書

古いの

接続詞、接頭4、接尾39、連体詞、苗字、名前入り

地名辞書その1(GZip) 地 名辞書その2(GZip) 合わせて使う。おまじない入り

組織名辞書これが一番使えるかも

実は、これらはテストしていません。

新しい辞書が8割ぐらいできないと、

他の品詞とのかみ合いがわからず、いい結果が出ないと考えられます。特に、五段動詞と、一段動詞です。

ご感想は、まで。(え、M$っていわないで)


SJ3強化辞書プロジェクト - トップページ - コンピュータ系

inserted by FC2 system