Kansai-kun 関西クン Ver.8.3(2000/05/13)

ATOK15 で「話し言葉関西」モードが実装されてもーたんで、こいつの役目はもう終いやなァ。いやもうマジ快適。(2002/4/19)

関西クンについて Ver.8.3 データ

種別
フリーウェア
配布形態
ATOK10 形式単語ファイル( LZH 形式で圧縮)
※ Limited 版は ATOK8 形式
単語数
3374( 新規単語 )+40028( パッチ単語 )(=43402)
動作 IME (一部推定 (^^;) )
ATOK8/9/10/11/12/13, MS-IME95/97/98/2000, WXG Ver.4.0 β, Wnn98 R3.0, 松茸 Ver.4.1 (ここまで、全て DOS/Windows 版)
ATOK8/11/12/13 for Macintosh
前バージョン( Ver.7.0 )からの変更
パッチ単語に「違ごぉて」「来ぉへん」など、関西特有の語形変化を一挙追加
その他、単語を追加

その他の事項については Readme ファイルを参照のこと

MacOS/ 漢字 Talk 上でのご利用に際して

対応する日本語入力ソフト

現在のところ、 ATOK8/11/12/13 for Macintosh でご利用いただけることを確認しております(他のソフトについては未確認)。

解凍方法

関西クンの配布ファイルは、 LHA 書庫形式で圧縮されています。ダウンロードした後、 LHA ExpanderMacLHA などで解凍して下さい。

変換手順

関西クンのファイルは Windows 用のテキストで作成されていますので、 MacOS/ 漢字 Talk 用 ATOK でそのまま使うことはできません。必ず、以下の手順でファイルの変換作業を行って下さい。

  1. Jedit をダウンロードし、インストールする
  2. Jedit を起動し、【 1-Old.txt 】を読み込む
  3. ファイルの変換を促す旨のダイアログが開くので、「変換する」を選択する
  4. 「ファイル」メニューから「別名で保存」を選択する
  5. ファイル名を【 1-Old-M.txt 】にして保存する
  6. 2〜5と同様の手順で、【 2-New.txt 】を【 2-New-M.txt 】に、【 3-Patch.txt 】を【 3-Patch-M.txt 】に変換する
  7. Jedit を終了する
  8. 添付されている Windows 版 ATOK 用インストール手順に従って、インストールを行う

(辞書ファイル名・単語ファイル名などは各自で読み替えて下さい)

関西クン 基本セット
Readme/ インストール手順
関西クン 対応 IME:
  • ATOK10/11/12/13
  • MS-IME97/98/2000
  • WXG Ver.4.0
  • 松茸 Ver.4.1
knsk83.lzh (219KB)
関西クン Limited 対応 IME:
  • ATOK8 ( MS-DOS )
  • ATOK8/9
  • MS-IME95
  • Wnn98(R3.0)
knsl83.lzh (219KB)
関西クン 追加単語セット
インストール手順
No.1 「〜とる」「〜たる」動詞 /Readme 1ad-83.lzh (593KB)
No.2 「〜とぉ」「〜とぅ」動詞 /Readme 2ad-83.lzh (194KB)
No.3 「〜はる」動詞 /Readme 3ad-83.lzh (371KB)

Introduction 解脱…もとい、解説

関西クンは、 ATOK やなんかの日本語入力ソフトで関西弁をストレスなく変換できるようにするための支援辞書や。俗に言う、「関西弁辞書」やね。関西弁独特の表現……語尾につく「や」とか「やねん」とか、そういう単語を収録した辞書や、考えてもろぉたらわかりやすい思う。

こういう働きするソフトは、今のところでじもと興業さんの「変換でんねん」しか確認してへん。ちょっと毛色のちゃうソフトで、標準語から関西弁に変換する「 Osaka 」ちゅうソフトもあるけど、それはちょっと置いとこ。

「変換でんねん」と同じで、「関西弁を使う人間が、関西弁で文章を入力する」んが目的やから、関西弁使えへん人には何の役にも立たん。とはいえ、基本的な部分とかに西系の言葉に共通する部分があるみたいで、九州の人なんかでも実際に使ぉてはる人もおるわ。まぁ、文章にしてみて関西弁に似とる方言やったら、ちーとは役に立つかもしらんで。

Convertion 変換精度比較実験の結果

小難しい説明は要らん。まぁ、実際にどないなモンか見たって。

ATOK12 標準
(文節移動なし)
本間久しぶり梁、メール尾くんのもここ半年ぐらいおくって変買ったもんなぁ。こないだ夕とったやついつする? 俺はいつでもええで、おまえの都合のええと気に決めとって暮れや。干したら決まったら夕手や。
ATOK12 +関西クン
(インストール直後・文節移動なし)
ホンマ久しぶりやな、メール尾くんのもここ半年ぐらいおくって変買ったモンなァ。こないだ夕とったやつい津する? 俺はいつでもエエで、おまえの都合のええと気にキメ録って暮れや。ほしたら決まったら夕てや。
ATOK12 +関西クン
(インストール直後・文節移動あり
ホンマ久しぶりやな、メール送んのもここ半年ぐらい送ってへんかったもんなぁ。こないだ言うとったやついつする? 俺はいつでもエエで、おまえの都合のええ時に決めとってくれや。ほしたら決まったら言うてや。

関西弁の例文には、でじもと興業さんで使用されていたものと同じ文を使用し、僕の環境の下で同一条件で比較を行いました。他の環境下では変換結果が異なる場合があります。

で、どないでっか。なかなかのモンやろ? 文節移動するだけで、ほとんど完璧に変換できんねんで。ただ、先発の「変換でんねん」はんは、関西の地名とかの固有名詞がむっちゃ充実してはるから、そうゆう文章打ち込んだときは、ハッキリ差ァが出てくるかもしれんケドね。

まぁ、辞書同士の相乗効果ちゅうモンも考えたら、「変換でんねん」と「関西クン」を組み合わして使て貰うんがいっちゃん変換精度高なる思うで

ホンマ言うと、この本文や前のページの文章、 Latest topics の本文その他、このサイトで関西弁使てる部分は、全部、この関西クン使て書いてんねや。しかも、大体一発変換や。それ以外も、文節ずらすだけでほとんど入力出来てんねん。どや、役に立ちそうやろ?

自慢しとるみたいに見えるやろ。けど、ただの自慢ちゃうで。自信に裏打ちされた、ホンマの自慢や。「自分が使て満足出来ひんモンは他人にも勧められへん」ちゅうこっちゃからね。

Algorithm 関西クンのアルゴリズム

実際に使て「何じゃこら! 全然変換でけへんやないけ!! どないなっとんじゃ!!」思わはる人もおるかも知らん。ホンマすんません。関西クンは単語の区切りちゅうモンを独自の解釈で分けとって、それによってできるだけ汎化できるようにしてるんですわ。

例えば、こんな文章があったとしましょ。

なあなあ、みんなで遊ばへん?

これを品詞分解してみると、こうなる。

なあなあ(独立語)、|みんな(名詞)|で(助詞)|遊ば(動詞)|へん(助動詞)|?

こうして見ると分かるけど、「へん」は打ち消しの助動詞なんね。けど、標準語の助動詞に「へん」なんて語はないし、新しく登録しようにも、残念ながら「助動詞」なんて品詞はない。そこでたいていの人は、これを「接尾語」やなんかで登録するわけやな。

ところが、この状態で変換してみると、おかしなコトになる。

なあなあ、|みんな|で|遊ば(動詞未然形|へん(助動詞)|?

「遊ぶ」の終止形は「遊ぶ」で、「遊ば」やないわな。「遊ば」は未然形や。けど、未然形は活用語尾の後に何らかの助詞・助動詞がひっつかなあかんから、直後に接尾語が来ることはあり得へん。これでは、 ATOK やなんかの AI 変換式の IME やと変換してくれへんのよ。

そこで、関西クンの「ムリヤリ変換」機能が活きてくるワケや。つまり、全ての動詞についてあらかじめ「遊ば」「遊ん」ちう風な変化済の単語を別の品詞――「単漢字」あたりに登録しとくことで、

なあなあ、|みんなで|遊ば|へん?

こんな風に、単漢字(名詞)「遊ば」+接尾語「へん」っちゅー形で変換できるようになんねん。

これは、日本語の文法的には間違った変換方法や。しやけど、ソフトの側がこーいった変換方法に対応してへん以上、こっち(ユーザー)側で工夫してやるしかない。その工夫の結果が、この変換方式っちゅーわけよ。

あとはいろんな語尾の変化やったりとかやけど、これについては、全部の単語を登録しとったらキリがあらへん。語尾の変化だけでも、「しとらへん」「してへん」とかみたく、同じ言い回しでもそれこそいろんなパターンが考えれる。もしかしたら、僕の知らん語尾の変化なんかもあるかもしらん。っちゅーわけで、こういった部分は、なるべく「パーツ毎に」分割して登録してある。こうすることで、未知の変換にもできるだけ対応できるように作ってあんねや。

わかりやすい例挙げましょ。

  • 何してんねん
  • 何してはんねん
  • 何しよるねん
  • 何してまんねん
  • 何もやってまへんがな
  • 何かやっとんのんちゃうんか
  • 分かってまんがな

これらの文章を再現すんのに使てる関西クン辞書は、こうなっとる。

  • し(て)
  • ねん
  • はん
  • よる
  • まん
  • やっ
  • へん
  • がな
  • やっ
  • とん
  • のん
  • ちゃう

普通やったら「まんがな」とか「まんねん」とかは、別の単語として登録する思うやろ? そこがミソやねん。

関西弁っちゅーんは、全部同じに見えて、河内や兵庫、せんば言葉とか、ホンマいろんな種類がある。僕が知らん関西弁かてまだまだあるかも知らん。そんだけの種類に全部対応さそ思たら、またアホみたいな手間がかかってまうワケや。

関西クンは、そういった基本的なパターンをあらかじめ登録しとく以外に、使い回せるパーツをできるだけ細分化して、変換するときに自動で必要な語尾を生成してくれるように作っとんのや。つまり、一発目でちゃんと変換できひんかっても、そんときちゃんと修正して確定してやったら、次回からはそれが学習されとるから、一発でビシッと変換できる、ちゅう仕組みになってんねんな。

変換精度向上のため、「まんがな」「やねん」などの既知のパターンについては、なるべく登録しています。

こう言う仕組みになっとる以上、入力んときもちょいとコツが要る。「日本語の『文節』で区切る」んやなしに、「動詞の活用語尾」と「その後に続く語(助詞・助動詞など)」、つまり「日本語の『単語』」単位で区切って変換するんが、関西クンでうまいこと変換するコツなんや。

「パターン」をつかむまでは手間かかるかもしれんけど、「クセ」さえ掴んでもぉたら一気に変換がラクになるで!

さて。こんな感じで「単語単位で区切っての変換」に特化して開発した関西クンやねんけど、毎回こんな感じでやっとったらちょいとうっといと思うこともある。そ−ゆー時のためにあるんが、「追加単語セット」

こっちの仕組みはっちゅーと、

昨日歩いとったら、イキナリ雨降ってきよってん。

こん時、関西クンで変換しよ思たら、文節の区切りはこうせなあかん。

昨日|歩い|とっ|たら、|イキナリ|雨|降って|き|よっ|て|ん。

知らん人がおるかもしらんけど、この「歩いとる」ちうんは、「歩いて」と「おる」っちゅー二つの動詞の複合語になっとんねんな。ちょうど、「堂々たる」とかのタリ活用形容動詞が「堂々と」「ある」から生まれたんと同じこっちゃ。

で、この「ある」が最後に付くと、語尾の部分は普通の「ラ行変格活用動詞」と同じ扱いにできる。ちうワケで、こうして全部の動詞に「〜しとる」っちゅーパターンを作れば、 AI 変換の恩恵を受けやすうなるんとちゃうか? って考えて作ったんが、「追加単語セット1」。

こんな感じで、全部の動詞+特定の多用される語尾をパターン化して登録したんが、「追加単語セット」シリーズですわ。標準の関西クンで変換がうっとく感じたら、これも試してみてちょうだい。ちいとは改善するかもしれんで!

……とまぁ、いろいろあってややこいけど、使ってる内に何となく「法則」ちゅうモンが分かってくる思うから、後は「慣れ」で何とかしたってちょうだい (^_^;)