Latest topics > 正規表現のパターンを得るためのアルゴリズム

宣伝。日経LinuxにてLinuxの基礎？を紹介する漫画「シス管系女子」を連載させていただいています。以下の特設サイトにて、単行本まんがでわかるLinux シス管系女子の試し読みが可能！

正規表現のパターンを得るためのアルゴリズム - Dec 02, 2006

XUL/Migemoの動作の中で一番のネックになっているのは「辞書から正規表現のパターンを生成する」処理だそうで、そのために、本家XUL/Migemoでは200KB近いキャッシュファイルまで用意されていた。plus7さんの環境では一文字のパターンに対するキャッシュを生成するのに14秒もかかった（その間Mozillaはフリーズする）とまで書いてあって、他をどんなに改善してもここが足をひっぱってるんじゃあなあ、という感じだ。

んで、少しでもこれを高速化できないかな？と思って自分の分かる範囲で考えてみた。

以下は現在のコード。本家のものを多少書き換えてはいるけれども、アルゴリズムは変わってはいない。


// linesは、見つかった辞書内のエントリの配列。
for (var i = 0, maxi = lines.length; i < maxi; i++)
{
  searchterm += lines[i].replace(/\n/mg, '') + '\t'; // ごみの消去とタブで結合
}
searchterm = searchterm.substring(0, searchterm.length-1);
var arr = new Array();
arr[0] = XMigemoTextService.sanitize(aRomanTerm).toUpperCase(); // 元の入力
arr[1] = zen; // 全角文字に変換したもの
arr[2] = kana; // カタカナに変換したもの
arr[3] = hira; // ひらがなに変換したもの
searchterm = arr.concat(searchterm.split('\t')).sort(); // つなげてソート
var terms = searchterm[0];
var tmp_2 = '^'+terms;
var ichimoji = '';
var tmpregexp = new RegExp(tmp_2, 'i');
for (var i = 0, maxi = searchterm.length; i < maxi; i++)
{
  if (!searchterm[i].match(tmpregexp)) {
    if (searchterm[i].length == 1) {
      ichimoji += searchterm[i]; // 一文字なので文字クラスにまとめる
    }
    else{
      terms += '|' + searchterm[i]; // ふつー。
    }
    tmp_2 = '^' + searchterm[i];
    tmpregexp = new RegExp(tmp_2, 'i');
  }
}
pattern2 = '[' + ichimoji + ']|' + terms;

以下が、できるだけループを使わないようにして書き換えたもの。ループと正規表現による文字列処理とどっちが速いか確証は持てなかったけど、JavaScriptの世界でループ回すよりCとかC++とかの世界でループ回した方が速いかなー、と。


var arr = [];
arr.push(XMigemoTextService.sanitize(aRomanTerm).toUpperCase());
if (zen.charAt(0) != '[') arr.push(zen);
if (hira.charAt(0) != '[') {
  arr.push(kana);
  arr.push(hira);
}
searchterm = arr.concat(lines).join('\n').replace(/(\t|\n\n)+/g, '\n');

if (zen.charAt(0) == '[') pattern += (pattern ? '|' : '') + zen;
if (hira.charAt(0) == '[') pattern += (pattern ? '|' : '') + kana + '|' + hira;

// 一文字だけの項目だけは、抜き出して文字クラスにまとめる
var ichimoji = searchterm.replace(/^..+$\n?/mg, '').split('\n').sort().join('');
if (ichimoji) {
  pattern += (pattern ? '|' : '') + '[' + ichimoji + ']';
}

// foo, foobar, fooee... といった風に、同じ文字列で始まる複数の候補がある場合は、
// 最も短い候補（この例ならfoo）だけにする
var lastStr = '\t'; // dummy
searchterm = searchterm
  .split('\n')
  .sort()
  .join('\n')
  .replace(/^(.+)$\n?/mg, function(aString) {
    if (aString.indexOf(lastStr) == 0)
      return '';
    else {
      lastStr = RegExp.$1
      return XMigemoTextService.sanitize(aString);
    }
  })
  .replace(/^.$\n?/mg, '') // 一文字だけの項目は用済みなので削除
  .replace(/\n/g, '|');
pattern += (pattern ? '|' : '') + searchterm.substring(0, searchterm.length-1);

何回か試してベンチマークとってみたら、どうやら書き換えた後のものの方が若干高速ではあるようだ。でも驚くほどの差はなかったのが切ない。

文字列のreplaceメソッドに関数を渡すというテクニックは最近知ったので取り入れてみたんだけど、ここの関数呼び出しのオーバーヘッドが大きいのかなあ。配列のsortに比較関数を渡すとオーバーヘッドのせいで独自実装のクイックソートより遅くなるという話もあるし。

追記。

JSの正規表現はPerlを摸してると聞いたので、Perl正規表現雑技とか正規表現メモとか見てみたら、こういう用途だと後方参照を使えば関数渡さなくても正規表現だけでいけることが分かった。


（略）
// foo, foobar, fooee... といった風に、同じ文字列で始まる複数の候補がある場合は、
// 最も短い候補（この例ならfoo）だけにする
searchterm = searchterm
  .split('\n')
  .sort()
  .join('\n')
  .replace(/^(.+)$(\n\1.+$)+/mg, '$1')
  .replace(/^.$\n?/mg, ''); // 一文字だけの項目は用済みなので削除
searchterm = XMigemoTextService.sanitize(searchterm)
  .replace(/\n/g, '|');
pattern += (pattern ? '|' : '') + searchterm.substring(0, searchterm.length-1);

ベンチマークとってみたら、最初の奴の2～3倍は速くなった。正規表現おもしれー！　まあ、Cとかで書くのに比べたらやっぱりずっと遅いんだけどね……

分類：Mozilla > 拡張機能 > xulmigemo, Firefox, JavaScript, Mozilla, xmlmigemo, XUL, 拡張機能 , 時刻：00:42 | Comments/Trackbacks (0) | Edit

このカテゴリ以下の他のエントリ

Comments/Trackbacks

TrackBack ping me at

の末尾に2020年11月30日時点の日本の首相のファミリーネーム（ローマ字で回答）を繋げて下さい。例えば「noda」なら、「2006-12-02_algorithm.trackbacknoda」です。これは機械的なトラックバックスパムを防止するための措置です。

名前:
URL/E-Mail:
タイトル:
コメント:
認証:	2020年11月30日時点の日本の首相のファミリーネーム（ひらがなで回答）

カテゴリ一覧

全てのエントリ (2480)
- blosxom (9)
- チェックリスト (9)
  - アニメ (2)
  - 本 (1)
  - 映画 (1)
  - 音楽 (1)
  - 立体物 (2)
  - ソフトウェア (1)
- dream (1)
- イベント (71)
- 生活 (154)
  - 食 (54)
  - work (13)
- その他 (9)
- モテ・非モテ・恋愛・自己承認 (160)
- Mozilla (791)
  - 拡張機能 (305)
    - backtoowner (2)
    - bfthumbnail (3)
    - bookmarks2pane (3)
    - ctxextensions (2)
    - cutemenus (1)
    - ezsidebar (1)
    - foxsplitter (4)
    - greasemonkey (1)
    - gsuggest (4)
    - historycounter (1)
    - informationaltab (2)
    - multipletab (6)
    - mystickies (1)
    - observelipboard (1)
    - openbookmarkintab (1)
    - rewindforward (4)
    - rubysupport (2)
    - rulerbar (4)
    - searchcache (4)
    - secondsearch (5)
    - splitbrowser (7)
    - tabcatalog (2)
    - tabextensions (2)
    - tabkiller (1)
    - textlink (11)
    - textshadow (7)
    - treestyletab (57)
    - undotab (1)
    - unifiedsidebar (1)
    - uxu (8)
    - viewsourceintab (1)
    - xulmigemo (50)
  - extensions (1)
    - treestyletab (1)
  - fennec (3)
  - Firefox (77)
  - jetpack (2)
  - その他 (135)
  - Thunderbird (10)
    - work (1)
  - XUL (257)
    - extensions (1)
    - textlink (1)
    - treestyletab (1)
- 絵 (63)
  - moezilla (7)
- 立体物 (24)
  - HGUC (5)
  - MG (10)
  - srw (1)
- レビュー・感想 (205)
  - アニメ (18)
  - 本 (29)
  - マンガ (66)
  - 食 (1)
  - ゲーム (4)
  - hardware (1)
  - mobilenovel (1)
  - 映画 (36)
  - 音楽 (5)
    - perfume (1)
  - 立体物 (2)
  - ソフトウェア (15)
  - 舞台演劇 (2)
  - TV (13)
  - video (2)
  - Web (9)
- 風景 (9)
- ソフトウェア (36)
  - chrome (1)
  - gimp (1)
  - illustrator (1)
  - inkscape (1)
  - nsis (3)
  - OpenOffice.org (1)
  - safari (1)
  - sai (2)
- システム再構築 (73)
- 出来事・雑感 (768)
- トリビア・ムダ知識 (22)
- 服装とか (6)
- Web技術 (69)
  - CSS (3)
  - JavaScript (31)
    - jsdeferred (1)
    - prototype.js (3)
  - ruby (2)
  - XML (1)

過去の記事

2025 (2)
- 5 (1)
- 3 (1)
2024 (2)
- 3 (2)
2023 (7)
- 12 (1)
- 11 (3)
- 9 (2)
- 5 (1)
2022 (5)
- 8 (1)
- 7 (1)
- 4 (3)
2021 (11)
- 12 (1)
- 9 (1)
- 8 (1)
- 5 (2)
- 3 (1)
- 2 (1)
- 1 (4)
2020 (21)
- 12 (6)
- 11 (3)
- 10 (1)
- 8 (2)
- 6 (5)
- 5 (2)
- 3 (1)
- 1 (1)
2019 (16)
- 12 (3)
- 10 (1)
- 7 (1)
- 5 (5)
- 4 (1)
- 3 (1)
- 2 (2)
- 1 (2)
2018 (26)
- 12 (5)
- 11 (5)
- 10 (2)
- 8 (1)
- 7 (2)
- 6 (7)
- 4 (1)
- 3 (1)
- 2 (2)
2017 (26)
- 12 (1)
- 11 (3)
- 10 (4)
- 6 (4)
- 5 (7)
- 4 (3)
- 3 (2)
- 2 (2)
2016 (23)
- 12 (12)
- 8 (2)
- 7 (2)
- 6 (2)
- 4 (1)
- 3 (1)
- 2 (2)
- 1 (1)
2015 (24)
- 12 (3)
- 10 (1)
- 8 (2)
- 7 (2)
- 6 (1)
- 5 (5)
- 3 (4)
- 2 (4)
- 1 (2)
2014 (22)
- 11 (3)
- 10 (2)
- 7 (2)
- 6 (2)
- 5 (5)
- 3 (2)
- 2 (2)
- 1 (4)
2013 (20)
- 12 (1)
- 11 (5)
- 10 (1)
- 9 (5)
- 8 (2)
- 4 (1)
- 3 (2)
- 2 (1)
- 1 (2)
2012 (38)
- 12 (2)
- 11 (5)
- 10 (2)
- 9 (4)
- 8 (4)
- 7 (5)
- 6 (2)
- 5 (3)
- 4 (5)
- 3 (3)
- 2 (2)
- 1 (1)
2011 (47)
- 12 (3)
- 11 (4)
- 10 (2)
- 9 (3)
- 8 (5)
- 7 (1)
- 6 (3)
- 5 (2)
- 4 (1)
- 3 (7)
- 2 (8)
- 1 (8)
2010 (117)
- 12 (11)
- 11 (7)
- 10 (9)
- 9 (7)
- 8 (4)
- 7 (9)
- 6 (17)
- 5 (10)
- 4 (7)
- 3 (9)
- 2 (13)
- 1 (14)
2009 (279)
- 12 (11)
- 11 (14)
- 10 (10)
- 9 (6)
- 8 (12)
- 7 (25)
- 6 (17)
- 5 (40)
- 4 (31)
- 3 (40)
- 2 (29)
- 1 (44)
2008 (310)
- 12 (42)
- 11 (35)
- 10 (25)
- 9 (18)
- 8 (16)
- 7 (32)
- 6 (11)
- 5 (22)
- 4 (26)
- 3 (36)
- 2 (31)
- 1 (16)
2007 (409)
- 12 (22)
- 11 (24)
- 10 (20)
- 9 (33)
- 8 (18)
- 7 (33)
- 6 (44)
- 5 (41)
- 4 (31)
- 3 (53)
- 2 (47)
- 1 (43)
2006 (693)
- 12 (44)
- 11 (46)
- 10 (57)
- 9 (60)
- 8 (68)
- 7 (56)
- 6 (53)
- 5 (64)
- 4 (34)
- 3 (77)
- 2 (71)
- 1 (63)
2005 (382)
- 12 (64)
- 11 (80)
- 10 (85)
- 9 (130)
- 8 (23)

1999.2～2005.8

Latest topics > 正規表現のパターンを得るためのアルゴリズム

正規表現のパターンを得るためのアルゴリズム - Dec 02, 2006

このカテゴリ以下の他のエントリ

Comments/Trackbacks

TrackBack ping me at

Post a comment

カテゴリ一覧

過去の記事

最近のコメント

サイト内検索

旧コンテンツ

最近のつぶやき