Latest topics > Thunderbirdでメールの本文を文字列として取得する

宣伝。日経LinuxにてLinuxの基礎？を紹介する漫画「シス管系女子」を連載させていただいています。以下の特設サイトにて、単行本まんがでわかるLinux シス管系女子の試し読みが可能！

Thunderbirdでメールの本文を文字列として取得する - Feb 06, 2008

nsIMsgDBHdrとnsIMsgFolderからメールの本文を文字列として取得する方法をあれこれ試してみてこんな感じのところに辿り着きましたとさ。

// とりあえず現在選択してるメールを処理対象にしてみる。
var hdr = gDBView.db.GetMsgHdrForKey(gDBView.keyForFirstSelectedMessage);
var folder = gDBView.msgFolder;


// ストリームを取得して、読み取り開始位置をセット
var stream = folder.getOfflineFileStream(hdr.messageKey, {}, {})
  .QueryInterface(Components.interfaces.nsISeekableStream)
  .QueryInterface(Components.interfaces.nsILineInputStream);
stream.seek(stream.NS_SEEK_SET, hdr.messageOffset);

var multipart = false;
var boundary = '';
var charset = null;

var charsetRegExp = /Content-Type:[^;]+;.*charset=['"]?([^'";\s]+)/;

// read header
// 一行単位で読み込み
var line = {};
while (stream.readLine(line))
{
  if (!charset && charsetRegExp.test(line.value)) {
    charset = RegExp.$1;
  }
  if (line.value.indexOf('multipart/') || line.value.indexOf('message/')) {
    multipart = true;
  }
  // マルチパートのパートごとの区切り文字を取得
  if (!boundary && line.value.indexOf('boundary=') > -1) {
    boundary = line.value.substring(line.value.indexOf('"')+1);
    boundary = '--' + boundary.substring(0, boundary.indexOf('"'));
  }
  if (!line.value) break; // 改行が連続したらヘッダの終わり
}

// read body
var msg = [];
var count  = hdr.lineCount; // 本文の行数はnsIMsgDBHdr.lineCountで取れる
for (var i = 0; i < count; i++)
{
  if (!stream.readLine(line)) break;
  msg.push(line.value);
}

stream.close(); // クローズを忘れずに。

var UConv = Components
  .classes['@mozilla.org/intl/scriptableunicodeconverter']
  .getService(Components.interfaces.nsIScriptableUnicodeConverter);

msg = msg.join('\n');
if (multipart && boundary) {
  var parts = msg.split(boundary+'\n');
  msg = [];
  for (var i in parts)
  {
    parts[i] = parts[i].split('\n\n');
    if (parts[i][0].indexOf('Content-Type: text/') < 0) continue;
    charsetRegExp.test(parts[i][0]);
    parts[i].splice(0, 1);
    var body = parts[i].join('\n\n');
    if (RegExp.$1) {
      UConv.charset = RegExp.$1;
      body = UConv.ConvertToUnicode(body);
    }
    msg.push(body);
  }

  msg = msg.join('\n\n');
}
else if (charset) {
  UConv.charset = charset;
  msg = UConv.ConvertToUnicode(msg);
}


alert(msg);

nsMsgBodyHandler.cppとかThunderbirdのメッセージ検索まわりのコードを辿りまくってヒントを集めて、どうにかここまで辿り着いた。この時点でもう力尽きたので、Bodyを読んでから先はテケトーです。Base64エンコードされたパートのデコードとかちゃんとしないと多分実用にはならないか。

これで読み込んだ内容をMozStorageに保存しておいてそれに対して正規表現を……というやり方でXUL/Migemoでのメール本文検索をやろうとしてるんだけど、よく考えたらこれって、メールボックスをまるごとMozStorageにコピーしてるってことですよねぇ。うわー。なんという壮大な無駄。

分類：Mozilla > XUL, JavaScript, Mozilla, Thunderbird, XPCOM, XUL , 時刻：20:11 | Comments/Trackbacks (3) | Edit

このカテゴリ以下の他のエントリ

Comments/Trackbacks

no title

今のXUL/Migemoがどういう実装になっているかは知りませんが、場合によってはこれが応用できるんじゃないですかね。
http://ja.wikipedia.org/wiki/シグネチャ法
C/Migemoのように極限まで切り詰めた正規表現ではなく、昔のXUL/Migemoのような単純な正規表現だったら、要するに単語の羅列なわけで。

Commented by plus7 at 2008/02/07 (Thu) 00:12:39

no title

紹介していただいた資料とか見て検討してみたんですが、そのまま使うのは無理ぽですね。XUL/Migemoの場合は単語リストだけじゃなくて、ローマ字→ひらがな・カタカナに変換された文字列もあるので、検索に漏れが発生してしまう……ページ内検索で漏れがあっては困る。

でも本文まるごと持ち続けるのはやっぱり無駄が大きすぎですよね。単語リスト部分は紹介していただいた方法で、ローマ字から変換して生成された部分は一文字単位で分割してから同じ方法で、という風にすればうまくいくでしょうか？（後で試してみるつもり）

あと、どっかで見たような話だなと思ったらこれを思い出しました。
http://wiki.livedoor.jp/mala__/d/Mozilla%2024

Commented by Piro at 2008/02/09 (Sat) 21:06:44

Thunderbird のアドオンを作ってみる（Ubuntu）　Part 4

前回、DOM Inspector を紹介してからずいぶん経ってしまいましたが、
今回はIDEの紹介でも。

いま私はこれを使っています。
Spket IDE

ページの上...

Trackback from 青い海プロジェクト at 2009/03/02 (Mon) 00:51:43

TrackBack ping me at

の末尾に2020年11月30日時点の日本の首相のファミリーネーム（ローマ字で回答）を繋げて下さい。例えば「noda」なら、「2008-02-06_thunderbird-message-body.trackbacknoda」です。これは機械的なトラックバックスパムを防止するための措置です。

名前:
URL/E-Mail:
タイトル:
コメント:
認証:	2020年11月30日時点の日本の首相のファミリーネーム（ひらがなで回答）

カテゴリ一覧

全てのエントリ (2480)
- blosxom (9)
- チェックリスト (9)
  - アニメ (2)
  - 本 (1)
  - 映画 (1)
  - 音楽 (1)
  - 立体物 (2)
  - ソフトウェア (1)
- dream (1)
- イベント (71)
- 生活 (154)
  - 食 (54)
  - work (13)
- その他 (9)
- モテ・非モテ・恋愛・自己承認 (160)
- Mozilla (791)
  - 拡張機能 (305)
    - backtoowner (2)
    - bfthumbnail (3)
    - bookmarks2pane (3)
    - ctxextensions (2)
    - cutemenus (1)
    - ezsidebar (1)
    - foxsplitter (4)
    - greasemonkey (1)
    - gsuggest (4)
    - historycounter (1)
    - informationaltab (2)
    - multipletab (6)
    - mystickies (1)
    - observelipboard (1)
    - openbookmarkintab (1)
    - rewindforward (4)
    - rubysupport (2)
    - rulerbar (4)
    - searchcache (4)
    - secondsearch (5)
    - splitbrowser (7)
    - tabcatalog (2)
    - tabextensions (2)
    - tabkiller (1)
    - textlink (11)
    - textshadow (7)
    - treestyletab (57)
    - undotab (1)
    - unifiedsidebar (1)
    - uxu (8)
    - viewsourceintab (1)
    - xulmigemo (50)
  - extensions (1)
    - treestyletab (1)
  - fennec (3)
  - Firefox (77)
  - jetpack (2)
  - その他 (135)
  - Thunderbird (10)
    - work (1)
  - XUL (257)
    - extensions (1)
    - textlink (1)
    - treestyletab (1)
- 絵 (63)
  - moezilla (7)
- 立体物 (24)
  - HGUC (5)
  - MG (10)
  - srw (1)
- レビュー・感想 (205)
  - アニメ (18)
  - 本 (29)
  - マンガ (66)
  - 食 (1)
  - ゲーム (4)
  - hardware (1)
  - mobilenovel (1)
  - 映画 (36)
  - 音楽 (5)
    - perfume (1)
  - 立体物 (2)
  - ソフトウェア (15)
  - 舞台演劇 (2)
  - TV (13)
  - video (2)
  - Web (9)
- 風景 (9)
- ソフトウェア (36)
  - chrome (1)
  - gimp (1)
  - illustrator (1)
  - inkscape (1)
  - nsis (3)
  - OpenOffice.org (1)
  - safari (1)
  - sai (2)
- システム再構築 (73)
- 出来事・雑感 (768)
- トリビア・ムダ知識 (22)
- 服装とか (6)
- Web技術 (69)
  - CSS (3)
  - JavaScript (31)
    - jsdeferred (1)
    - prototype.js (3)
  - ruby (2)
  - XML (1)

過去の記事

2025 (2)
- 5 (1)
- 3 (1)
2024 (2)
- 3 (2)
2023 (7)
- 12 (1)
- 11 (3)
- 9 (2)
- 5 (1)
2022 (5)
- 8 (1)
- 7 (1)
- 4 (3)
2021 (11)
- 12 (1)
- 9 (1)
- 8 (1)
- 5 (2)
- 3 (1)
- 2 (1)
- 1 (4)
2020 (21)
- 12 (6)
- 11 (3)
- 10 (1)
- 8 (2)
- 6 (5)
- 5 (2)
- 3 (1)
- 1 (1)
2019 (16)
- 12 (3)
- 10 (1)
- 7 (1)
- 5 (5)
- 4 (1)
- 3 (1)
- 2 (2)
- 1 (2)
2018 (26)
- 12 (5)
- 11 (5)
- 10 (2)
- 8 (1)
- 7 (2)
- 6 (7)
- 4 (1)
- 3 (1)
- 2 (2)
2017 (26)
- 12 (1)
- 11 (3)
- 10 (4)
- 6 (4)
- 5 (7)
- 4 (3)
- 3 (2)
- 2 (2)
2016 (23)
- 12 (12)
- 8 (2)
- 7 (2)
- 6 (2)
- 4 (1)
- 3 (1)
- 2 (2)
- 1 (1)
2015 (24)
- 12 (3)
- 10 (1)
- 8 (2)
- 7 (2)
- 6 (1)
- 5 (5)
- 3 (4)
- 2 (4)
- 1 (2)
2014 (22)
- 11 (3)
- 10 (2)
- 7 (2)
- 6 (2)
- 5 (5)
- 3 (2)
- 2 (2)
- 1 (4)
2013 (20)
- 12 (1)
- 11 (5)
- 10 (1)
- 9 (5)
- 8 (2)
- 4 (1)
- 3 (2)
- 2 (1)
- 1 (2)
2012 (38)
- 12 (2)
- 11 (5)
- 10 (2)
- 9 (4)
- 8 (4)
- 7 (5)
- 6 (2)
- 5 (3)
- 4 (5)
- 3 (3)
- 2 (2)
- 1 (1)
2011 (47)
- 12 (3)
- 11 (4)
- 10 (2)
- 9 (3)
- 8 (5)
- 7 (1)
- 6 (3)
- 5 (2)
- 4 (1)
- 3 (7)
- 2 (8)
- 1 (8)
2010 (117)
- 12 (11)
- 11 (7)
- 10 (9)
- 9 (7)
- 8 (4)
- 7 (9)
- 6 (17)
- 5 (10)
- 4 (7)
- 3 (9)
- 2 (13)
- 1 (14)
2009 (279)
- 12 (11)
- 11 (14)
- 10 (10)
- 9 (6)
- 8 (12)
- 7 (25)
- 6 (17)
- 5 (40)
- 4 (31)
- 3 (40)
- 2 (29)
- 1 (44)
2008 (310)
- 12 (42)
- 11 (35)
- 10 (25)
- 9 (18)
- 8 (16)
- 7 (32)
- 6 (11)
- 5 (22)
- 4 (26)
- 3 (36)
- 2 (31)
- 1 (16)
2007 (409)
- 12 (22)
- 11 (24)
- 10 (20)
- 9 (33)
- 8 (18)
- 7 (33)
- 6 (44)
- 5 (41)
- 4 (31)
- 3 (53)
- 2 (47)
- 1 (43)
2006 (693)
- 12 (44)
- 11 (46)
- 10 (57)
- 9 (60)
- 8 (68)
- 7 (56)
- 6 (53)
- 5 (64)
- 4 (34)
- 3 (77)
- 2 (71)
- 1 (63)
2005 (382)
- 12 (64)
- 11 (80)
- 10 (85)
- 9 (130)
- 8 (23)

1999.2～2005.8

Latest topics > Thunderbirdでメールの本文を文字列として取得する

Thunderbirdでメールの本文を文字列として取得する - Feb 06, 2008

このカテゴリ以下の他のエントリ

Comments/Trackbacks

no title

no title

Thunderbird のアドオンを作ってみる（Ubuntu）　Part 4

TrackBack ping me at

Post a comment

カテゴリ一覧

過去の記事

最近のコメント

サイト内検索

旧コンテンツ

最近のつぶやき

Latest topics > Thunderbirdでメールの本文を文字列として取得する

Thunderbirdでメールの本文を文字列として取得する - Feb 06, 2008

このカテゴリ以下の他のエントリ

Comments/Trackbacks

no title

no title

Thunderbird のアドオンを作ってみる（Ubuntu） Part 4

TrackBack ping me at

Post a comment

カテゴリ一覧

過去の記事

最近のコメント

サイト内検索

旧コンテンツ

最近のつぶやき

Thunderbird のアドオンを作ってみる（Ubuntu）　Part 4