MHonArc @ki.nu

Namazu: FAQ: MHonArc で処理するときに日本語の Subject: をデコードさせたいのですが: http://www.namazu.org/FAQ.html.ja#mhonarc-mime
MHonArc の日本語化 for v2.6.x: http://www.shiratori.riec.tohoku.ac.jp/~p-katoh/Hack/Docs/mhonarc-jp/mhonarc-jp-2_6-draft.html
MHonArc の日本語化: http://www.shiratori.riec.tohoku.ac.jp/~p-katoh/Hack/Docs/mhonarc-jp/
MHonArcでメールHTML化: http://www15.xdsl.ne.jp/~vfr/debian/namazu/create-mhonarc.html
メールアーカイブの公開: http://bug.org/~momo/comp/mail-archive.html
メールからHTMLへの変換(MHonArc): http://www.geocities.co.jp/SiliconValley-Cupertino/9120/mhonarc.html

日本語の問題

2.4.5 から Mime の処理が出来るようになった
2.6.0 から省略時設定が変更になった

日本語ないし charset の問題 (現在更新中)

*.mrc

.mhonarc.mrc の中に

<CharsetConverters>
ISO-2022-JP; MHonArc::CharEnt::str2sgml; MHonArc/CharEnt.pm
</CharsetConverters>

のような字を書いておくと、us-ascii 以外は

HTML 4 standard character entity references (e.g. &#Aelig; );
Unicode character entity references (e.g. Ž (Ž))

のどちらかに変換される。早い話が ISO-2022-JP は 욣 のような文字になる (なので採用しない)。

.mhonarc.mrc は (もし日本語を書くなら) EUC-JAPAN で作っておく。そうすると、実は文字が化けてしまう。そこで、 iso2022jp.pl を Jcode を呼出すように変更して、 EUC に変換する。更に、もう一工夫として apache 側のコード設定を euc-jp に変更するため、 .htaccess に次のように書いておく

AddType "text/html; charset=EUC-JP" html

ゴミ箱の中の技術メモに書いてあるのも同じようなことだろうか ? (ちょっと違う気がする)。

関係のある resource

resource	説明	本家英文
TEXTENCODE	内部での Encoding 方法の指定	*
DECODEHEADS	見出部分(header) を復号してからデータべースに保存	*
CHARSETCONVERTERS	Charset と、それを処理する関数の関係	*
CHARSETALIASES	Charset の別名	*
MIMARGS	MIMEFILTERS に引数を渡す	*
MIMEFILTERS	MIME の Filter を設定。形式は content-type;routine-name;file-of-routine	*

TEXTENCODE と CHARSETCONVERTERS の違い

大雑把には

 message-text --> TEXTENCODE --> CHARSETCONVERTERS --> HTML

だそうであるが、更に DECODEHEADS も入れると..

Last Update: Sat, 07 Jun 2014 13:16:17 GMT

1.66 2008/03/08