- Namazu: FAQ: MHonArc で処理するときに日本語の Subject: をデコードさせたいのですが
-
http://www.namazu.org/FAQ.html.ja#mhonarc-mime
- MHonArc の日本語化 for v2.6.x
-
http://www.shiratori.riec.tohoku.ac.jp/~p-katoh/Hack/Docs/mhonarc-jp/mhonarc-jp-2_6-draft.html
- MHonArc の日本語化
-
http://www.shiratori.riec.tohoku.ac.jp/~p-katoh/Hack/Docs/mhonarc-jp/
- MHonArcでメールHTML化
-
http://www15.xdsl.ne.jp/~vfr/debian/namazu/create-mhonarc.html
- メールアーカイブの公開
-
http://bug.org/~momo/comp/mail-archive.html
- メールからHTMLへの変換(MHonArc)
-
http://www.geocities.co.jp/SiliconValley-Cupertino/9120/mhonarc.html
日本語の問題
-
2.4.5 から Mime の処理が出来るようになった
-
-
2.6.0 から 省略時設定が変更になった
-
日本語ないし charset の問題
(現在更新中)
*.mrc
.mhonarc.mrc
の中に
<CharsetConverters>
ISO-2022-JP; MHonArc::CharEnt::str2sgml; MHonArc/CharEnt.pm
</CharsetConverters>
のような字を書いておくと、us-ascii 以外は
- HTML 4 standard character entity references (e.g. &#Aelig; );
- Unicode character entity references (e.g. Ž (Ž))
のどちらかに変換される。早い話が ISO-2022-JP は 욣 のような文字になる
(なので採用しない)。
.mhonarc.mrc は (もし日本語を書くなら) EUC-JAPAN で作っておく。
そうすると、実は文字が化けてしまう。そこで、
iso2022jp.pl を
Jcode を呼出すように変更
して、
EUC に変換する。更に、もう一工夫として apache 側のコード設定を euc-jp に変更するため、
.htaccess に次のように書いておく
AddType "text/html; charset=EUC-JP" html
ゴミ箱の中の技術メモに書いてあるのも同じようなことだろうか ?
(ちょっと違う気がする)。
関係のある resource
TEXTENCODE と
CHARSETCONVERTERS の違い
大雑把には
message-text --> TEXTENCODE --> CHARSETCONVERTERS --> HTML
だそうであるが、更に DECODEHEADS も入れると..
|