|
|
|
kakasi(他)
- Kakasi
- 本来は「漢字で書かれたもの」を「ひらがな・カタカナ・roma-ji 」
などに変換する系。しかしここでは次々項の「わかち書き」をする道具とし
て使う。
-
Chasen (茶筌)
- 「日本語形態素分析器」であるが、やはり同様に「わかち書き」
(正確には日本語の単語の切出し)に使っている。
- わかち書き
-
日本語 は (英語 と 違って)単語 の 区切り に 空白 を 書いたり は しない。
そのまま では 計算機 の 処理 に 不都合 が ある ので、単語毎 に 分けて、
間 に 空白 を 入れて 書いた もの を 利用する。
そういう書き方を「わかち書き」と言う。
(用語としては計算機用語として以外にも同じ意味で使われる)
例えば
kakasi -w < 何か日本語の譜
として見ると、分けてくれる様子が分ると思います。
- フレーズ検索
-
フレーズとは phrase, 熟語の意味。"このまま の 順序 で検索" のように " " でくくって
検索文字を入力することを言う。
Namazu の検索の基本は単語の組合せである。その場合、
"単語 and 組合せ" と(順を逆にした)
"組合せ and 単語" は区別しない。
これに対して"単語 組合せ"という
文字列がそのままの順で出現するものを探す機能のこと。
世の中にあるいろいろな検索機
- conf.pl (/usr/local/share/namazu/pl/conf.pl
-
~/.mknmzrc でも変更が可能な mknmz 実行時の Perl の変数を設定している。
通常参考にする必要はない。
- mknmzrc (/usr/local/etc/namazu/mknmzrc-sample)
- mknmz の基本設定を行なう。
~/.mknmzrc に写して、必要な部分だけ変更する
- namazurc(/usr/local/etc/namazu/namazurc-sample)
-
Namazu の動作を make 時から変更したいというような時に、その
設定が書ける。
説明は次のところにある。
http://www.namazu.org/doc/manual.html#namazurc
Index /usr/local/var/namazu/index
Template /usr/local/var/namazu/index
Replace /home/foo/public_html/ http://www.foo.bar.jp/~foo/
Logging off
Lang ja
Scoring tfidf
EmphasisTags "" ""
MaxHit 10000
MaxMatch 1000
の設定が出来る。
- Perl 部品化 ( Perl module)
- program を単体としてではなく、 Perl の部品として起動
出来るしくみ
nkf, kakasi, chasen などは以前は Namazu から外部 process として呼出さ
れるようになっていた。この場合、process を別に起動するということで
時間がかかる。
現在では、これらの perl 部品が用意されて、
perl から部品(module)として呼出されるように出来る。
そうすると process を起動しないで済む分、実行速度が有利になる。
この機能は Namazu-1.3 以前では提供されていない。
1.4 以降の機能である。
Namazu に必要な Perl の部品が入っているかどうかは
perl -MText::Kakasi -e ''
perl -MText::ChaSen -e ''
perl -MNKF -e ''
のように入力した時に、何も表示されなければ良い。
|
この画面は jeedosaquin
を使って表示している。
|
|