Namazuは日本語全文検索システムです。 Webサイト内の検索システムとしてもよく使われています。私はこれをローカルディスク内の検索に使っています。
必要なソフトは以下の通りです。
Active Perl | プログラミングツールのページを参照。 |
kakasi | わかち書きのためのソフトウェアです。日本語は英語と違い、
文章が単語に分かれていないのでkakasiを使って単語に分解した上で、Namazuでindexを作成します。 |
Namazu | 日本語全文検索システム。index作成と検索を行います。 |
xpdf |
PDF 文書を扱う際に必要です。 |
インストール方法は國安氏によるNamazu for Win32 のレポートが ありますので、これに沿ってインストールすることが出来ます。 (なおNamazu 2.0.13 for Win32 (β版)以降では、インストーラが改善されています。)
インストール後の設定は、(このレポートの通りにインストールした場合)C:\namazu\share\namazu\doc\jaにある manual.htmlを参照してセットアップします。 Word、Excel、PowerPoint、一太郎をインストールしていれば、これらの文書のIndex作成・検索も可能です。
またPDF文書のIndex作成にはXpdf (に含まれるpdftotext.exe等)が必要です。 日本語を扱うための設定はmayazawat氏のサイトNamazuを使おうの中の 「PDFを検索対象に」で詳細に説明されています。
また、倉部淳氏によるDocuworksのフィルタが DocuWorks-Users - ダウンロードから ダウンロードできます。
GUI環境での検索ソフトは高橋氏作のSearch-s for Namazuが
使いやすいと思います。ローカルディスク内の検索をする場合はこれをつかうのが便利だと思います。
Windows2000、WindowsXPではインデックスサービス(Indexing Service)が 全文検索のためにインデックス(カタログ)を作成しています。 Namazuを使わなくてもこのインデックスサービスを使うことによってもインデックスによる全文検索を使うことが出来ます。
ただ、このサービスはアイドル状態にあるときにカタログを作成するとされているものの、 実際には操作しているときにもカタログ作成のためと思われるハードディスクアクセスがあったりするために 通常の操作に支障をきたすことがあり無効としている人も多いと思います。
さらに、いつカタログの作成が100%の状態になっているかがわからないため、 取りこぼしがあるか無いかがよくわからないというのも欠点だと思います。
インデックスサービスにおける「Namazuに対するSearch-S for Namazuに相当するソフトウェア」としては fhew氏作成のサトリが公開されていましたが、残念ながら2005年3月現在では公開が停止されてしまっています。
この状況ではインデックスサービスを利用した全文検索を(無料で)行うにはWindows標準の検索機能を使うか、 カタログのクエリ(コントロールパネル>管理ツール>コンピュータの管理> サービスとアプリケーション>インデックスサービス>「カタログ名」>カタログのクエリという深い場所にありますが、 「ファイル名を指定して実行」等でciadv.mscを実行することによりカタログの選択画面を直接開くことができます。)を使うことになります。 ただWindows標準の検索機能を使った場合では、サトリやカタログのクエリを使ったときのようなスピードにはならないようですので、 カタログのクエリを使うのが一般的と思われます。
上記の方法では機能が不足する場合や、他のコンピュータのインデックスをWEBブラウザを使って検索したい場合は、 スクリプトを作成することになります。ローカル環境で使うスクリプトのサンプルは(一般的なディレクトリ構成で) 「C:\WINDOWS\Help\ciquery.htm」として用意されていますし、マイクロソフトからは Visual Basic .NET を使用して ASP.NET アプリケーションでインデックス サービスのカタログにクエリを行う方法、 インデックスサービス設定ガイドが公開されていますので、これらが参考なると思います。
また中央農業総合研究センター 農業情報研究部研究員 菅原 幸治氏のサイトの ASPによるWebアプリケーション作成の ドキュメント全文検索は インデックスサービスを利用したWEB上での全文検索のサンプルであり、そのページのスクリプトを表示もできます。
インデックスサービスでは標準でExcel、Word、PowerPoint、テキスト、HTML、emlの各文書に対応しています。 さらに各IFilterを インストールすることでVisio、一太郎、PDF、DocuWorks、OASYSの各文書にも対応します。
なお、PDFのIFilterはv5.0が日本のアドビからダウンロードでき、日本語にも対応していますが、 Windows XPではカタログの作成に問題があるようです。 そこでAdobeのSupport Knowledgebaseに掲載されているように iFilter6.0にバージョンアップするか、 Solution 2の方法でレジストリを書き換えると適切にカタログが作成できるようです。 iFilter6.0は日本のアドビのサイトからはダウンロードできませんが日本語も扱えるようです。
Googleを使った自分のWEBサイト内の検索機能については リンク、検索機能を追加の 「Google フリー検索 (ベーシック版) : ウェブ検索 + サイト検索」を参考にすれば簡単に設置できます。
また、単一のPC内のファイル検索は Google デスクトップ検索を利用できます。
するとNamazuがカバーする利用方法で残るのはLAN内のPCに提供する検索機能ということになります。
Googleデスクトップ検索のV3以降では
複数のコンピュータ上のデータを検索する機能が備えられていますが、
すべてのコンピュータに Google デスクトップをインストールし、
それぞれのコンピュータで同じ Google アカウントを使用して [複数のコンピュータ上のデータ検索] の設定を有効にする必要
が
あるため、そのままではNamazuの代わりのような運用は難しそうです。
この領域をカバーする方法としてwhzat氏が Googleデスクトップ検索とプロキシサーバーDeleGate を利用した検索機能付きファイルサーバーの作り方を Google 検索付きファイルサーバーの ページでまとめられています。
また、Googleデスクトップ検索のプラグインであるDNKA(非商用利用のみ無償)を 使うことでも検索機能付きファイルサーバーを実現できます。 DNKAについてはNaka氏が 備忘録::Naka: Googleデスクトップサーチで全文検索サーバを公開でまとめられています。
Google Desktop: Other Plug-ins等からダウンロードできるプラグインにより 標準ではサポートされない文書を検索対象に追加することができます。
なお、Becky! Internet Mailのインデックス作成用プラグインには shintarou3氏による Google Desktop Searchプラグイン for Becky!と stanaka氏による Becky plugin for Google Desktop Searchがあります。 前者は添付ファイルも検索できます。
また、IFilterShop Google Desktop Search
を使うとインデックス作成のためにIFilterを利用することができるようになります。
西田 宗千佳氏によるIFilterShopプラグイン利用時の注意
によると実際にIFilter形式の検索コンポーネントを使うには、プラグインをセットアップする”前に”、
必要なコンポーネントをセットアップしておきましょう。
とのことです。