概要
概要
ManifoldCFは次のような目的のために設計されたクローラフレームワークです。
- シャットダウン及び再起動からの回復力に強く信頼性の高いフレームワーク
- 差分更新に対応。収集するコンテンツの条件はジョブに定義します。ジョブを継続的に実行してコンテンツの差分を収集することができます
- 同時に並行して異なるリポジトリの種類と接続してコンテンツを収集することが可能です
- コンテンツセキュリティに対応しています。ユーザ毎に閲覧可能なコンテンツのみの検索結果が表示されます
- 高速。多くのコンテンツをそれなりの時間内に処理することができます
- メモリ利用を予測することができます
ManifoldCFはリレーショナルデータベースを利用することで多くのアーキテクチャの目的を達成しています。現バージョンはPostgresql、Derby、MySQLに対応しています。その他のデータベースの利用も検討しています。
ManifoldCFコンテンツモデル
ManifoldCFの各コンテンツはバイナリデータとそれに関連するメタデータから構成され、ユニークURIに関連付けられています。検索用に組み合わせて利用する検索エンジンはこのモデルに対応する必要があります。
コンテンツはアクセストークンと関連つけることができます。アクセストークンについては次の節で説明します。
ManifoldCFセキュリティモデル
ManifoldCFセキュリティモデルは、マイクロソフトActive Directoryの認証及び階層のモデルに対応しています。ファイル及びコンテンツの承認/権限にActive Directoryを利用している企業が多いからです。また、Active Directoryは多くの第三者ソフトウエアでも利用されているからです。
ManifoldCFはアクセストークンという概念を使っています。ManifoldCFでアクセストークンとは、コネクタに内容が依存する文字列です。ユーザにコンテンツを表示するか、表示しないかはこの文字列で制御されます。Active Directoryを利用する場合は、アクセストークンはActive Directory SID(例:S-1-23-4-1-45)です。LiveLinkでは別の意味をもつ文字列になります。
ManifoldCFセキュリティモデルでは、権限コネクタが検索を実行したユーザのアクセストークン一覧を作成します。複数の異なるセキュリティで管理されたサーバを検索する場合は、権限コネクタがアクセストークンを組み合わせます。作成されたアクセストークン一覧は検索結果と共に検索エンジンに送られます。検索エンジンはこの情報を元にユーザに表示する内容を制限することができます。
コンテンツの索引を作成した後に、ManifoldCFはアクセストークンを検索エンジンに送ります。アクセストークンには「許可」と「拒否」の2種類のトークンがあります。なお、アクセストークンはActive Directoryと同様に「共有」,「フォルダ」,「ファイル」にセキュリティを設定することができます。
検索エンジンはアクセストークンの内容に基づき表示する検索結果の内容を決めます。検索エンジンにSolr 1.5を利用される場合はこの処理を標準で行えるようにするためにApache SolrプロジェクトにSearchComponentプラグインとそれを利用する説明書を提供しています( SOLR-1895)。
ManifoldCF論理エンティティ
コネクタ
ManifoldCFには次の3つのコネクタがあります:
- 権限コネクタ
- リポジトリコネクタ
- 出力コネクタ
すべてのコネクタには共通した機能があります。先ず、すべてのコネクタはプールされています。ManifoldCFは設定したコネクタのインスタンスを管理します。インスタンス数の上限を設定することもできます。コネクタの実装はManifoldCFが管理するプール内で自身を管理するためのメソッドを実装しています。コネクタは設定可能です。コネクタの設定はコネクタの実装に依存したXML文で行えます。ManifoldCFでは、設定されたコネクタのインスタンスをコネクションと呼びます。
コネクタは次のような機能をもちます:
コネクタタイプ | 機能 |
---|---|
権限コネクタ | リポジトリに意味あるようにユーザ名とアクセストークンを対応づける |
リポジトリコネクタ | 指定されたリポジトリ(例:SharePointやWeb)からコンテンツを収集する |
出力コネクタ | 収集したコンテンツと処理(追加や削除など)をバックエンド検索エンジン又はLuceneのようなエンティティに送信する |
コネクション
上で説明した通りに、コネクションとはコネクタの実装とコネクタ固有の設定情報です。Webブラウザからこれらの設定を行うことができます。
コネクタには「何を」よりも「どのように」という情報を設定します。例えば、LiveLinkコネクションにはLiveLinkサーバと接続の仕方を設定します。どの文書ファイルを収集するかのような情報は設定しません。
リポジトリコネクションと権限コネクション及び出力コネクションの設定は異なります。リポジトリコネクションには、権限コネクションを設定します。ManifoldCFが収集するすべての文書は適切なアクセストークンが必要だからです。
ジョブ
ManifoldCFでジョブとは、指定したリポジトリコネクションと出力コネクションの同期をとるための情報です。ジョブには次の情報を含みます:
- 詳細説明
- リポジトリコネクション(暗黙的に権限コネクションを含む)
- 出力コネクション
- リポジトリコネクションに特定したジョブが対象とするコンテンツとメタデータの説明
- クロールモデル:「最後まで実行」又は「継続実行」
- ジョブの実行スケジュール:指定された時間帯または即時
複数のジョブで同じリポジトリコネクションを使うことができます。即ち、ManifoldCFでは複数のジョブで同じ文書を収集するように設定することを許可していますが、普通は同じ文書を異なるジョブで収集しないように設定します。