Apache > ManifoldCF > Release Documentation
 

ManifoldCF- 终端用户手册

概要

本手册面向使用ManifoldCF的终端用户。前提条件为已安装并设置ManifoldCF框架,正常启动所有必要的服务,正确注册要使用的连接类型。如手动执行上述操作,请参照[开发人员资源]页。

本手册主要说明ManifoldCF的用户界面及其使用方法。在缺省设置下,在Web浏览器打开URL:http://my-server-name:8345/mcf-crawler-ui。在非缺省设置下,URL会发生变化,请咨询系统管理员。

ManifoldCF的用户界面在Firefox和IE通过测试。使用别的Web浏览器可能无法正常运行。如无法正常运行,请联系系统管理员。

从Web网页打开上述URL,将会看到如下页面:



Welcome Screen


左侧为菜单,右侧显示欢迎页。选择左侧菜单项,右侧会显示相应的内容。建议在进入设置之前,先过目下述说明并理解ManifoldCF的概要。

输出连接器的定义

左侧菜单包含用来输出爬取文档的输出连接器列表。在很多场合下,将输出到搜索引擎。

所有作业必须要指定输出连接。要指定输出连接,请从左侧菜单选择[输出连接列表]。将会看到如下页面:



输出连接列表


初次使用时,输出连接还未定义。如已定义输出连接,会显示在列表中。可通过输出连接左端的[显示],[编辑],[删除]链接,显示、编辑、删除设置内容。要定义新输出连接,单击列表下方的[添加新输出连接]。将会看到如下页面:



Add New Output Connection, specify Name


输出连接上方的标签是输出连接的属性群。根据不同的连接类型标签也有所不同。

首先,输入连接的名称和说明。输出连接名用来识别连接,无需具有唯一性。注意,一经设置就无法修改。名称不能超过32个字符,说明不应超出255字符。输入完毕,请选择[类型]标签。将会看到如下页面:



Add New Output Connection, select Type


选择[连接类型]下拉菜单,会显示输出连接列表。列表中所显示的输出连接器及其名称,会根据安装设置Apache ManifoldCF的系统集成而有所不同。显示标签,随所选连接类型发生变化。后续章节会说明标签设置内容。

从下拉列表选择输出连接类型,单击[下一个]按钮。会显示输出连接定义所需属性的标签。页下显示[保存]按钮。生成连接时必须要单击此[保存]按钮。放弃设置内容时,单击[取消]按钮或选择左菜单项目。

所有输出连接类型附上[限流器链接]标签。选择后会显示如下页面:



Output Connection Throttling


此页仅有一个项目:系统使用此输出连接时的最大连接数。可调整系统负荷,根据版权限制连接数。设置值越大,吞吐量也增大。所有连接类型的缺省值为10,但根据输出连接和类型此值或许并非为最佳值。关于详情,参阅后续各种输出连接和类型的说明。

保存连接,会显示所设置的内容和连接状态。连接设置正确时,状态为[正常]。设置有误时,显示错误。出错时,请修改设置。

定义权限连接

从左侧菜单选择[权限列表],会显示权限连接列表。权限连接,用来连接到具有特定安全环境的系统。比如,访问由ActiveDirectory管理的文件时,需定义ActiveDirectory权限连接。

仅爬去公开文档时,无需定义权限连接,比如爬去互联网上无需认证任何人均可参阅的Web网页, RSS, Wiki。相反,搜索公司内部文档时,多数需要用户认证,需定义权限连接。

在定义存储库连接之先定义权限连接。虽过后也可以改变存储库连接和权限连接的关系,但有可能需要重新爬去文档。

要定义权限连接,从右側菜单选择[权限列表]。会显示如下页面:



List Authority Connections


初次使用时,权限连接还未定义。权限连接已定义时,会显示列表。权限连接左方显示[显示],[编辑],[删除]链接,用来显示,编辑或删除设置。定义新权限连接时,选择列表下方[添加新权限连接]链接。选择后会显示如下页面:



Add New Authority Connection, specify Name


上面显示的标签为权限连接的属性群。随连接类型显示标签有所不同。

首先,输入连接名称和说明。权限连接名用来区分连接,故需要唯一。注意,一经设置就无法改变。名称最长为32字符,说明最长为255字符。输入后单击[类型]标签。会显示如下页面:



Add New Authority Connection, select Type


选择连接类型和下拉列表,会显示权限连接列表。列表显示的权限连接器及名称,根据安装设置Apache ManifoldCF的系统集成会有所不同。显示标签,根据所选连接类型发生变化。后续章节说明标签设置内容。

从下拉列表选择权限连接类型,单击[下一个]按钮。会显示所选权限连接定义所需属性的标签。另,页下显示[保存]按钮。生成连接时必须要单击此[保存]按钮。放弃设置内容时,单击[取消]按钮或左方菜单项。

所有输出连接类型有[限流器链接]标签。选择后会显示如下页面:



Authority Connection Throttling


此页仅有一个项目:系统使用此输出连接时的最大连接数。可调整系统负荷,根据版权限制连接数。值越大,吞吐量也增大。所有连接类型的缺省值为10,随输出连接和类型此值并非最佳。关于详情,参阅后续各输出连接和类型说明。

关于连接类型标签的详情,参阅关于权限连接和类型所显示标签的说明。

保存连接,会显示所设连接内容页和连接状态。连接正确设置时,状态为[正常]。设置有误时,显示错误。显示出错信息时,请修改设置内容。

定义存储库连接

从左侧菜单选择[存储库列表],看到存储库连接列表。存储库连接是指向保存要生成索引文档的存储库的连接。 它被要求能够连接到备特定安全环境的系统。比如,访问ActiveDirectory管理的文件时,需定义ActiveDirectory权限连接。

所有作业需指定存储库连接。作业从指定存储库连接读入文档。在定义用以从文档生成索引的作业之前,先生成存储库连接。

还可以在存储库连接指定权限连接。权限连接用来指定存储库连接所读取文档的安全环境。还可以在爬虫执行后修改存储库连接所对应的权限连接,但必须重新读入存储库连接的所有对象文档并重建索引。因此,建议在定义存储库连接之前定义权限连接。限流器链接

要定义存储库连接,从左侧菜单选择[存储库连接列表]。将看到如下页面:



List Repository Connections


开始使用时,存储库连接尚未定义。存储库连接已定义时,会显示列表。选择存储库连接的左端显示的[显示],[编辑],[删除]链接显示设置内容,可编辑或删除。定义存储库输出连接时,选择列表下方[添加新存储库连接]链接。会显示如下页面:



Add New Repository Connection, specify Name


上方显示的标签时存储库连接的属性。根据连接类型会显示不同标签。

首先,输入连接的名称和说明。存储库连接名用来识别连接,应具唯一性。另,一经设置就无法更改。名称最长为32字符,说明最长为255字符。输入后,选择[类型]标签,会显示如下页面:



Add New Repository Connection, select Type


选择连接类型和下拉列表,会显示存储库连接列表。列表显示的存储库连接器及名称,根据安装设置Apache ManifoldCF的系统集成会有所不同。显示的标签,根据所选择的连接类型而变化。后续内容将说明标签设置。

还可以指定从存储库读取文档的权限信息。权限连接有时会依赖于存储库连接。详情请参阅所使用存储库连接及权限连接的说明。

选择存储库连接类型和权限连接后选择[下一个]按钮。会显示定义所选存储库连接所需属性的标签。另外,页面下方显示[保存]按钮。生成连接时必须要单击[保存]按钮。取消设置内容时,单击[取消]按钮或左方菜单项。

所有输出连接类型具有[限流器链接]标签。选择后会显示如下页面:



Repository Connection Throttling


此页有两个项目:首先,系统可以使用此输出连接的最大连接数。从而,可调整系统负荷,或根据版权限制而限制连接数。该值过大时,吞吐量会上升。所有连接类型的缺省值为10,根据输出连接和类型此值或许不是最适值。关于详细信息,参阅后续各种输出连接和类型的说明。其二,爬虫使用此连接时,可以以多大平均速度读取文档。

可为每一个连接设置[限流器bin]。限流器bin是用来显示读取频度的资源名称。比如,Web连接可为每一个HTTP服务器名指定限流器bin。由此,可按HTTP服务器名指定文档读取频度。

从存储库连接的[限流器链接]标签可定义无限的限流器链接设置。按限流器链接设置指定限流器bin集的正则表达式,说明文,并为每一个正则表达式指定相应的限流器bin平均读取频度。当限流器bin和一个以上限流器链接设置匹配时,选择最不使用资源的读取设置设为有效

最为简单的正则表达式为空表达式。此时所有限流器bin与之匹配。当在连接指定缺省限流器设置可使用此方法。指定平均读取率,请单击[添加]按钮,显示如下限流器链接标签:



Repository Connection Throttling With Throttle


限流器未设置时,文档读取不会被限制。

关于连接类型的标签,请参阅根据存储库连接和类型所显示标签的说明。

保存连接,会显示所设置连接的内容。连接状态亦会显示。连接被正确设置时,状态显示为[正常]。设置有误时,会显示错误。出错时,请修改设置。

生成作业

ManifoldCF的[作业],指读取文档的集合。ManifoldCF通过存储库连接读取所指定的文档集,并写入指定的输出连接。作业的内容和文档索引的生成方法,依赖于相关存储库连接。文档的索引生成方法,还依赖于输出连接。

所定义的多数作业会执行一次以上。每当执行作业,不仅将新文档及更新文档发送到输出连接,还要将对象外文档通知输出连接。文档可用两个方法排除对象之外:从存储库删除文档时,从读取对象排除文档时。这两种方法ManifoldCF均可处理

如删除作业,会通知输出连接和作业相关的所有文档已被删除。作业显示该作业的相关文档。作业被删除时,与其它作业不相关的文档也会被删除。(注:ManifoldCF作业并不仅仅是用来执行文档读取任务。)

ManifoldCF可从多个作业读取一个文档。和一个以上作业相关的文档以如下方式处理:

  • 删除作业时,不含在别的作业对象中的文档信息将通知到输出连接。
  • 通知到输出连接的文档版本取决于最后执行的作业。

文档为多个作业的对象时处理变为复杂,所以应尽量避免。

非连续作业按如下步骤执行:

  1. 将作业的新建,修改,删除的开始点登录到队列([播种])
  2. 读取文档,发现新文档,获取删除对象信息
  3. 从队列删除读取对象外文档

还可让作业[连续]执行。连续作业将一直直行直到中断为止。连续作业按如下步骤执行:

    放弃设置内容时,选择[取消]按钮或左方菜单项。
  1. 将作业的新建,修改,删除的开始点登录的队列([播种])
  2. 读取文档,发现新文档,获取删除对象信息。定期登录种子

注:连续作业无法从队列删除排除文档。只有从存储库删除的文档可以出队。

作业可由用户立即执行,还可调度。调度时,可指定开始时间,还可设置在别的作业结束后执行。

可并行执行的作业数并无限制。

定义作业时,选择左菜单的[作业列表]。会显示如下页面:



List Jobs


当显示,编辑,删除所定义的作业时,单击显示在作业列表中的作业右方的链接。还可以复制定义的作业。定义新作业时,选择列表下方所显示的[添加新作业]链接,会显示如下页面:



Add New Job, name tab


请输入作业名。作业名无需保持唯一性。但是,具有唯一性便于使用,故推荐保持唯一性。输入后选择[连接]标签:



Add New Job, connection tab


选择输出连接名和存储库连接名。注意保存作业定义后就不能修改所选连接。

可以指定作业的优先级及开始方法。优先级,指和其它作业相比时读入文档的重要性。设置值高的作业优先读入文档。开始方法如上所述,手工开始,按调度时间开始,或在别的调度作业后开始。

设置完毕单击[下一个]按钮。会看到其它标签和页下的[保存]按钮。登录或更新作业时必须要单击[保存]按钮。放弃设置内容时,单击[取消]按钮或左方的菜单项。

所有作业有[调度]标签。从调度标签,可进行调度相关设置:



Add New Job, scheduling tab


可进行以下设置:

  • 连续执行作业,还是一次性读入所有文档
  • 文档变成无效的时间。无效文档的索引将被删除
  • 确认文档更新的间隔
  • 初期文档重新播种的等待时间

最后三个设置仅在连续执行时有效。

从此页还可定义调度期间。调度期间指,可执行作业的时间段。时间段由开始日期(星期,月,日,时,分)和最大执行时间(分)指定。从各下拉菜单选择多个设置时,作业开始时间为各下拉菜单中所选日期设置中的一个匹配时。

输入调度后,单击[添加调度]按钮:



Add New Job, scheduling tab with record


示例页面定义为,作业将从星期六和星期日的上午2点到最长4个小时(上午6点)执行。

其它标签随所选连接类型不同而不同。关于这些标签的详情,参阅所选输出连接及存储库连接的章节。

执行作业

要把握作业执行状态,从左菜单选择[状态与管理]。会显示如下页面:



Job Status


要显示作业的当前状态单击画面下方的[更新]按钮。更改作业的状态,选择显示待更改作业名左方的状态链接。具有如下处理状态:

  • 开始 (开始作业)
  • 中断(中断作业)
  • 结束 (暂时结束作业)
  • 重开 (重新开始作业)
  • 重新执行 (中断作业并重新执行)

[文档数],[处理中],[已处理]栏表示队列中的作业信息。[文档数]指作业对象的所有文档数。[处理中]指队列中待处理文档数。[已处理]指至少一次放进队列并处理过的文档数。

状态报告

ManifoldCF的所有作业和文档集相关。包含在集和中的文档位置信息保存在作业队列中。ManifoldCF可从GUI页确认此队列。

从各状态报告可通过以下信息选择作业队列的文档:

  • 作业
  • 文档ID
  • 文档状态
  • 文档的下次调度时间

文档状态

文档状态报告,显示和指定条件相吻合的文档及其状态,预定处理列表。还可确认执行中的作业是否处理某一个文档。

从左菜单选择[文档状态]链接,会显示如下页面:



Document Status, select connection


选择要搜索的连接。还可以指定用来过滤文档状态和文档ID的正则表达式。单击[下一个]按钮会显示如下页面:



Document Status, select job


从右方下拉列表,选择作业,再一次单击[下一个]按钮。会显示如下页面:



Document Status, example


可以修改条件并单击[执行]按钮来更改要显示的文档信息。还可以通过修改显示结果数并单击[执行]按钮,更改每一页的显示文档数。一页中无法显示所有匹配文档时,单击[上一个]链接或[下一个]链接来移动并显示。

队列状态

队列状态报告,显示指定类中出现的文档次数。指定类时,使用文档ID和匹配正则表达式的组。结果为文档数。文档状态/状況组成为一列。

比如,指定类为[()]时一行由状态/状況组构成。指定类为[(.*)],一行由每一个文档ID构成,相关文档的状态/状況列设为[1],其它列设为[0]。

从左菜单选择[队列状态]链接,显示如下页面:



Queue Status, select connection


选择要搜索的连接。还可指定用来过滤文档状态/状況和文档ID的正则表达式。文档ID类缺省为[(.*)]。请根据需要修改。单击[下一个]按钮会显示如下页面:



Queue Status, select job


从右方下拉列表,选择作业,再一次单击[下一个]按钮。会显示如下页面:



Queue Status, example


可以通过修改条件并单击[执行]按钮来更改显示的文档信息。还可以通过修改显示结果数并单击[执行]按钮,来修改每一页的显示文档数。所有匹配文档无法显示在同一页时,单击[上一个]链接和[下一个]链接来移动并显示。

历史记录报告

ManifoldCF记录每一个连接所处理的历史记录。此历史记录包括ManifoldCF核心所记录的事件和,存储库连接及输出连接的事件。事件以[活动类型]加以分类。存在如下活动类型:

  • 开始作业
  • 结束作业
  • 中断作业
  • 多个connection-type-specific读入及访问处理
  • 多个connection-type-specific输出及索引生成处理

历史记录报告可用来确认正在如何处理文档,是否在正常运行。ManifoldCF配有基于历史记录数据的多个报告。

所有历史记录报告,可以过滤显示内容。可使用如下项目指定过滤条件:

  • 存储库连接名
  • 活动类型(可选择多个)
  • 开始时间
  • 结束时间
  • 对象文档ID(以正则表达式指定)
  • 结果(以正则表达式指定)

报告可用来查出处理中的問題或性能問題的原因。各历史记录报告的详情请参照下面章节。

简易历史记录报告

简易报告并不进行统计,只显示和指定条件匹配的存储库连接的历史记录数据。从新到旧显示事件的开始时间,结束时间,处理内容,ID,数据量(字节),结果等。还可以改变要显示的报告事件数,按指定列顺次排序,移动页。

请从左菜单选择[简易历史记录]。将看到如下页面:



Simple History Report, select connection


请从左上下拉菜单选择存储库连接。还可以指定以正则表达式开始和结束日期和时间,对象ID及结果代码。缺省设置下显示前一小时之内的所有事件。

单击[下一个]按钮。可从右上下拉菜单看到活动。



Simple History Report, select activities


从下拉菜单选择一个或一个以上活动,单击[执行]按钮。相应事件会按由新到旧的顺序显示



Simple History Report, example


如改变搜索条件时,修改条件后单击[执行]按钮。另外,改变显示结果数并单击[执行]按钮,改变1页中所显示的文档数。所有匹配文档无法显示在同一页时,还可以单击[上一个]链接和[下一个]链接来移动显示内容。

单击[执行]按钮,会按当前时间作为条件显示结果。即,显示单击[执行]按钮前一小时之内的事件。作业执行中时,每次单击会显示不同结果。

最大活动报告

最大活动报告,用来显示在指定时间段活动的最大发生率。

最大带宽报告

最大带宽报告,表示在指定时间段活动的最大字节传输率。

结果历史记录报告

结果历史记录报告,显示指定活动相应的结果数量。

关于认证

所选连接类型需要认证时,请从系统管理员获取需要的信息。各个连接设计时考虑到,读取文档时要求最低限度的认证。执行中发生安全警告时,请核实认证的权限。

输出连接类型

Solr输出连接

Solr输出连接类型,通过Solr HTTP API发送文档到Solr。连接预先设置为Solr的缺省值。Solr连接不管可否建立索引,处理所有文档。设置管道判断是否使用文档。

但是,因发送所有文档所以如不设置过滤器,象图片等大型文件也会被发送,给系统施加很大负荷。为避免发生此类问题,建议检查Solr连接的所有爬取结果,从而发现不足或错误的设置。

选择Solr输出连接,会显示5个标签。[服务器]标签指定HTTP对象:



Solr Configuration, Server tab


输入Solr设置。当前版本只支持基本认证。在如下部分输入用户/密码。

从[模式]标签,可指定Solr字段作为文档ID。Solr连接将使用此字段作为主键来搜索文档。



Solr Configuration, Schema tab


从[参数]标签指定发到Solr的任意参数。可以使用可用在Solr更新请求的任意参数。 比如,可以添加为处理Solr文档所使用的管道/链:update.chain=myChain。其它可指定的参数参阅Solr手册。标签显示如下:



Solr Configuration, Arguments tab


输入参数名和值,单击[添加]按钮。名称已存在时,现有值被新值覆盖。删除参数时,单击在删除参数左方的[删除]按钮。

第4个标签为[文档]标签。这可根据文档大小和MIME类型来过进行滤器。按字节単位指定文档的最大长度,排除超过设置(比如10485760等于10MB)的文档。要只添加特定MIME类型的文档,可在"包含MIME类型"栏输入(比如要排除HTML以外的文档,登录"text/html")。"排除MIME类型"栏,用以排除特定MIME类型的文档(比如要排除JPEG图片就登录"image/jpeg")。标签显示如下:

Solr Configuration, Documents tab


第5个标签为"提交"标签。用来控制提交操作。所有作业在缺省状态下设置为结束时自动文档。另,还可以毫秒单位在指定时间内提交各文档(如在10秒之内提交则登录"10000")。commit within的动作取决于Solr而非ManifoldCF。标签显示如下:

Solr Configuration, Documents tab


输入完设置,单击[保存]按钮。显示如下输入设置列表:



Solr Status


示例页面,显示因Solr连接无法正常运行而出错。

在作业选择Solr类型连接,显示[项目映射]标签。从此标签可将在作业连接类型中获取的元数据字段和Solr接收字段对应上。元数据字段名称由存储库设置,有可能和Solr模式不相配。在此标签,还可以设置将指定的元数据字段排除在索引生成对象之外。标签如下:



Solr Specification, Field Mapping tab


添加新映射时,在[源]项输入元数据名,[目标]里输入Solr的输出字段名并单击[添加]按钮。关于不发送到Solr的字段,[目标]置为空。

文件系统输出连接

文件系统输出连接,可以象Unix工具wget在本地文件系统保存文档。此连接类型保存的文档,不包含元数据或安全信息,仅由二进制文件构成。

文件系统输出连接类型的连接构成信息不含添加标签。但,有附加的作业标签,称作[输出路径]。标签如下。



File System Specification, Output Path tab


输入文档要输出的路径,单击[保存]。

HDFS输出连接

HDFS输出连接,象Unix工具wget可在HDFS(Hadoop Distributed File System)保存文档。此连接类型的保存文档,不含元数据或安全信息,仅由二进制文件构成。

HDFS输出连接类型的连接构成信息包含叫做[服务器]标签的添加标签。此标签如下所示。



HDFS Output Configuration, Server tab


输入HDFS名称节点的URI及HDFS用户名。两者均需输入。

关于HDFS输出连接类型,拥有叫做[输出路径]的附加的作业标签。此标签如下。



HDFS Output Specification, Output Path tab


输入文档要输出的路径,单击[保存]。

OpenSearchServer输出连接

OpenSearchServer输出连接,通过HTTP API将XML文档送到OpenSearchServer。此连接器设计为尽量方便使用。

选择OpenSearchServer输出连接类型后,按照OpenSearchServer设置输入[参数]标签项。各OpenSearchServer输出连接对应着一个索引。使用一个以上索引时,请为每一个索引生成输出连接。

OpenSearchServer, parameters tab

参数:


  • 服务器地址:OpenSearchServer实例的URL。缺省URL(http://localhost:8080)为当OpenSearchServer和ManifoldCF在同一台服务器运行时的地址。
  • 索引名:连接器在指定索引生成数据。
  • 用户名和API键:为连接到OpenSearchServer实例的用户认证信息。用户未生成时,置空。下面的图像显示OpenSearchServer中记载认证信息时的页面。
OpenSearchServer, user configuration

在作业选择OpenSearchServer输出连接,会显示[OpenSearchServer]标签。此标签可设置如下事宜:


  • 对象文档的最大大小(字节)。缺省为16MB。
  • 对象MIME类型。个别存储库连接无法正常处理。
  • 对象文件扩展名。个别存储库连接无法正常处理。
OpenSearchServer, job parameters

所有活动可从历史记录报告确认。连接器支持三种活动:读取文档(生成索引),删除文档,优化索引。结束作业索引被优化。

OpenSearchServer, history report

关于OpenSearchServer的详情参阅OpenSearchServer用户手册

ElasticSearch输出连接

ElasticSearch输出连接,通过HTTP API将XML文档送到ElasticSearch。设计此连接器时考虑到尽量方便使用。

选择ElasticSearch输出连接类型后,按照ElasticSearch设置输入[参数]标签项。各ElasticSearch输出连接对应着一个索引。使用一个以上索引时,请为每一个索引生成输出连接。

ElasticSearch, parameters tab

参数:


  • 服务器地址:ElasticSearch实例的URL。缺省URL(http://localhost:8080)为当ElasticSearch和ManifoldCF运行在同一台服务器时的地址。
  • 索引名:连接器在指定索引生成数据。
  • 用户名和API键:为连接到ElasticSearch实例的用户认证信息。用户未生成时,置空。下面图像显示ElasticSearch中记载认证信息时的页面。

在作业选择ElasticSearch输出连接,会显示[ElasticSearch]标签。此标签中可设置如下事宜:


  • 对象文档的最大大小(字节)。缺省为16MB。
  • 对象MIME类型。个别存储库连接无法正常处理。
  • 对象文件扩展名。个别存储库连接无法正常处理。
ElasticSearch, job parameters

所有活动可从历史记录报告确认。连接器支持三种活动:读取文档(生成索引),删除文档,优化索引。结束作业索引被优化。

ElasticSearch, history report

ElasticSearch的详情参阅ElasticSearch用户手册

MetaCarta GTS输出连接

MetaCarta GTS输出连接类型通过HTTP API发送文档到MetaCarta GTS搜索引擎。

GTS只能处理HTML,XML,RTF,PDF,微软Office文档。不能从其它类型文档建立索引。受此限制,较大的对象外文档不会被获取。

在作业选择GTS类型输出连接,会显示两个标签:[搜集]和[文档和模版]。从这些标签设置GTS特定功能。

Null输出连接

null输出连接,主要为存储库连接类型的开发人员而配备。很少在实际运用中使用。

Null输出连接类型只为索引及删除请求输出日志。不进行任何其它处理。Null输出连接无固有标签。

权限连接类型

ActiveDirectory权限连接

ActiveDirectory权限连接,当利用MS Windows共享目录,MS SharePoint,IBM FileNet存储库设置文件权限时加以使用。使用ActiveDirectory权限连接类型时,需设置可以登录到Windows域名控制器参照其他用户ID和组关系的认证信息。虽有如下限制,使用通常的Windows安全体系结构时并无问题:


  • 存在子备注时
  • 请求数/秒较大时

选择ActiveDirectory权限连接会显示[域名控制器]标签:



AD Configuration, Domain Controller tab


输入所需项。通常在[管理员用户名]无需输入域名,根据域名控制器的构造需按[用户名@域名]格式输入。

输入后单击[保存]按钮,会显示如下设置概要和状态页面:



AD Status


示例页面显示因ActiveDirectory无法连接而出错。

LDAP权限连接

LDAP权限连接,当没有本地文档安全模型的状況下提供文档安全时而使用。比如,包括Samba共享,Wiki页或RSS馈送等。

LDAP权限作为访问令牌使用LDAP服务器提供的用户或组名。这些访问令牌可以在,提供按作业所输入的访问令牌的存储库连接,或Samba共享用的支持明示用户/组名的JCIFS连接类型等使用。

此连接类型需输入为登录到适当LDAP服务器所需信息。为搜索用户或组的记录还需指定搜索。此权限连接类型由一个特殊LDAP标签:



LDAP Configuration, LDAP tab


输入要求值。注意基于服务器的域包括要搜索的LDAP域名。如域名为people.myorg.com,基于服务器的域为dc=com,dc=myorg,dc=people等。

结束后单击保存按钮。会看到如下连接概要和状态:



LDAP Status


注意,在此样本LDAP连接不做响应,显示出错信息而非"Connection working"。

OpenText LiveLink权限连接

LiveLink权限连接,用来指定从LiveLink存储库获取文档时的安全。

使用LiveLink服务器,需指定可获取用户ACL的用户认证信息。LiveLink单独管理用户。还可以通过定义映射规则或使用正则表达式把ActiveDirectory和LiveLink用户联系起来。

选择LiveLink权限连接会显示如下两个标签:[服务器]标签和[用户映射]标签。

选择[服务器]标签会显示如下页面:



LiveLink Authority, Server tab


请输入LiveLinke服务器,端口,认证信息。

选择[用户映射]标签显示如下页面:



LiveLink Authority, User Mapping tab


从[用户映射]标签,可将用户名及域名(通常来自ActiveDirectory)信息和LiveLink联系上。映射用正则表达式定义。转换源和值用([(]和[)])括上。被括弧括上的部分称为[组]。替换字符串,由固定字符和替换组构成。比如,[$(1)]表示首个匹配组,[$(1l)]表示首个匹配小写字符。同样[$(1u)]表示大写字符的映射组。

比如,匹配条件^(.*)\@([A-Z|a-z|0-9|_|-]*)\.(.*)$和替换字符串$(2)\$(1l)将ActiveDirectory用户名MyUserName@subdomain.domain.com对应到LiveLink用户名subdomain\myusername

输入相应信息后单击[保存]按钮,会显示如下概要及状态信息:



LiveLink Authority Status


请确认内容。示例页中因LiveLink服务器无法连接而显示出错信息。

EMC Documentum权限连接

Documentum权限连接,用来指定从Documentum存储库获取文档时的安全。

使用时,需指定可获取Documentum文档服务器信息和用户ACL信息的认证信息。 还可以指定是否包含按用户列表自动生成的ACL。自动ACL针对每一个文件夹对象生成。存在很多文件夹时,随着大量的ACL返回用户的ManifoldCF访问令牌亦会增加,导致性能恶化。另外,在很多场合Documentum并不适用这些ACL。因此,在多数情况设置为忽略这些ACL也不成问题。

选择Documentum权限连接会显示如下三个标签:[Docbase],[用户映射],[系统ACL]。

选择Documentum权限连接,会显示如下[Docbase]标签:



Documentum Authority, Docbase tab


请输入文档服务器docbase名和认证信息。当文档服务器中ActiveDirectory没有设为有效时,请将[域名]项置为空。

选择[用户映射]标签会显示如下页面:



Documentum Authority, User Mapping tab


在对应所输入用户名和文档服务器用户名时可指定是否区分大小写字符。其它对应未支持此功能。在很多场合,Documentum实例和ActiveDirectory连锁,Documentum用户名和ActiveDirectory的用户名一致,或ActiveDirectory用户名只使用小写字符。详情参阅Documentum系统管理员向导。

选择[系统ACL]标签会显示如下页面:



Documentum Authority, System ACLs tab


可指定忽略自动生成的ACL。建议先设置为忽略,根据需要改设为有效。请联系Documentum系统管理员询问正确设置。

输入后单击[保存]按钮,会显示如下概要及状态信息:



Documentum Authority Status


请确认状态,根据需要修改设置。

Memex Patriarch权限连接

Memem权限连接,用来指定从Memex存储库获取文档时的安全。

许指定所要连接的Memex服务器和用户的映射信息,为从Memex服务器获取用户权限信息所需的用户认证信息。

选择Memex权限连接,会显示两个标签:[Memex服务器],[用户映射]。选择[Memex服务器]标签会显示如下页面:



Memex Authority, Memex Server tab


请输入Memex服务器,端口,获取Memex用户信息所需的用户认证信息。另,选择Memex服务器的字符编码。字符编码不明时,请咨询Memex系统管理员。

[用户映射]标签会显示如下页面:



Memex Authority, User Mapping tab


从[用户映射]标签,可将用户名及域名(通常来自ActiveDirectory)信息对应到Memex。对应用正则表达式定义 转换源和值用括弧([(]和[)])括上。由括弧括上的部分成为[组]。替换字符串由固定字符和替换组构成。比如,[$(1)]指首个匹配组,[$(1l)]指首个小写字符匹配组。同样[$(1u)]指大写字符匹配组。

比如,匹配条件^(.*)\@([A-Z|a-z|0-9|_|-]*)\.(.*)$和替换字符串$(2)\$(1l),将ActiveDirectory用户名MyUserName@subdomain.domain.com映射到Memex用户名subdomain\myusername

输入对应信息后单击[保存]按钮,会显示如下概要及状态信息



Memex Authority Status


请确认内容。示例页中因Memex服务器无法连接而发生出错信息。

Autonomy Meridio权限连接

Meridio权限连接,用来指定从Meridio存储库获取文档所需的安全。

请指定所要连接文档服务器,记录服务器,用户服务的信息。亦需指定为获取用户ACL信息所需的Meridio用户认证信息。

用户服务为Meridio Authority的一部分。如使用Meridio Authority,请安装Meridio系统。 不清楚时,请咨询Meridio服务器管理员。

选择Meridio权限连接会显示四个标签:[文档服务器],[记录服务器],[用户服务服务器],[认证]。选择[文档服务器]标签会显示如下页面:



Meridio Authority, Document Server tab


请输入协议,服务器名,端口,Meridio文档服务器服务地址。使用代理服务器时,请输入代理服务器主机和端口号。认证代理服务器在当前版本不支持。

Meridio系统可为不同服务配备不同服务器,通常多个服务运行在同一个服务器。但是,从连接类型设置还可指定不同服务器。

选择[记录服务器]标签,会显示如下页面:



Meridio Authority, Records Server tab


输入协议,服务器名,端口号,Meridio记录服务器的服务地址。使用代理服务器时,输入代理服务器主机和端口号。认证代理服务器在当前版本不受支持。

Meridio系统虽可为每一个不同的服务配备服务器,通常多个服务运行在同一个服务器。但是,从连接类型设置可指定不同的服务器。

选择[用户服务服务器]标签会显示如下页面:



Meridio Authority, User Service Server tab


输入页面内容,需先安装Meridio Authorith extension。

输入协议,服务器名,端口号,Meridio用户服务服务器的服务地址。使用代理服务器时,输入代理服务器主机和端口号。当前版本不支持认证代理服务器。

Meridio系统可为不同服务配备不同的服务器,通常多个服务运行在同一个服务器。但是,从连接类型设置可指定不同服务器。

选择[认证]标签,会显示如下页面:



Meridio Authority, Credentials tab


输入Meridio系统用户的认证信息。

输入完单击[保存]按钮。会显示如下页面:



Meridio Authority Status


示例页面因Meridio权限服务器无法连接到Windows域名而出错。

Meridio使用Windows IIS认证功能。IIS及Windows域名没用正确设置时,Meridio无法正常运行。如发生问题,请咨询Meridio技术负责人。另外,还可以使用如下调试工具:


  • Windows安全事件日志
  • ManifoldCF日志(参阅下述内容)
  • 数据包截取器(例:WireShark)

需要特定ManifoldCF日志信息时,请联系ManifoldCF负责人。

CMIS权限连接

CMIS权限连接,用来指定从CMIS存储库获取文档时的安全。

CMIS规格可设置相关特定文档权限时、可递归地指定。

选择CMIS权限连接,显示两个标签:[存储库],[用户映射]。选择[存储库]标签会显示如下页面:



CMIS Authority, Repository configuration


存储库设置只为跟踪特定CMIS存储库ID而使用。不搜索CMIS存储库。



从[用户映射]标签指定用户的对应关系。

选择[用户映射]标签会显示如下页面:



CMIS Authority, User Mapping configuration


从[用户映射]标签,可将来自用户名及域名(通常从ActiveDirectory)的信息和CMIS对应起来。对应由正则表达式定义。 转换源和值用括弧([(]和[)])括上。由括弧括上的部分称为[组]。替换字符串由固定字符和替换组组成。比如,[$(1)]表示首个匹配组,[$(1l)]为首个小写字符匹配组。同样[$(1u)]为大写字符匹配组。

比如,匹配条件^(.*)\@([A-Z|a-z|0-9|_|-]*)\.(.*)$和替换字符串$(2)\$(1l)将ActiveDirectory用户名MyUserName@subdomain.domain.com和LiveLink用户名subdomain\myusername对应上。

输入对应信息后单击[保存]按钮,会显示如下概要及状态信息:



CMIS Authority, saving configuration


存储库连接类型

通用文件系统存储库连接

通用文件系统存储库连接类型主要为例题,演示,测试工具而开发。生成ManifoldCF所安装服务器的本地文件的索引。但是,不能设置权限。

文件系统存储库连接类型没有固有标签。但是,从性能考虑请将[限流器链接]标签的[最大连接/JVM]值设为每一个工作线程至少一个或30。

作业定义中的文件系统类型存储库

从[跳过滤器]标签,可指定获取文件的子目录深度。虽文件系统或许会很少使用此设置,但此设置还可为Web连接类型指定。在文件系统可确认该设置是否运行。



File System Connection, Hop Filters tab


在文件系统连接类型,文档間关系仅限于一个[子]。可为获取文档对象的子目录设置从根目录深度。空白时,过滤器视为无效。

在同一页,还可指定当文档所在子目录深度发生变化时的动作。如选择[删除无法读取的文档],如发现变化,会重新计算所有相关文档的深度。重计算会增加服务器的负荷。如不需重新计算,可设为临时无效或永久无效。如选择永久会删除信息。

如选择[路径]标签,显示如下页面:



File System Connection, Paths tab


可从此页设置读取文档的路径。输入路径单击[添加]按钮,路径会添加到列表。输入路径请遵循ManifoldCF所运行的OS的格式。

每一个根路径,存在判断文档是否包含在作业中的规则。还可以在添加根路径到列表之后定义规则。每一个规则里可指定,匹配条件式,是否将文件或目录作为对象的标志,匹配时是包含还是排除文档。规则从上到下加以评价。首先使用文件名的匹配规则。为添加规则,从下拉菜单选择类型,并输入匹配条件(例:*.txt)。输入后单击[添加]按钮。

通用RSS存储库连接

RSS连接类型用来从RSS馈送生成索引。还可以使用Web连接类型从RSS馈送生成索引,RSS连接类型有以下功能:


  • 从馈送提取链接
  • 不会从馈送本身生成索引
  • 可详细设置重获馈送条件。另,可用不同方法处理通常文档
  • RSS连接类型可以将特定数据作为元数据从馈送附加在文档

在很多场合,使用RSS连接类型的作业会连续执行,设为不重读取文档,30天后文档失效。此设置经常在新闻的RSS馈送生成索引时使用。

RSS连接有四个固有标签:[邮箱],[机器人],[带宽],[代理服务器]。选择[邮箱]标签会显示如下页面:



RSS Connection, Email tab


请输入邮箱地址。所输入的邮箱地址,会包含在RSS连接的所有请求,可由服务器管理员参阅。如果限流器链接设置过大而服务器负荷过大时,服务器管理员会利用此邮箱地址进行联络。

此项目为必填。虽RSS连接不验证邮箱地址,作为网民请输入正确地址。另,服务器管理员可以改变设置排除[恶意]请求,所以设置限流器链接时还请考虑对方的服务器。

选择[机器人]标签会显示如下页面:



RSS Connection, Robots tab


从下拉菜单列表选择如何处理robots.txt。同时还请考虑对方服务器。

选择[带宽]标签会显示如下页面:



RSS Connection, Bandwidth tab


每一个服务器可设置一个连接获取数据时的最大传输率以及每一个服务器在每一分钟内的最大传输率。还可指定每一个服务器的最大套接字连接数。

设置例中的值为宽松的设置。注意在缺省下所有设置为空。此缺省设置下,限流器链接设置为空,会给服务器增加负荷。

[限流器链接组]用来将多个RSS类型连接的限流器链接设置集中在一起。具有相同链接组名的RSS类型连接会管理在同一个限流器链接池。

[带宽]标签和[限流器链接]标签有如下区别:


  • 从[带宽]标签设置最大值。而从[限流器链接]标签设置平均值。
  • 从[带宽]标签无法设置文档如何调度到队列。只用来延迟向队列的调度链接。即使在此等待时间也会使用线程。[限流器链接]标签因进行文档作业的调度链接,所以不会因等待时间而浪费线程。

由上述理由,建议同时设置RSS连接的[带宽]标签和[限流器链接]标签。在[带宽]标签设置最大传输率,在[限流器链接]标签平均传输率。RSS连接的文档ID为文档的URL。URL的bin名为服务器名。还有,[最大连接数/JVM]缺省为10。此值有时不适合于RSS连接类型。故建议为每一个工作线程配备连接。工作线程数缺省为30,建议将[最大连接数/JVM]设为30。

如使用代理服务器,从[代理服务器]标签输入代理服务器信息。RSS连接类型支持NTLM认证代理服务器。选择[代理服务器]标签会显示如下页面:



RSS Connection, Proxy tab


在[代理服务器主机]输入代理服务器服务器地址。在[代理服务器端口]输入代理服务器的端口号。需要认证时,请输入域名,用户名,密码。不使用代理服务器时,请将代理服务器的所有相关项目置为空。

输入信息后[保存]



RSS Status


在作业选择RSS连接类型,显示如下标签:[URL],[正规化],[映射],[时间],[安全],[元数据],[索引对象]。从[URL]标签指定作业对象RSS馈送信息。选择[URL]标签会显示如下页面:



RSS job, URLs tab


请输入要读取RSS馈送的URL,多个URL用换行符分隔。输入备注时,在行头输入[#]字符。

从[正规化]标签指定作业如何处理URL正规化。有时同一文档会附上不同URI。[正规化]功能,用来将这些URL视为同一个URI。比如,URI参数顺序不同也视为相同文档: a=1&b=2b=2&a=1指同一个文档。另外,还可以指定URI里有无会话cookie信息。

选择[正规化]标签,会显示下页面:



RSS job, Canonicalization tab


显示正规化规则列表。各规则由正则表达式(搜索对象URI)和条件项目构成。条件项目可指定有无参数顺序,会话cookie信息的排除等。可排除如下会话cookie信息:JSP(Java应用服务器),ASP(.NET),PHP,Broadvision(BV)。

规则和多个规则相匹配时,使用首个匹配规则。

添加规则,输入正则表达式,在条件项目打勾,单击[添加]按钮。

从[映射]标签可修改获取文档的URI。比如当获取企业内部网的文档时,可利用与一般用户不同的URI爬取文档。选择[映射]标签显示如下页面:



RSS job, Mappings tab


从[映射]标签可使用与ManifoldCF其它标签相同的正则表达式机制设置替换字符串。映射由规则构成。各规则由正则表达式的匹配式构成。转换源和值由括弧([(]和[)])括上。由括弧括上的部分称为[组]。替换字符串,由固定字符和替换组构成。比如,[$(1)]为首个匹配组,[$(1l)]为首个小写字符匹配组。同样[$(1u)]为大写字符匹配组。

比如,规则http://(.*)/(.*)/和替换字符串http://$(2)/,将http://Server/Folder_1/Filename替换成http://Folder_1/Filename

存在一个以上规则时,从上往下执行,上方规则的结果由下方规则覆盖。

添加规则,输入匹配条件和输出字符串并单击[添加]按钮。

选择[时间]标签会显示如下页面:



RSS job, Time Values tab


输入要设置的时间限制值。下面是项目说明:

说明
馈送超时服务器连接等待时间(秒)
缺省馈送重获时间馈送未设重获时间时所使用的时间(分)
最小重获时间不考虑馈送设置时间,比设置时间还要短的时间内不重获馈送的时间(分)
错误馈送重获时间重获解析错误馈送的等待时间(分,置空为无限)

从[安全]标签,可以设置作业使用的认证信息。使用前,需决定所使用的权限连接。选择[安全]标签会显示如下页面:



RSS job, Security tab


添加访问令牌,输入访问令牌值并单击[添加]按钮。无访问令牌时,作业安全视为无效。

从[元数据]标签,可以指定附上作业中所有文档的索引上的元数据。RSS连接类型文档,按如下标准附上元数据:

名称说明
PubDate文档生成时间(从1970年1月1日经过的毫秒)。无法获取生成日期时,使用文档的获取时间。
Source文档名称。
Title馈送内文档标题。
Category馈送内文档种类。

可从[元数据]标签添加任意元数据。选择[元数据]标签会显示如下页面:



RSS job, Metadata tab


输入元数据名和值,单击[添加]按钮添加到列表。

从[索引对象]标签,可指定从馈送概要生成索引而非文档。这可以在内容为象链接列表的馈送,馈送概要生成索引。选择[索引对象]标签会显示如下页面:



RSS job, Dechromed Content tab


请选择连接所使用的模式。

通用Web存储库连接

Web连接类型是指Web爬虫。支持基本认证,NTLM认证,会话认证。可以处理如下文档:


  • 文本
  • HTML
  • 通用XML
  • RSS馈送

Web连接类型和RSS连接类型相比,在以下功能有不同点:


  • 输出连接收到馈送时,从馈送生成索引。
  • 从所有文档提取链接。
  • 馈送的处理和其它文档相同-不能仅对一个设置重获取设置。
  • 可配备跳数限制。
  • 可放进URI集或从中排除。

Web连接类型设置比RSS连接类型还要复杂,无法进行RSS馈送的详细设置。所以,建立RSS索引时,建议使用RSS连接类型。

使用Web连接类型的多数作业,会持续执行,设置为要么定期重获文档,要么仅获一次文档不再获取,经过指定期间后变为无效。

选择Web连接类型会显示如下标签:[邮箱],[机器人],[带宽],[认证],[证书]。选择[邮箱]标签会显示如下页面:



Web Connection, Email tab


请输入邮箱地址。所输入的邮箱地址,会包含在RSS连接的所有请求,可由服务器管理员参阅。如果限流器链接设置过大而服务器负荷过大时,服务器管理员会利用此邮箱地址进行联络。

此项目为必填。虽RSS连接不验证邮箱地址,作为网民请输入正确地址。另,服务器管理员可以改变设置排除[恶意]请求,所以设置限流器链接时还请考虑对方的服务器。

选择[机器人]标签会显示如下页面:



Web Connection, Robots tab


从下拉菜单列表选择如何处理robots.txt。同时还请考虑对方服务器。

从[带宽]标签可设置带宽规则列表。每一个规则指定用来选择URL限流器bin的正则表达式。Web类型的限流器ルbin为URI的服务器名。每一个规则可指定最大带宽,连接数,读取率。可以生成任意数量的规则。若URL匹配于多个规则,会使用最为保守的规则。

选择[带宽]标签会显示如下页面:



Web Connection, Bandwidth tab


设置例的值设得较为和善。注意缺省状态下所有设置为空白。此缺省设置下,无限流器链接,从而会加大服务器负荷带来影响。

添加规则,输入正则表达式和限制值单击[添加]按钮。

[带宽]标签和[限流器链接]标签有如下不同:


  • 从[带宽]标签可设置最大值。可从[限流器链接]标签设置平均值。
  • 从[带宽]标签不能设置文档如何调度到队列。只会延迟队列调度。此等待时间内线程仍可使用。[限流器链接]标签用来调度文档作业,不会应等待时间而浪费线程。

由上述理由,在RSS连接建议同时设置[带宽]和[限流器链接]两个标签。最大传输率在[带宽]标签设置,平均传输率在[限流器链接]标签设置。RSS连接的文档ID为文档URL。URL的bin名为服务器名。还有,[最大连接数/JVM]缺省为10。此值,对RSS连接类型而言很有可能并非是最佳值。建议为每一个工作线程配备一个连接。缺省工作线程数为30,故推荐将[最大连接数/JVM]设置为30。

从Web连接[认证]标签可指定页面认证方法。支持页面认证(例:基本认证,NTLM认证)及会话认证(登录会话)。[认证]标签的首页显示这两种认证方法:



Web Connection, Access Credentials tab


可按认证方法配备规则列表。

设置页面认证时,指定认证所需的URI,认证方法和其用户/密码。输入这些项目后单击[添加]按钮。

设置会话认证时,需要些许检查。受会话保护的每一个网站或许需要配备会话认证规则。每一个网站需要如下信息:


  • 受会话安全保护的页面的URI。
  • 登录处理中获取页面的手续。
  • 在登录页面登录信息时的输入方法。

Web连接将登录处理中的页面称为[login pages],受保护的页面称为[content pages]。Web连接不生成登录页索引。因为登录页仅用来输入认证信息而不包含文档信息。

另外,还需考虑初次访问网站或因会话切断而需登录时如何获取文档。两种情况,均需适用会话认证规则来获取文档。ManifoldCF框架里无法控制何时获取文档或重新获取。

根据登录页URI及有特征的的内容显示登录页。比如,有些网站当会话无效时会重返登录页。此时,会获取重回登录页的信息,而非获取文档。一般来说,登录页及重定向信息和文档区別开来不生成索引。此时,登录三个登录信息:一个是登录页的重定向,另一个为登录页URL,最后一个为登录表单的发送目标。在登录页设置登录信息加以发送。

Web连接可将如下内容视为登录页:


  • 特定URI(匹配正则表达式)的重定向
  • 指定名称(匹配正则表达式)表单(FORM)的存在页
  • 包含向特定页的链接(匹配正则表达式)的页面

添加会话认证规则时,输入确定受保护页的正则表达式单击[添加]按钮。显示如下页面:



Web Connection, Access Credentials tab


在新生成的规则可输入登录页信息。输入登录页信息,URI正则表达式,登录页类型,目标链接或表单名正则表达式,单击[添加]按钮。

添加[表单]型登录页时,可在如下表单输入登录信息:



Web Connection, Access Credentials tab


请设置表单项目的输入值。不显示输入内容时,在[密码]列输入而不是[值]列。表单项目名可通过显示登录页HTML源代码来调查。输入后单击[添加]按钮。

未指定的表单项目被设为登录页的缺省值。当前版本不支持Javascript。在登录表单使用Javascript时,请事先计算脚本语言的结果登録之。包含复杂的Javascript时,寻找设置值有时需要很长时间。

多个登录页表单是网站的[登录页步骤]。Web连接,每一个登录页通过登录页条件决定下一个获取内容。比如,重定向到特定URI时,获取重定向URI。表单的话,通过表单action获取指定页。指向目标的链接时,获取目标URI。最后的登录页手順,获取在Web连接开始登录步骤之前应获取的页面。

调试会话认证时,建议参照Web连接的简易历史记录报告。可通过Web连接的事件历史记录了解大体的运行状况。存在如下事件:


事件类型说明
Fetch获取URI的历史记录。HTTP的返回值记录为相应代码。HTTP处理失败或不完整时事件记录为负值。
Begin login执行登录步骤时被记录。执行登录步骤时,直到登录结束为止无法从受保护网站获取文档。
End login从登录步骤手順回到获取元文档时被记录。回到获取元文档时,和网站并行重新获取文档。

[证书]标签和SSL一起使用,设置可信赖正则表达式和匹配URI的证书信息。还可以信任所有证书。选择[证书]标签会显示如下页面:



Web Connection, Certificates tab


输入URI正则表达式,选择[信任所有]复选框,或参阅证书。(虽可以信任服务器证书,但有时证书会过期)。添加证书到列表时单击[添加]按钮。

输入后单击[保存]按钮,将显示如下设置内容的概要:



Web Status


在作业当选择Web类型存储库连接,会显示标签:[跳过滤器],[种子],[正规化],[包含],[排除],[安全],[元数据]。

从[跳过滤器]标签,可以指定从种子文档的最大跳数。Web类型连接有两种跳数:[链接]跳[重定向]跳。每一个跳类型可设置最大数。置空时,视为无限。

比如,将最大[链接]跳数设为5,[重定向]跳数置为空,从种子文档的跳数超过5的文档被排除在外。最大[链接]跳数设为5,最大[重定向]跳数为2时,从种子文档的跳数超过5跳重定向跳数超过2的文档被排除在外。

选择[跳过滤器]标签会显示如下页面:



Web Job, Hop Filters tab


此页可指定当从根的文档跳数改变时的动作。如选择[删除无法读取的文档],当发现变化时,会重新计算所有相关文档的深度。重计算会增加服务器的负荷。如不需重新计算,可设为临时无效或永久无效。如选择永久会删除信息。

从[种子]标签指定开始爬取的邮箱文档。选择[种子]标签会显示如下页面:



Web Job, Seeds tab


请将种子分行输入。空行及始于[#]的行被忽略。

从[正规化]标签还可输入将URI转换为标准格式的规则。选择[正规化]标签会显示如下页面:



Web Job, Canonicalization tab


显示正规化规则列表,各规则由正则表达式(搜索对象URI)和条件项构成。条件项还可指定有无参数顺序或排除会话cookie信息等。可排除如下会话cookie信息:JSP(Java应用服务器),ASP(.NET),PHP,Broadvision(BV)。

规则匹配多个规则时,使用第一个匹配规则。

添加规则时,输入正则表达式,选择条件项的复选框,单击[添加]按钮。

从[包含]标签指定包含在Web作业的URI正则表达式列表。选择[包含]标签会显示如下页面:



Web Job, Inclusions tab


请将0以上正则表达式分行指定。

Web作业在缺省情况下,包含和种子链接的互联网上所有文档。

如要限制对象文档,从[排除]标签指定。选择[排除]标签会显示如下页面:



Web Job, Exclusions tab


请将0以上正则表达式分行指定。建议排除无法生成索引的文档,或无需索引的文档。比如动画或视频等无法生成索引的文档应排除在外。

可从[安全]标签为Web作业要建立索引的文档指定访问令牌。选择[安全]标签会显示如下页面:



Web Job, Security tab


向文档添加安全之前,需要访问令牌格式信息。输入访问令牌并单击[添加]按钮。

可从[元数据]标签向文档附上元数据。选择[元数据]标签会显示如下页面:



Web Job, Metadata tab


输入要设置元数据名和值并单击[添加]按钮。

Windows Share/DFS存储库连接

Windows共享连接类型,用来为Windows共享文件夹中的文档建立索引。还可从Windows以外OS系统使用。支持Samba或第三方NAS服务器。

支持所有DFS节点和参照。但前提是,所参照服务器名必须可从ManifoldCF安装服务器所使用的DNS访问。Windows共享连接,为每一个文档生成索引ID。索引ID为[file:]IRI或[http:]URI。可灵活配置环境,但设置需要些许时间。特别是使用文件IRI时,请确认系统搜索组件是否正确配置。从象Internet Explorer的Web浏览器阅读Windows文件系统文档,将象\\servername\sharename\dir1\filename.txt的地址转换为file://///servername/sharename/dir1/filename.txtIRI。貌似简单,但文件名包含空白,[#],英数以外字符时变为复杂。根据Internet Explorer版本会出现不同处理方法,故转换Windows共享文件路径为IRI的方法也并不唯一。理想的做法是,连接中使用标准正规化地址,系统为Web浏览器及客户端通过正确的方法转换索引结果。

在具有权限的Windows共享存储库连接爬取文档时,请事先生成ActiveDirectory权限连接器。

Windows共享连接在存储库连接编辑页有一个固有标签:[服务器]标签。选择[服务器]标签会显示如下页面:



Windows Share Connection, Server tab


请输入连接服务器名。服务器名,可以指定实际服务器名或域名(当连接到Windows域DFS根时)。输入实际服务器名时,服务器名输入未修饰名,[域名]输入完整修饰域名。用户名输入未修饰名(例:不是[Administrator@mydomain.com],而是[Administrator])。有时[域名]值为空,[服务器]输入完整修饰服务器名。但是,不要同时输入域名和完整修饰服务器名。

"Use SIDs"选择框,控制连接是否将SIDs使用为访问令牌(这适用于受Active Directory安全控制的Windows服务器或NAS服务器等),或是否使用用户/组名(适用于和Samba服务器,LDAP权限连接类型连动起来使用LDAP的CIFS服务器)。使用SIDs请打勾。

为减轻服务器方的负荷,推荐[限流器链接]标签的[最大连接数/JVM]修改为少于缺省值10。Windows的多线程性能并不高。设置为5以下其获取性能不会有太大变化。

输入后单击[保存]按钮。显示如下设置概要:



Windows Share Status


画面示例,Windows共享连接因服务器无法连接而出错。

作业中选择Windows共享类型,会显示如下标签:[路径],[安全],[元数据],[Content Length],[文件映射],[URL映射]。

选择[路径]标签会显示如下页面:



Windows Share Job, Paths tab


指定从此页的起点路径,添加生成路径,可以从现有路径列表删除路径。不指定起点路径,作业不会拥有对象文档。

确认连接状态为[起動]。出错时,路径不会生成。

针对所包含的每一个路径,显示为确定作业的对象文件夹及文档的规则列表。规则从上而下加以评价。使用首个匹配规则。

各规则指定用来确定路径的条件。各规则包括指定,文件名条件(例:[*.txt]),是否确定文件或文件夹名,是否在输出连接从文件建立索引,是否包含文件等。文件名指定还可以使用通配符[*]和[?]。[*]和0或0以上任意字符相匹配。[?]和任意1字符匹配。其它字符需按定义匹配。

添加起点路径规则时,从下拉菜单选择值,输入文件选择条件,并单击[添加]按钮。在现有规则上添加规则时单击[插入]按钮。

选择[安全]标签会显示如下页面:



Windows Share Job, Security tab


从[安全]标签可设置下述3功能:文件安全,共享安全,作业中生成索引的所有文档的安全令牌(安全设为无效时)。

文件安全,Windows运用在各文件的安全。 在几乎所有Windows兼容的NAS类型服务器。

共享安全是指,Windows在Windows共享文件夹使用的安全。这是较旧的安全机制,使用此安全的用户越来越少。最新NAS系统或Samba有时未被支持。在不支持Windows共享安全的系统中此连接器无法正常使用。试图获取文档会发生错误,作业会中断。

如文件安全设为无效,可以向作业所爬取的所有文档添加索引访问令牌。但是此令牌需和服务器令牌相匹配。输入令牌单击[添加]按钮。此功能除了演示很少被使用。

选择[元数据]标签会显示如下页面:



Windows Share Job, Metadata tab


设置可将由正则表达式转换而成的文档路径作为文档元数据加以获取。输入元数据名到[路径属性名]后,添加规则到规则列表。各规则由相应正则表达式构成。转换源和值由括弧([(]和[)])括上。由括弧括上的部分称为[组]。替换字符串由固定字符和替换组构成。比如,[$(1)]表示首个匹配组,[$(1l)]表示首个小写字符匹配组。同样[$(1u)]表示大写字符匹配组。

比如,规则http://(.*)/(.*)/和替换字符串http://$(2)/,将http://Server/Folder_1/Filename置换成http://Folder_1/Filename

如存在一个以上规则,从上往下执行,上方规则结果由下方规则覆盖。

选择[Content Length]标签会显示如下页面:



Windows Share Job, Content Length tab


为使作业不生成长文档,可指定文档处理的最大长度。超过指定长的文档,在指定长度被切断。请输入最大长度。如不设最大长度时,请置空。

选择[文件映射]标签会显示如下页面:



Windows Share Job, File Mapping tab


文件映射的设置和路径属性映射相同。文件映射将转换实际的文件路径。使用于当元文档和提取数据间需要转换的情况。

选择[URL映射]标签显示如下页面:



Windows Share Job, URL Mapping tab


URL映射的设置和路径属性映射相同。映射不存在时,文件路径转换为标准文件IRI。映射存在时,作为前提应能转换为通过Windows共享HTTP服务器获取的正确URI。

Wiki存储库连接

Wiki存储库连接类型,用来从Wiki及MediaWiki网站的文档生成索引。Wiki存储库连接类型通过Wiki API获取文档。仅从一般公开的内容生成索引,无需认证设置。

在存储库编辑页,选择Wiki连接,显示[服务器]标签。选择[服务器]标签会显示如下页面:



Wiki Connection, Server tab


协议可从[协议]下拉列表选择。当前版本只支持[http]协议。输入服务器名到项目[服务器名],端口号到项目[端口]。最后,输入Wiki的URI到项目[路径名]。URI的头字符应为[/]。

当前版本不存在作业的存储库连接不存在Wiki类型固有标签。

通用数据库存储库连接

通用数据库连接类型从下述数据库表格内容生成索引:


  • Postgresql (Postgresql JDBC驱动程序)
  • SQL Server (JTDS JDBC驱动程序)
  • Oracle (Oracle JDBC驱动程序)
  • Sybase (JTDS JDBC驱动程序)
  • MySQL (MySQL JDBC驱动程序)

如使用其它数据库需要修改软件。根据数据库的设置,无法使用某些数据库。

通用数据库连接类型不支持文档単位的安全。但是,可以按作业指定所有文档的安全。设置需要访问令牌。

从存储库连接编辑页选择通用数据库连接,看到三个标签:[数据库类型],[服务器],[认证]。选择[数据库类型]标签会显示如下页面:



Generic Database Connection, Database Type tab


请从下拉菜单选择建立索引的数据库类型。

还有,从下拉菜单选择JDBC访问方式。此访问方式遵循JDBC规格,而获取列名方法在各个JDBC驱动程序会有所不同。目前,"by name"选项可运行在除MySQL驱动程序在外的的列表内所有JDBC驱动程序。"by label"可运行于现在的MySQL驱动程序,或许亦可运行在其它驱动程序。当通用数据库的作业中定义的查询非正常运行时,或显示无法找到列的出错信息时,或许通过改变此下拉菜单得以解決。

选择[服务器]标签会显示如下页面:



Generic Database Connection, Server tab


输入服务器名和端口号到项目[数据库主机和端口]。比如,Oracle数据库的缺省端口号是1521,可输入[my-oracle-server:1521]。Postgresql的缺省端口号为5432,应输入[my-postgresql-server:5432]。SQL Server的缺省端口号为1433,输入[my-sql-server:1433]。

服务名及实例名请输入所使用数据库的实例名。Oracle及Postgresql,输入数据库名。SQL Server输入[my-instance-name/my-database-name]。使用SQL Server缺省实例时,只输入数据库。

选择[认证]标签会显示如下页面:



Generic Database Connection, Credentials tab


请输入连接数据库所需的用户认证信息。

输入后单击[保存]按钮。会显示如下设置内容概要页面:



Generic Database Status


画面示例中通用数据库连接因无法连接到数据库而出错。

作业的存储库连接中选择通用数据库连接类型,会显示[查询]和[安全]标签。

选择[查询]标签会显示如下页面:



Generic Database Job, Queries tab


需至少设置两个查询(从第三个查询为任意)。基于这些查询,从数据库获取文档。输入查询之前,先决定如何将数据库结构联系到ManifoldCF框架结构。


  • 获取在某时间段发生添加及更改的文档ID列表(参阅下述内容)。
  • 从文档ID获取版本信息(参阅下述内容)。
  • 从文档ID和版本信息获取文档信息。文档信息由文档内容,URI,元数据构成。

ManifoldCF使用ID识别存储库连接内的所有文档。此ID将成为获取文档时的主键。在作业的通用数据库类型中所使用的数据库也需类似的概念。错误选择ID,会导致处理变慢。

需获取在某时间段的所有更新文档ID列表。也可添加未更新文档的ID到列表,但并非最适。

设置为添加文档时,还要设置[版本信息]。利用此字符串检查文档是否修改过。更改索引时,此版本信息亦需变化。(因其它原因发生变化也不成问题。)

连接中使用所输入的查询之前,首先将查询中的替换字符串转变为实际值。缺省状态下被输入的查询使用典型的替换字符串。比如,[$(IDCOLUMN)]被替换成连接使用的ID字段名。其它替换字符串如下所示:


名称说明
IDCOLUMN包含文档ID的结果集的列
VERSIONCOLUMN包含版本信息的结果集的列
URLCOLUMN包含URI的结果集的列
DATACOLUMN包含文档数据的结果集的列
STARTTIME开始时间。从1970年1月1日的经过时间(毫秒)
ENDTIME结束时间。从1970年1月1日的经过时间(毫秒)
IDLIST由括弧括上的文档ID列表

注意,当生成包含时间替换字符串的查询时,[$(STARTTIME)]和[$(ENDTIME)]被替换成从1970年1月1日所经过时间的毫秒值。建议将[$(STARTTIME)]和[$(ENDTIME)]替换成系统时间。

下面是将[$(STARTTIME)]和[$(ENDTIME)]转换为其它格式的日期和时间的样本查询部分。首列为查询语句支持的SQL数据库。第2列为查询输出数据类型。第3列为,[$(STARTTIME)]的使用例。这些是查询的例子。当所更改的数据类型不同于第2列数据类型时,会无法正确比較日期。


数据库类型查询样本
OracledateTO_DATE ( '1970/01/01:00:00:00', 'yyyy/mm/dd:hh:mi:ss') + ROUND ($(STARTTIME)/86400000)
OracletimestampTO_TIMESTAMP('1970-01-01 00:00:00') + interval '$(STARTTIME)/1000' second
Postgres SQLtimestampdate '1970-01-01' + interval '$(STARTTIME) milliseconds'
MS SQL Server ($>$6.5)datetimeDATEADD(ms, $(STARTTIME), '19700101')
Sybase (10+)datetimeDATEADD(ms, $(STARTTIME), '19700101')

当生成使用通用数据连接的作业时,作业的查询中已输入样本查询。查询返回列请参考此。在很多场合,仅样本的返回列就已足够。但是,文件数据查询时会返回其它列。此时,列值作为文档的元数据传到索引。元数据名将成为结果集列名。

在[安全]标签,向通用数据库作业中所生成索引的文档添加访问令牌。被添加的令牌决定使用哪一个权限连接,并依赖于此权限连接的访问令牌。选择[安全]标签会显示如下页面:



Generic Database Job, Security tab


选择访问令牌,并选择[添加]按钮。还可设置多个访问令牌。

IBM FileNet P8存储库连接

EMC Documentum存储库连接

EMC Documentum连接类型,用来从Documentum Content Server实例文档生成索引。可通过一个连接获取一个Content Server实例的所有文档。为多个Content Server实例的文档生成索引时,需为每服务器实例定义连接。

Documentum连接类型,可从每Content Server实例的dm_document型及其派生类的所有Documentum文档建立索引。还支持复合文档结构。不支持其它Documentum结构。

Documentum连接所处理的文档使用Documentum权限连接管理权限。使用Documentum权限时请参阅[EMC Documentum权限连接]。

选择Documentum连接会显示如下标签:[Docbase],[Webtop]。从[Docbase]标签指定要连接的文档服务器并设置认证信息。索引生成后,从[Webtop]标签指定用来显示文档服务器内容的Webtop服务器。

选择[Docbase]标签会显示如下页面:



Documentum Connection, Docbase tab


请输入文档服务器Docbase实例名和认证信息。文档服务器实例未被集成到ActiveDirectory时,[域名]置为空。

选择[Webtop]标签会显示如下页面:



Documentum Connection, Docbase tab


输入Webtop实例的基URI。此URI仅在用户参照元文档时才被使用。不使用在爬取。

输入后单击[保存]按钮。会显示如下设置内容的概要和状态:



Documentum Connection Status


状态显示出错信息时,请修改设置内容。

作业中选择Documentum连接,会显示下述标签:[路径],[文档类型],[内容类型],[安全],[路径元数据]。

从[路径]标签可以设置用来读取文档的Documentum内路径。路径未被设置时,所有文档成为读取对象。

从[文档类型]标签,指定读取对象的文档类型。只许从由系统管理员指定索引对象的dm_document派生的文档类型。另外,可针对每一个建立索引的文档类型指定包含元数据。包含文档类型所有元数据时请在[所有元数据]复选框选中。

从[文档类型]标签,可以指定文档集所包含Documentum的mime类型。在包含类型选中,从排除类型清除。

从[安全]标签,可以将此作业的Documentum安全设为有效/无效。要Documentum安全设为无效时请选择[无效]单选框。当无效时,可以设置用来获取作业所有文档的访问令牌。访问令牌依赖于所使用的权限连接类型。每输入访问令牌请单击[添加]按钮。

从[路径元数据]标签,可指定按文档将路径信息作为元数据发给索引。发送时,输入元数据属性名到项目[路径属性名],添加规则到规则列表。各规则由相应正则表达式构成。转换源和值用括号([(]和[)])括上。由括弧括上的部分称为[组]。替换字符串,由固定字符和替换组构成。比如,[$(1)]表示首个匹配组,[$(1l)]表示首个小写字符的匹配组。同样[$(1u)]表示大写字符的匹配组。

比如,规则的匹配条件为.*/(.*)/(.*)/.*,替换字符串为$(1) $(2)/时,路径Project/Folder_1/Folder_2/Filename转换为Folder_1 Folder_2

存在一个以上规则时,将从上往下执行,上方规则的结果会被下方规则覆盖。

Dropbox存储库连接

Dropbox存储库连接,可从Dropbox的内容建立索引。

每一个Dropbox连接,管理一个指向Dropbox存储库的访问。这意味着如使用不同用户拥有多个时,需对每一个Dropbox存储库建立连接,并需准备相关权限信息。


一个Dropbox连接,在存储库连接的编辑画面拥有如下参数可设置。



Dropbox Repository Connection, configuration parameters


为连接到[连接],需要四个信息。Application Key和Application Secret,当以开发版权登录你的应用程序时,由Dropbox提供。通常通过应用开发人员用Dropbox website



Dropbox create application


这里的用途是,为和Dropbox交流而使用REST服务,作为应用类型需选择"Core"。另,选择"full access"。在此还存在些许争论。关于用来保存或获取信息的应用程序,通常通过应用程序的固有文件夹进行完全访问。这里假定用户仅访问用户的文件,而不拷贝到manifoldcf的固有文件夹。结果,选择"App folder"而不是"full access"。



Dropbox get key and secret passwords


而后,可看到此连接器要求的两个信息,App key和App secret。

这里,每一个用户许确认用户的应用程序被允许访问Dropbox。这通过一般的OAUTH手段来实现。当用户应用程序被提供key和secret之后,用户将被要求,向Dropbox的网站发出请求来给予用户应用程序相应权限。如请求被接受,Dropbox将提供client key和secret。此key和secret,Dropbox连接器所需的最后亮点。关于此过程更详细的内容,在dropbox website有关于如何生成这两个client令牌的说明和示例。




单击保存按钮,看到如下连接概要页面。



Dropbox Repository Connection, saving configuration


当已设置使用Dropbox存储库连接的作业,会显示添加标签"Dropbox Folder to Index"。



Dropbox Repository Connection, Dropbox Folder to Index


在此标签,可指定Dropbox连接器要建立索引的目标目录。Dropbox使用unix风格的路径。"/"表示根路径(意味着指定所有Dropbox)。比如,要为Photos目录建立索引时,指定为"/Photos"。

注意,Dropbox连接器当获取处理中,针对每一个结果,如发现文件夹层,试图获取所有其子文件夹。如不是文件夹,会直接获取文档。

设置完作业,单击保存按钮,看到如下概要页。



CMIS Repository Connection, saving job


OpenText LiveLink存储库连接

OpenText LiveLink连接类型,从LiveLink存储库的文档建立索引。LiveLink包括基本文档,复合文档,文件夹,工作区,工程等多种文档类型。LiveLink连接可处理所有上述文档类型的文档。

LiveLink连接所处理文档的安全由LiveLink权限管理。关于LiveLink权限连接请参阅[OpenText LiveLink权限连接]。

选择LiveLink连接会显示如下标签:[服务器],[文档访问],[文档显示]。从[服务器]标签,可选择要连接LiveLink服务器并设置连接所需的认证信息。从[文档访问]标签设置通过LiveLink获取文档所需的LiveLink的web接口信息。从[文档显示]标签,为显示搜索结果,指定获取文档URI的生成方法。

选择[服务器]标签会显示如下页面:



LiveLink Connection, Server tab


请输入LiveLink服务器名,端口号,认证信息。

选择[访问文档]标签会显示如下页面:



LiveLink Connection, Document Access tab


服务器名假定为和[服务器]标签的输入值一致。请选择协议。当LiveLink服务器将使用HTTP非缺省端口号,请输入端口号。LiveLink服务器使用NTLM认证时,请输入ActiveDirectory用户名,密码和域名。LiveLink服务器使用HTTPS时,单击[添加]按钮上传证书。(也可以使用服务器的证书,但注意服务器的证书可能发生变化。)

选择[显示文档]标签会显示如下页面:



LiveLink Connection, Document Viewtab


如要各文档的显示URI和访问URI保持一致,请不要更改内容。搜索结果显示在不同CGI时,在此页加以设置。

输入后单击[保存]按钮,会显示如下设置内容概要页:



LiveLink Connection Status


如显示出错信息,请修改设置。示例页面中设置正确,故连接状态显示为[起動]。

在作业选择LiveLink连接会显示如下标签:[路径],[过滤器],[安全],[元数据]。

从[路径]标签设置LiveLink要建立索引的起点路径列表。选择[路径]标签会显示如下页面:



LiveLink Job, Paths tab


请选择下拉列表单击[+]按钮生成路径。生成完路径单击[添加]按钮添加到列表。

从[过滤器]标签指定LiveLink作业的处理对象中包含/排除的文档条件。文件为规则列表。各规则定义指定路径条件。各规则指定文件名条件(例:[*.txt]),指定是否确定文件或文件夹名,是否在输出连接从文件生成索引,是否包含或排除文件。文件名可用通配符[*]和[?]指定。[*]匹配于0或0以上任意字符。[?]和任意1字符匹配。其它字符需按定义匹配。



LiveLink Job, Filters tab


输入匹配条件,并选择匹配时的处理后单击[添加]按钮将规则添加到过滤器列表。

从[安全]标签可将作业中对象文档的LiveLink安全设为无效/有效。选择[安全]标签会显示如下页面:



LiveLink Job, Security tab


如安全设为无效,可在作业中要建立索引的所有文档指定访问令牌。访问令牌的格式依赖于作业中存储库连接所使用的权限。输入令牌单击[添加]按钮添加到列表。

从[元数据]标签可指定传给索引的LiveLink元数据。选择[元数据]标签会显示如下页面:



LiveLink Job, Metadata tab


当将LiveLink的所有元数据传给索引时,请在[所有元数据]单选框打勾。仅传给特定元数据是,把LiveLink元数据路径添加到元数据列表。选择如下元数据语句单击[+]按钮添加到路径。也可以添加文件夹信息,元数据种类。

到达元数据种类处,要么选择元数据属性,要么在[此种类所有属性]复选框打勾。输入完单击[添加]按钮来添加要包含在索引的元数据属性。

从[路径元数据]标签文档,指定将每一个路径信息作为元数据发送到索引。发送时,在[路径属性名]项输入元数据属性名,将规则添加到规则列表。各规则由响应正则表达式构成。转换源和值用括号([(]和[)])括上。由括号括上的部分称为[组]。替换字符串,由固定字符和替换组构成。比如,[$(1)]表示首个匹配组,[$(1l)]表示首个匹配的小写字符的组。同样[$(1u)]表示和大写字符相配的组。

比如,规则的匹配条件为.*/(.*)/(.*)/.*,替换字符串为$(1) $(2)/时,路径Project/Folder_1/Folder_2/Filename将被转换成Folder_1 Folder_2

存在一个或一个以上规则时,从上往下执行,上方规则的结果由下方规则覆盖。

Memex Patriarch存储库连接

Memex Patriach连接用来建立Memex服务器文档的索引。

Memex连接所处理文档的安全由Memex权限管理。关于Memex权限连接的设置请参阅[Memex Patriarch权限连接]。

从存储库连接编辑页选择Memex连接会显示如下标签:[Memex服务器],[Web服务器]。选择[Memex服务器]标签会显示如下页面:



Memex Connection, Memex Server tab


请输入Memex服务器名,连接端口号等具有获取文档权限的Memex用户认证信息。另外,请输入Memex服务器所使用的字符编码和时区。

选择[Web服务器]标签会看到如下页面:



Memex Connection, Web Server tab


请给每一个Memex文档输入可生成唯一URL的信息。选择协议,输入服务器名和端口号。

输入后单击[保存]按钮。会显示如下状态页:



Memex Connection Status


从作业选择Memex连接会显示如下标签:[记录条件],[实体],[安全]。

Meridio存储库连接

Autonomy Meridio连接,从Merido服务器的文档生成索引。Meridio的体系结构允许将服务分布于多个服务器(比如:文档服务和记录服务运行在不同的服务器)。因此,Meridio连接类型,可为每一个Meridio服务器进行设置。

Meridio连接所处理文档的安全使用Meridio权限。关于Meridio权限连接请参阅[Meridio权限连接]。

从存储库连接页选择Meridio连接选择如会显示如下标签:[文档服务器],[记录服务器],[Web客户端],[认证]。选择[文档服务器]标签会显示如下页面:



Meridio Connection, Document Server tab


选择协议并输入服务器名,端口号,Meridio文档服务器服务地址。使用代理服务器时,输入代理服务器主机地址和端口号。当前版本不支持认证代理服务器。

Meridio系统时,虽可为每一个不同的服务配备服务器,通常多个服务运行在同一个服务器。但是,从连接类型设置还可以指定不同的服务器。

如选择[记录服务器]标签,会显示如下页面:



Meridio Connection, Records Server tab


请输入协议,服务器名,端口号,Meridio记录服务器服务地址。使用代理服务器时,请输入代理服务器主机和端口号。当前版本不支持认证代理服务器。

虽Meridio系统可为每一个服务配备不同服务器,通常多个服务运行在同一台服务器。但是,从连接类型设置还可以指定不同的服务器。

选择[Web客户端]标签会显示如下页面:



Meridio Connection, Web Client tab


从[Meridio连接Web客户端]标签针对每一个用以生成索引的内容而生成URI。选择协议,并输入服务器名,端口号,Miridio Web客户端服务地址。因不会从此服务获取文档,故无需代理服务器信息。

选择[认证]标签,会显示如下页面:



Meridio Connection, Credentials tab


请输入Meridio系统的用户认证信息。

输入后单击[保存]按钮。显示如下页面:



Meridio Connection Status


所显示画面中因Meridio权限服务器无法连接到Windows域名而出错。

Meridio使用Windows IIS的认证功能。IIS及Windows域名设置有误时,Meridio也会无法正常运行。如发生问题,请咨询Meridio技术负责人。还可使用如下调试工具:


  • Windows安全事件日志
  • ManifoldCF日志(以参阅下述内容)
  • 数据包截取器(使用WireShark等工具)

需要其它ManifoldCF日志信息时需修改软件。

从作业选择Meridio连接会显示如下标签:[搜索路径],[文档类型],[种类],[数据类型],[安全],[元数据]。

Microsoft SharePoint存储库连接

Microsoft SharePoint连接类型,生成Microsoft SharePoint网站的文档索引。可以在SharePoint服务器建立多个网站。SharePoint包括相关网站(比如子网站的场合)和单独网站。

SharePoint连接类型设计为,由一个SharePoint存储库连接通过根网站的明示子网站访问所有SharePoint网站。尤其大型SharePoint网站要求从一个连接访问所有SharePoint网站。但是当前版本的ManifoldCF未支持。

SharePoint以web URI作为地址访问网站,子网站,库,文件。因此,检查SharePoint连接类型首选方法是利用web浏览器从爬取对象根网站顺次打开页面,记录URL。

在很多场合,SharePoint连接所处理文档的安全由ActiveDirectory管理。生成ActiveDirectory权限,请参照[ActiveDirectory权限连接]。

从存储库连接编辑选择SharePoint连接,会看到[服务器]标签。选择[服务器]标签显示如下页面:



SharePoint Connection, Server tab


请从下拉菜单选择SharePoint服务器版本。如版本选择有误,导致无法生成索引或无法正确获取权限信息。

选择服务器协议,参照从SharePoint网站记录下的URI,输入服务器名和端口号。[网站路径]项输入根网站URI的服务器地址和端口号以后的除最后[aspx]文件以外字符串。比如SharePoint URI为[http://myserver:81/sites/somewhere/index.asp]时,网站路径为[/sites/somewhere]。

使用SharePoint认证登录到根网站。SharePoint连接类型的用户名必须以[domain\user]格式输入。

SharePoint服务器使用SSL时,请设置SharePoint服务器的SSL服务器认证服务器证书或来自认证局的证书。从参照选择证书,单击[添加]按钮。

单击[保存]按钮显示如下连接设置概要页面:



SharePoint Status


画面示例中因SharePoint连接无法访问SharePoint实例而显示出错信息。

SharePoint使用Windows IIS加以认证。注意有时因SharePoint所运行的IIS及Windows域名出现问题导致SharePoint连接无法正常运行。如发生问题可使用下述调试工具:


  • Windows安全事件日志
  • ManifoldCF日志(参阅下述内容)
  • 数据包截取器(使用WireShark等工具)

如需非标准的日志信息需修改软件。

选择SharePoint存储库连接,显示如下标签:[路径],[安全],[元数据]。

可从[路径]标签生成规则列表,指定包含在或排除于作业的SharePoint文档。SharePoint连接类型发现子网站,库,文件时,将参照此规则列表判断是否包含或排除。首先使用匹配规则。

各规则由路径,规则类型,处理所构成。处理指[包含]或[排除]。规则类型用来区分为当前连接使用何种SharePoint实体。比如,[文件]规则仅在SharePoint路径为文件时才会匹配,不会匹配于网站及库。路径为字符串。还可以使用通配符[*]和[?]。[*]和0或以上的任意字符相配。[?]和任意1字符相匹配。其它字符需按字面匹配。

还可以定义默认的匹配规则。当选择[包含]的[文件],网站和库也默认地视为[包含]。比如,当[/MySite/MyLibrary/MyFile]定义为[包含]规则,["/MySite]网站的包含规则和[/MySite/MyLibrary]库的包含规则也被默认地定义。同样定义库的包含规则也意味着定义了网站的包含规则。这些默认规则只适用于[包含]规则。排除规则不存在默认规则。

还可以从[路径]标签生成规则并添加或插入到列表。选择[路径]标签会显示如下页面。连接没有正常运行时,下拉菜单所显示的项目会减少。



SharePoint Job, Paths tab


要定义规则,首先指定相应路径。选择输入或路径单击[添加网站]按钮,[添加库]按钮,[添加文本]按钮中的一个。请重复添加操作直到完全指定路径为止。SharePoint连接无法判断路径实体时,请手动选择SharePoint实体。然后选择是[包含]还是[排除]规则。最后,单击[添加新规则]按钮将规则添加到规则列表。

从[安全]标签可指定是否将SharePoint安全应用于文档。还可以针对作业对象文档附上访问令牌。选择[安全]标签会显示如下页面:



SharePoint Job, Security tab


请选择SharePoint安全的有效/无效单选框。当安全设为无效时,可以设置访问令牌。输入访问令牌,单击[添加]按钮。访问令牌应设为SharePoint连接可以使用的格式。

从[元数据]标签可以指定包含在各文档的元数据。[元数据]标签内容类似于[路径]标签。选择[元数据]标签会显示如下页面:



SharePoint Job, Security tab


和[路径]标签的区别在于,定义文档包含/排除的元数据,而不定义各个网站,库,文档的包含/排除规则。因元数据只适用于文件,不存在针对网站及库的元数据路径规则。

当排除规则匹配文件路径时,该文件的所有元数据将被排除。不能从排除规则排除个别项目。

定义规则,首先指定相应路径。选择或输入路径并单击[添加网站]按钮,[添加库]按钮,[添加文本]按钮中的一个。重复添加直至设置完整路径。当SharePoint连接无法判断路径实体时,请手动选择SharePoint实体。然后选择是[包含]还是[排除]规则。最后单击[添加新规则]按钮添加规则到规则列表。

可以从[路径元数据]标签指定为,将文档的路径信息作为元数据发送到索引。指定方法是,在[路径属性名]项目输入元数据属性名,并将规则添加到规则列表。各规则由相应正则表达式构成。转换源和值用括号([(]和[)])括上。由括号括上的部分称为[组]。替换字符串,由固定字符和替换组构成。比如,[$(1)]表示首个匹配组,[$(1l)]表示首个匹配的小写字符的组。同样[$(1u)]表示和大写字符相配的组。

比如,规则的匹配条件为.*/(.*)/(.*)/.*,替换字符串为$(1) $(2)/时,路径Project/Folder_1/Folder_2/Filename将被转换成Folder_1 Folder_2

如存在一个以上规则时,从上往下执行,上面的规则的结果被下面的规则所更改。

CMIS存储库连接

CMIS存储库连接类型,生成基于CMIS存储库文档的索引。

缺省设置下,各CMIS连接处理一个CMIS存储库。存在多个CMIS存储库时,需为每一个CMIS存储库生成CMIS连接。


从存储库连接编辑页选择CMIS连接,可以设置如下项目:



CMIS Repository Connection, configuration parameters


选择CMIS绑定协议(AtomPub或Web Service),请输入用户名,密码,CMIS文档服务器服务端点。

端点由CMIS服务的HTTP协议,主机名,端口号,上下文路径所构成:



http://主机名:端口号/CMIS上下文路径



还可以输入存储库ID,选择一个公开的CMIS存储库。null时,CMIS连接器将使用CMIS服务器所公开的第一个CMIS存储库。


CMIS系统中特定的绑定协议具有各自的上下文路径。即,端点各自不同:

由OpenCMIS提供的実際的InMemory服务器所公开的AtomPub绑定端点如下所示:

http://localhost:8080/chemistry-opencmis-server-inmemory-war-0.5.0-SNAPSHOT/atom



Web Service于别的端点公开:

http://localhost:8080/chemistry-opencmis-server-inmemory-war-0.5.0-SNAPSHOT/services/RepositoryService



如单击[保存]按钮,会显示如下连接概要页面:



CMIS Repository Connection, saving configuration


如在作业选择CMIS存储库连接,会看到[CMIS查询]标签。选择[CMIS查询]标签显示如下页面:



CMIS Repository Connection, CMIS Query


从[CMIS查询]标签可用CMIS查询语言设置获取文档的查询语句。

CMIS连接器在读取文档时如发现文件夹节点(baseType为cmis:folder的节点),还会读取文件夹内的文档。非文件夹时(baseType为cmis:document),读取文档并处理。

输入后单击[保存]按钮。会显示如下设置概要:



CMIS Repository Connection, saving job