系统和被检索系统之间网络带宽给制约着。
在Nutch/Lucene搜索框架包含一个使用MapReduce编程模型并行索引操作书面。
MapReduce提供了一个方便方式处理一个重要(尽管有限)类,通过程序员在现实生活中商业应用并行和容错性问题让他们关注问题域。
MapReduce在年出版了谷歌网站,并迅速成为这类工作量分析标准。
MapReduce模式并行索引操作如下。
首先,将要建立数据分割成大致相同大小部分。
每一部分,按照既定方式进行处理,生成(键,值),其中KEY是查询索引关键字,value是包含关键字一整套文档(和储存关键字文档)。
这相当于在地图阶段,用MapReduce。
在下一阶段,在减少阶段,每一个减速任务收集所有对某一特定关键字,从而产生一个单一指数表关键字。
当所有按键都处理后,我们有完整关键字集作为整个数据集。
在大多数搜索应用程序中,查询绝大多数代表着运算能力。
&nb