毕业设计搜索引擎的信息覆盖率评测模型研究（8）

格式：word 上传：2022-06-26 00:08:01

《毕业设计搜索引擎的信息覆盖率评测模型研究（8）》修改意见稿

1、“.....它们的均值和方差分别为和，前者即为搜集系统对型重要网页的覆盖率。对于具有较高权值的重要网页，实验的数据如下样本编组查询词北京大学考研股票江泽民教程联想集团三个代表世界杯初始数量取数覆盖数量覆盖率八组样本所得的质量覆盖率分别为，它们的均值为，表几所示方差为和，前者即为搜集系统对型重要网页的质量覆盖率。修正与分析在上述的算法中，我们将所有链接的地位视为平等，而事实上并非如此，我们可以从它的导向词与查询词的匹配度的不同处着手，这在和的工作中有论述......”。

2、“.....它们般含有该链接网页内容或属性的说明。即，个网页中两个链接和，如果的导向词中出现北京大学次，而的导向词中未出现此字眼，在查询的主题是北京大学时，的地位要高于。我们称以此为基础的算法为扩展算法。假定查询词是，存在网页到的链接，提取出网页中的导向词，设，为在导向词中匹配的次数，则可以对算法作如下修正，，我们用这种算法对上述的组初始样本进行计算，然后分别选取权值和权值在前若干位的重要网页作为重要网页样本，从和两个角度求得的搜集系统信息质量覆盖率均值分别为和。从实验数据可以看出......”。

3、“.....的搜集系统对普通的重要网页覆盖率在左右。如果对重要网页的标准提高些，则质量覆盖率的数据还要更高。结论本文针对搜索引擎搜集子系统对的信息覆盖能力，创建了信息覆盖率的量化研究模型。在这个模型中，我们提出两套取样办法，采取了两类典型的网页权值算法，分别从量和质的角度上分析计算搜集系统的信息覆盖率。运用这个模型，我们针对中国进行样本采集，从而对北大天网系统的平台所存储的中国国内网页数据的信息覆盖率进行评估。得到的数据显示，在数量上平台覆盖了中国国内网页总数的，而在质量上覆盖了重要网页总数的左右。这个数据也显示天网的覆盖率与国际上诸如的几个大搜索引擎系统相当......”。

4、“.....对于同类型的信息覆盖率，采用不同取样和权值计算方法所验证得到的数据能够很好的符合，证明了信息覆盖率模型的正确性以及所获得平台信息覆盖率的准确性。实验结果肯定了天网搜集系统的较强搜集能力，并对进步改进这种搜集能力及相关平台的性能提供了重要的客观依据。本文不足之处在于对网页重要性的定性标准不够严密，对于算法，我们选取了权值位于前的网页作为重要网页而对于算法计算的查询所得扩展网页集合，我们选取重要的标准是和初始返回结果相等的量，约占权值排序后前面的。信息覆盖率评测模型我们定义搜集系统的信息覆盖率为它所收集的网页集合在中所占的比例。考虑到的链接结构......”。

5、“.....因此，考察搜集系统对可视网上信息资源的覆盖率，也有着积极的意义。它可以告诉我们当前所搜集到的网页当中，多大比例的部分能够在若干年后通过浏览器重维上的每个角落。从信息的表现形式来看，搜集系统当前存储的信息中相当部分日后将是不可见的。这方面是由于存储系统的资源所限，未能搜集类似于图片影音之类的大文档另方面是因为搜集技术的不成熟，无法获社会信息在每个重要主题上映射到上的部分，成为它的个有效特征子集。类似于的系统如果将这些重要网页全部记录下来......”。

6、“.....这指标可以告诉我们，对那些用户会感兴趣的重要的网页，系统覆盖了其中的百分之几。从更深的层次来说，如果搜集系统覆盖了绝大多数的重要网页，它也就覆盖了当前础的网上信息博物馆的首要目标。网上信息资源极为丰富，但也存在不少冗余，大量的广告页面和内容重复页面便是此例。即使去除这些冗余后，用户感兴趣的网页通常也只是数以十亿计的数量中的极少数。因此，考虑搜集系统统的网页搜集数量是，个，因此可以估计其数量覆盖率为百分之八十左右。如果系统的数量覆盖率足够高，我们就可以认为它基本上覆盖了上的所有信息资源。高的数量覆盖率应该是任何个搜集系统及以此为基源的覆盖程度......”。

7、“.....在数量这角度上达到完全覆盖的程度。这提供个衡量搜集系统覆盖信息能力的全局标准。模型概述网页搜集的不完全性如果把中的每个网页看作个顶点，则这个顶点以作为它的唯标记又由于网页中存在其它网页的，可以把这种网页间的链接看作连接顶点的边，则整个构成了张有向图，如图示。相应的，每个顶点的入度和出度对应着链向该网页的网页数量和该网页链向其他网页的数量。显然，这是张不完全图，因为里面存在很多入度或出度为的顶点。当前的网页搜集系统都是基于对这种链接结构的理解，依据网页之间的链接关系，从个种子开始，不断的从新搜到的网页中提取出，从而到达其它的网页。搜集过程中......”。

8、“.....优先搜集相对有价值的网页。在这种搜集机制里面，存在着下列问题，导致无法遍历所有的网页。部分网页的入度为，即从任何个网页开始，都不存在到它的路径，这类网页的数量约占全体网页数量的。选择的种子集合中，任何个网页都不存在到该网页的路径。中的有向图结构中，只有约的顶点能被选取作为起始点去遍历剩下的约的顶点。由于在网页搜集的过程中出现了优先排序，搜集系统资源本身的限制磁盘容量和时间限量导致部分网页直到搜集过程中止都没有被搜集，出现的情况。本身处于不断的膨胀过程之中，大量新出现的网页来不及搜集。搜集系统自身般都有搜集周期......”。

9、“.....从广义的角度而言，凡是上的信息都应该被搜集，而现在的搜索引擎般只搜集了部分格式的网页信息。当前搜集的般都是静态网页中类似于文档的信息资源，没有考虑到包括动态网页在内的巨量深层网络文档。据估计，当前中的所有网页包括深层网页约有亿之多，搜索引擎所覆盖的不到其百分之,因此，可以肯定任何个实际运行的网页搜集系统都不可能将当前中的所有网页全部抓尽。这种搜集性能越优异，意味着它所获得网页集合在数量和质量上越接近于实际的，网页之间的链接关系也越逼近实际的有向图结构。搜索引擎的信息覆盖率正是对这种接近程度的衡量......”。

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。