搜索引擎的信息覆盖率评测模型研究在线共20页

格式：word 上传：2022-06-25 00:05:36

《搜索引擎的信息覆盖率评测模型研究在线共20页》修改意见稿

1、“.....而些网页如实时新闻网页的更新频率远大于搜集频率。 从广义的角度而言，凡是上的信息都应该被搜集，而现在的搜索引擎般只搜集了部分格式的网页信息。当前搜集的般都是静态网页中类似于文档的信息资源，没有考虑到包括动态网页在内的巨量深层网络文档。据估计，当前中的所有网页包括深层网页约有亿之多，搜索引擎所覆盖的不到其百分之, 因此，可以肯定任何个实际运行的网页搜集例如当前上的网页估计约为，个，系统的网页搜集数量是，个，因此可以估计其数量覆盖率为百分之八十左右。如果系统的数量覆盖率足够高，我们就可以认为它基本上覆盖了上的所有信息资源。高的数量覆盖率应该是任何个搜集系统及以此为基础的网上信息博物馆的首要目标。网上信息资源极为丰富，但也存在不少冗余......”。

2、“..... 据估计，当前中的所有网页包括深层网页约有亿之多，搜索引擎所覆盖的不到其百分之, 因此，可以肯定任何个实际运行的网页搜集系统都不可能将当前当前搜集的般都是静态网页中类似于文档的信息资源，没有考虑到包括动态网页在内的巨从广义的角度而言，凡是上的信息都应该被搜集，而现在的搜索引擎般只搜集了部分格式的网页信息。系统自身般都有搜集周期，而些网页如实时新闻网页的更新频率远大于搜集频率。 本身处于不断的膨胀过程之中，大量新出现的网页来不及搜集。搜集部分内容简介量导致部分网页直到搜集过程中止都没有被搜集，出现的部分内容简介量导致部分网页直到搜集过程中止都没有被搜集，出现的情况。 本身处于不断的膨胀过程之中，大量新出现的网页来不及搜集。搜集系统自身般都有搜集周期，而些网页如实时新闻网页的更新频率远大于搜集频率......”。

3、“.....凡是上的信息都应该被搜集，而现在的搜索引擎般只搜集了部分格式的网页信息。当前搜集的般都是静态网页中类似于文档的信息资源，没有考虑到包括动态网页在内的巨量深层网络文档。据估计，当前中的所有网页包括深层网页约有亿之多，搜索引擎所覆盖的不到其百分之, 因此，可以肯定任何个实际运行的网页搜集系统都不可能将当前中的所有网页全部抓尽。这种搜集性能越优异，意味着它所获得网页集合在数量和质量上越接近于实际的，网页之间的链接关系也越逼近实际的有向图结构。搜索引擎的信息覆盖率正是对这种接近程度的衡量，它体现了个网页搜集系统所获得的网页集合及链接关系所占实际的比例。几类重要的覆盖率广义的信息资源，应该定义为互联网上的切信息，即所有存在于上的文档。这些文档有些能通过浏览器浏览，有些则不能有些存在于网站的数据库中......”。

4、“.....有些则是静态存在的且被其它网页链接到。搜索引擎当前所能搜集的绝大多数就是这种静态的网页，且在处理过程中进步过滤掉了些不可浏览的部分如可执行文件等。在这里，我们所研究的搜集系统覆盖目标是上的所有静态网页，它们通常可通过浏览器显示内容，且其般静态存在于其它网页中。我们可以从多个角度来考虑搜索引擎对信息资源的覆盖程度。搜集系统应该力图遍历的所有网页，在数量这角度上达到完全覆盖的程度。这提供个衡量搜集系统覆盖信息能力的全局标准。例如当前上的网页估计约为，个，系统的网页搜集数量是，个，因此可以估计其数量覆盖率为百分之八十左右。如果系统的数量覆盖率足够高，我们就可以认为它基本上覆盖了上的所有信息资源。高的数量覆盖率应该是任何个搜集系统及以此为基础的网上信息博物馆的首要目标。网上信息资源极为丰富，但也存在不少冗余......”。

5、“.....即使去除这些冗余后，用户感兴趣的网页通常也只是数以十亿计的数量中的极少数。因此，考虑搜集系统在质量上对网页的覆盖程度显得尤为重要。这指标可以告诉我们，对那些用户会感兴趣的重要的网页，系统覆盖了其中的百分之几。从更深的层次来说，如果搜集系统覆盖了绝大多数的重要网页，它也就覆盖了当前社会信息在每个重要主题上映射到上的部分，成为它的个有效特征子集。类似于的系统如果将这些重要网页全部记录下来，以后就能通过历史网页回放来重现人类社会信息资源在时间和空间两维上的每个角落。从信息的表现形式来看，搜集系统当前存储的信息中相当部分日后将是不可见的。这方面是由于存储系统的资源所限，未能搜集类似于图片影音之类的大文档另方面是因为搜集技术的不成熟......”。

6、“.....因此，考察搜集系统对可视网上信息资源的覆盖率，也有着积极的意义。它可以告诉我们当前所搜集到的网页当中，多大比例的部分能够在若干年后通过浏览器重新浏览。在本文的研究中，将对前面的两种进行详细的讨论和量化分析。信息覆盖率评测模型我们定义搜集系统的信息覆盖率为它所收集的网页集合在中所占的比例。考虑到的链接结构，将其视为张有向图则搜集系统所获得的网页集合是的强连通子图不定是强连通图每个顶点都有唯的标记。则信息覆盖率的表达式为需要加句对公式的解释。的相关属性在搜集过程中已得到，但是因为搜索引擎搜集网页的不完全性，的相关属性却只能去估计。为了得到准确的信息覆盖率数据，我们采取对取样的方法，即采取随机的方式从中获得张子图考察中的顶点落在中所占的比例作为的近似值。如果足够大或是随机性足够好......”。

7、“.....此时的即搜集系统的数量覆盖率。我们可以用类似的思想去计算搜集系统的质量覆盖率。考虑中的所有重要网页构成的连通子图，我们可以用随机的办法获为了将无效网页的影响降至最低，还可以对链接作多级扩展。经过这种处理后，上述第种情况可以得到修正，因为大网站的首页通常存在较大的出度第二种情况中默认网页链出的网页般指向该软件生产厂家的首页，页面相同且数量少，且因其通常在国外故可在研究时过滤掉。我们从上述的随机样本中抽取了组，经过扩展以后的网页样本数量以及覆盖数量如下编号存在数扩展样本容量覆盖数在验证的过程中，我们将用地址表示的转化成域名，以便搜集系统的验证。这种转换经过了两级反向解析，第步是通过网上服务器的解析，第二步是通过搜集系统保存的域名与对应数据。对得到的结果作线性拟合，得到的图几没有标如下......”。

8、“..... 可见，在对模型作修正之后，覆盖率有很大的增幅如果考虑到域名与之间的动态关系即大量域名的是可变的，系统每隔几分钟更新次，我们去除掉样本中以表示的，数量覆盖率数据将还会有小幅度的提高，这才是真正的数量覆盖率大小。通过随机法产生的网页样本很好的考察了搜集系统对有向图些入度为或是从出发顶点无法达到顶点的覆盖情况。这启示我们在搜集网页过程中，选取适当数量的以随机法产生的作为起始顶点集合的部分，能提高搜集系统的数量信息北京大学计算机科学技术系网络与分布式系统实验室孟涛学士论文覆盖率和中网页信息的有效性。广度优先法随机法虽然具有较好的随机性和全局性，但在使用过程中发现许多有待改进之处为了使对的取样在逻辑结构上与实际情况更加接近，考虑到对随机法作修正时对逻辑链接关系的利用......”。

9、“.....这种方法实现的实际就是个最原始的搜集系统的工作过程，只是在搜集过程中按照绝对广度优先的方式级级的扩展开去。这种取样是从局部的角度来进行的，原理如下图所示。取样我们选取了五个作为起始点，采取上述绝对广度优先搜集网页的办法分别获得五组网页样本，样本容量从几万到数十万不等。算法如下选取个网页作为起始创建队列存储未搜集的网页，入队列创建结构数组存储已经搜集过的网页，按照字符串排序取得队列头元素，通过协议获取的源文件，提取出其中包含的的全部链接，并记录链接关系北京大学计算机科学技术系网络与分布式系统实验室孟涛学士论文在中用二分法寻找中得到的是否已被搜集，如果没有搜集，则使其进入队列判断中的网页数量是否已达到要求，若没有继续......”。

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。