搜索引擎的信息覆盖率评测模型研究

格式：word 上传：2022-06-24 20:56:19

《搜索引擎的信息覆盖率评测模型研究》修改意见稿

1、“..... 这些文档有些能通过浏览器浏览，有些则不能有些存在于网站的数据库中，经过动态的请求方能生成，有些则是静态存在的且被其它网页链接到。搜索引擎当前所能搜集的绝大多数就是这种静态的网页，且在处理过程中进步过滤掉了些不可浏览的部分如可执行文件等。在这里，我们所研究的搜集系统覆盖目标是上的所有静态网页，它们通常可通过浏览器显示内容，且其般静态存在于其它网页中。我们可以从多个角度来考虑搜索引擎对信息资源的覆盖程度。搜集系统应该力图遍历的所有网页，在数量这角度上达到完全覆盖的程度。这提供个衡量搜集系统覆盖信息能力的全局标准。例如当前上的网页估计约为,个，系统的网页搜集数量是,个，因此可以估计其数量覆盖率为百分之八十左右。如果系统的数量覆盖率足够高，我们就可以认为它基本上覆盖了上的所有信息资源......”。

2、“..... 网上信息资源极为丰富，但也存在不少冗余，大量的广告页面和内容重复页面便是北京大学计算机科学技术系网络与分布式系统实验室孟涛学士论文此例。即使去除这些冗余后，用户感兴趣的网页通常也只是数以十亿计的数量中的极少数。因此，考虑搜集系统在质量上对网页的覆盖程度显得尤为重要。这指标可以告诉我们，对那些用户会感兴趣的重要的网页，系统覆盖了其中的百分之几。从更深的层次来说，如果搜集系统覆盖了绝大多数的重要网页，它也就覆盖了当前社会信息在每个重要主题上映射到上的部分，成为它的个有效特征子集。类似于的系统如果将这些重要网页全部记录下来，以后就能通过历史网页回放来重现人类社会信息资源在时间和空间两维上的每个角落。从信息的表现形式来看，搜集系统当前存储的信息中相当部分日后将是不可见的。这方面是由于存储系统的资源所限......”。

3、“.....无法获得类似于等格式的网页。因此，考察搜集系统对可视网上信息资源的覆盖率，也有着积极的意义。它可以告诉我们当前所搜集到的网页当中，多大比例的部分能够在若干年后通过浏览器重新浏览。在本文的研究中，将对前面的两种进行详细的讨论和量化分析。信息覆盖率评测模型我们定义搜集系统的信息覆盖率集系统资源本身的限制磁盘容量和时间限量导致部分网页直到搜集过程中止都没有被搜集，出现的情况。 本身处于不断的膨胀过程之中，大量新出现的网页来不及搜集。搜集系统自身般都有搜集周期，而些网页如实时新闻网页的更新频率远大于搜集频率。 从广义的角度而言，凡是上的信息都应该被搜集，而现在的搜索引擎般只搜集了部分格式的网页信息。当前搜集的般都是静态网页中类似于文档的信息资源，没有考虑到包括动态网页在内的巨量深层网络文档......”。

4、“.....当前中的所有网页包括深层网页约有亿之多，搜索引擎所覆盖的不到其百分之, 因此，可以肯定任何个实际运行的网页搜集系统都不可能将当前中的所有网页全部抓尽。这种搜集性能越优异，意味着它所获得网页集合在数量和质量上越接近于实际的，网页之间的链接关系也越逼近实际的有向图结构。搜索引擎的信息覆盖率正是对这种接近程度的衡量，它体现了个网页搜集系统所获得的网页集合及链接关系所占实际的比例。几类重要的覆盖率广义的信息资源，应该定义为互联网上的切信息，即所有存在于上的文档。这些文档有些能通过浏览器浏览，有些则不能有些存在于网站的数据库中，经过动态的请求方能生成，有些则是静态存在的且被其它网页链接到。搜索引擎当前所能搜集的绝大多数就是这种静态的网页，且在处理过程中进步过滤掉了些不可浏览的部分如可执行文件等。在这里......”。

5、“..... 它们通常可通过浏览器显示内容，且其般静态存在于其它网页中。我们可以从多个角度来考虑搜索引擎对信息资源的覆盖程度。搜集系统应该力图遍历的所有网页，在数量这角度上达到完全覆盖的程度。这提供个衡量搜集系统覆盖信息能力的全局标准。例如当前上的网页估计约为,个，系统的网页搜集数量是,个，因此可以估计其数量覆盖率为百分之八十左右。如果系统的数量覆盖率足够高，我们就可以认为它基本上覆盖了上的所有信息资源。高的数量覆盖率应该是任何个搜集系统及以此为基础的网上信息博物馆的首要量导致部分网页直到搜集过程中止都没有被搜集，出现的情况。 本身处于不断的膨胀过程之中，大量新出现的网页来不及搜集。搜集系统自身般都有搜集周期，而些网页如实时新闻网页的更新频率远大于搜集频率。 从广义的角度而言，凡是上的信息都应该被搜集......”。

6、“.....当前搜集的般都是静态网页中类似于文档的信息资源，没有考虑到包括动态网页在内的巨量深层网络文档。据估计，当前中的所有网页包括深层网页约有亿之多，搜索引擎所覆盖的不到其百分之, 因此，可以肯定任何个实际运行的网页搜集系统都不可能将当前中的所有网页全部抓尽。这种搜集性能越优异，意味着它所获得网页集合在数量和质量上越接近于实际的，网页之间的链接关系也越逼近实际的有向图结构。搜索引擎的信息覆盖率正是对这种接近程度的衡量，它体现了个网页搜集系统所获得的网页集合及链接关系所占实际的比例。几类重要的覆盖率广义的信息资源，应该定义为互联网上的切信息，即所有存在于上的文档。这些文档有些能通过浏览器浏览，有些则不能有些存在于网站的数据库中，经过动态的请求方能生成，有些则是静态存在的且被其它网页链接到......”。

7、“.....且在处理过程中进步过滤掉了些不可浏览的部分如可执行文件等。在这里，我们所研究的搜集系统覆盖目标是上的所有静态网页，它们通常可通过浏览器显示内容，且其般静态存在于其它网页中。我们可以从多个角度来考虑搜索引擎对信息资源的覆盖程度。搜集系统应该力图遍历的所有网页，在数量这角度上达到完全覆盖的程度。这提供个衡量搜集系统覆盖信息能力的全局标准。例如当前上的网页估计约为,个，系统的网页搜集数量是,个，因此可以估计其数量覆盖率为百分之八十左右。如果系统的数量覆盖率足够高，我们就可以认为它基本上覆盖了上的所有信息资源。高的数量覆盖率应该是任何个搜集系统及以此为基础的网上信息博物馆的首要目标。网上信息资源极为丰富，但也存在不少档的信息资源，没有考虑到包括动态网页在内的巨量深层网络文档。据估计，当前中的所有网页包括深层网页约有亿之多......”。

8、“..... 因此，可以肯定任何个实际运行的网页搜集系统都不可能将当前中的所有网页全部抓尽。这种搜集性能越优异，意味着它所获得网页集合在数量和质量上越接近于实际的，网页之间的链接关系也越逼近实际的有向图结构。搜索引擎的信息覆盖率正是对这种接近程度的衡量，它体现了个网页搜集系统所获得的网页集合及链接关系所占实际的比例。几类重要的覆盖率广义的信息资源，应该定义为互联网上的切信息，即所有存在于上的文档。这些文档有些能通过浏览器浏览，有些则不能有些存在于网站的数据库中，经过动态的请求方能生成，有些则是静态存在的且被其它网页链接到。搜索引擎当前所能搜集的绝大多数就是这种静态的网页，且在处理过程中进步过滤掉了些不可浏览的部分如可执行文件等。在这里，我们所研究的搜集系统覆盖目标是上的所有静态网页，它们通常可通过浏览器显示内容，且其般静态存在于其它网页中......”。

9、“..... 搜集系统应该力图遍历的所有网页，在数量这角度上达到完全覆盖的程度。这提供个衡量搜集系统覆盖信息能力的全局标准。例如当前上的网页估计约为,个，系统的网页搜集数量是,个，因此可以估计其数量覆盖率为百分之八十左右。如果系统的数量覆盖率足够高，我们就可以认为它基本上覆盖了上的所有信息资源。高的数量覆盖率应该是任何个搜集系统及以此为基础的网上信息博物馆的首要目标。网上信息资源极为丰富，但也存在不少冗余，大量的广告页面和内容重复页面便是北京大学计算机科学技术系网络与分布式系统实验室孟涛学士论文此例。即使去除这些冗余后，用户感兴趣的网页通常也只是数以十亿计的数量中的极少数。因此，考虑搜集系统在质量上对网页的覆盖程度显得尤为重要。这指标可以告诉我们，对那些用户会感兴趣的重要的网页......”。

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。