《搜索引擎的信息覆盖率评测模型研究》修改意见稿
1、“.....
这些文档有些能通过浏览器浏览,有些则不能有些存在于网站的数据库中,经过动态
的请求方能生成,有些则是静态存在的且被其它网页链接到。搜索引擎当前所能搜集的
绝大多数就是这种静态的网页,且在处理过程中进步过滤掉了些不可浏览的部分如
可执行文件等。在这里,我们所研究的搜集系统覆盖目标是上的所有静态网页,
它们通常可通过浏览器显示内容,且其般静态存在于其它网页中。我们可以从多
个角度来考虑搜索引擎对信息资源的覆盖程度。
搜集系统应该力图遍历的所有网页,在数量这角度上达到完全覆盖的程度。
这提供个衡量搜集系统覆盖信息能力的全局标准。例如当前上的网页
估计约为,个,系统的网页搜集数量是,个,因此
可以估计其数量覆盖率为百分之八十左右。如果系统的数量覆盖率足够高,我们就可以
认为它基本上覆盖了上的所有信息资源......”。
2、“.....
网上信息资源极为丰富,但也存在不少冗余,大量的广告页面和内容重复页面便是北京大学计算机科学技术系网络与分布式系统实验室孟涛学士论文
此例。即使去除这些冗余后,用户感兴趣的网页通常也只是数以十亿计的数量中的极少
数。因此,考虑搜集系统在质量上对网页的覆盖程度显得尤为重要。这指标可
以告诉我们,对那些用户会感兴趣的重要的网页,系统覆盖了其中的百分之几。从更深
的层次来说,如果搜集系统覆盖了绝大多数的重要网页,它也就覆盖了当前社会信
息在每个重要主题上映射到上的部分,成为它的个有效特征子集。类似于
的系统如果将这些重要网页全部记录下来,以后就能通过历史网页回放来
重现人类社会信息资源在时间和空间两维上的每个角落。
从信息的表现形式来看,搜集系统当前存储的信息中相当部分日后将是不可见的。
这方面是由于存储系统的资源所限......”。
3、“.....无法获得类似于等格式的网页。因此,
考察搜集系统对可视网上信息资源的覆盖率,也有着积极的意义。它可以告诉我们当前
所搜集到的网页当中,多大比例的部分能够在若干年后通过浏览器重新浏览。
在本文的研究中,将对前面的两种进行详细的讨论和量化分析。
信息覆盖率评测模型
我们定义搜集系统的信息覆盖率集系统资源本身的限制磁盘容
量和时间限量导致部分网页直到搜集过程中止都没有被搜集,出现的
情况。
本身处于不断的膨胀过程之中,大量新出现的网页来不及搜集。搜集系
统自身般都有搜集周期,而些网页如实时新闻网页的更新频率远大于
搜集频率。
从广义的角度而言,凡是上的信息都应该被搜集,而现在的搜索引擎
般只搜集了部分格式的网页信息。当前搜集的般都是静态网页中类似于
文档的信息资源,没有考虑到包括动态网页在内的巨量深层网络文档......”。
4、“.....当前中的所有网页包括深层网页约有亿之多,搜索
引擎所覆盖的不到其百分之,
因此,可以肯定任何个实际运行的网页搜集系统都不可能将当前中的所有
网页全部抓尽。这种搜集性能越优异,意味着它所获得网页集合在数量和质量上越接近
于实际的,网页之间的链接关系也越逼近实际的有向图结构。搜索引擎的
信息覆盖率正是对这种接近程度的衡量,它体现了个网页搜集系统所获得的网页集合
及链接关系所占实际的比例。
几类重要的覆盖率
广义的信息资源,应该定义为互联网上的切信息,即所有存在于上的文档。
这些文档有些能通过浏览器浏览,有些则不能有些存在于网站的数据库中,经过动态
的请求方能生成,有些则是静态存在的且被其它网页链接到。搜索引擎当前所能搜集的
绝大多数就是这种静态的网页,且在处理过程中进步过滤掉了些不可浏览的部分如
可执行文件等。在这里......”。
5、“.....
它们通常可通过浏览器显示内容,且其般静态存在于其它网页中。我们可以从多
个角度来考虑搜索引擎对信息资源的覆盖程度。
搜集系统应该力图遍历的所有网页,在数量这角度上达到完全覆盖的程度。
这提供个衡量搜集系统覆盖信息能力的全局标准。例如当前上的网页
估计约为,个,系统的网页搜集数量是,个,因此
可以估计其数量覆盖率为百分之八十左右。如果系统的数量覆盖率足够高,我们就可以
认为它基本上覆盖了上的所有信息资源。高的数量覆盖率应该是任何个搜集系
统及以此为基础的网上信息博物馆的首要量导致部分网页直到搜集过程中止都没有被搜集,出现的
情况。
本身处于不断的膨胀过程之中,大量新出现的网页来不及搜集。搜集系
统自身般都有搜集周期,而些网页如实时新闻网页的更新频率远大于
搜集频率。
从广义的角度而言,凡是上的信息都应该被搜集......”。
6、“.....当前搜集的般都是静态网页中类似于
文档的信息资源,没有考虑到包括动态网页在内的巨量深层网络文档。
据估计,当前中的所有网页包括深层网页约有亿之多,搜索
引擎所覆盖的不到其百分之,
因此,可以肯定任何个实际运行的网页搜集系统都不可能将当前中的所有
网页全部抓尽。这种搜集性能越优异,意味着它所获得网页集合在数量和质量上越接近
于实际的,网页之间的链接关系也越逼近实际的有向图结构。搜索引擎的
信息覆盖率正是对这种接近程度的衡量,它体现了个网页搜集系统所获得的网页集合
及链接关系所占实际的比例。
几类重要的覆盖率
广义的信息资源,应该定义为互联网上的切信息,即所有存在于上的文档。
这些文档有些能通过浏览器浏览,有些则不能有些存在于网站的数据库中,经过动态
的请求方能生成,有些则是静态存在的且被其它网页链接到......”。
7、“.....且在处理过程中进步过滤掉了些不可浏览的部分如
可执行文件等。在这里,我们所研究的搜集系统覆盖目标是上的所有静态网页,
它们通常可通过浏览器显示内容,且其般静态存在于其它网页中。我们可以从多
个角度来考虑搜索引擎对信息资源的覆盖程度。
搜集系统应该力图遍历的所有网页,在数量这角度上达到完全覆盖的程度。
这提供个衡量搜集系统覆盖信息能力的全局标准。例如当前上的网页
估计约为,个,系统的网页搜集数量是,个,因此
可以估计其数量覆盖率为百分之八十左右。如果系统的数量覆盖率足够高,我们就可以
认为它基本上覆盖了上的所有信息资源。高的数量覆盖率应该是任何个搜集系
统及以此为基础的网上信息博物馆的首要目标。
网上信息资源极为丰富,但也存在不少档的信息资源,没有考虑到包括动态网页在内的巨量深层网络文档。
据估计,当前中的所有网页包括深层网页约有亿之多......”。
8、“.....
因此,可以肯定任何个实际运行的网页搜集系统都不可能将当前中的所有
网页全部抓尽。这种搜集性能越优异,意味着它所获得网页集合在数量和质量上越接近
于实际的,网页之间的链接关系也越逼近实际的有向图结构。搜索引擎的
信息覆盖率正是对这种接近程度的衡量,它体现了个网页搜集系统所获得的网页集合
及链接关系所占实际的比例。
几类重要的覆盖率
广义的信息资源,应该定义为互联网上的切信息,即所有存在于上的文档。
这些文档有些能通过浏览器浏览,有些则不能有些存在于网站的数据库中,经过动态
的请求方能生成,有些则是静态存在的且被其它网页链接到。搜索引擎当前所能搜集的
绝大多数就是这种静态的网页,且在处理过程中进步过滤掉了些不可浏览的部分如
可执行文件等。在这里,我们所研究的搜集系统覆盖目标是上的所有静态网页,
它们通常可通过浏览器显示内容,且其般静态存在于其它网页中......”。
9、“.....
搜集系统应该力图遍历的所有网页,在数量这角度上达到完全覆盖的程度。
这提供个衡量搜集系统覆盖信息能力的全局标准。例如当前上的网页
估计约为,个,系统的网页搜集数量是,个,因此
可以估计其数量覆盖率为百分之八十左右。如果系统的数量覆盖率足够高,我们就可以
认为它基本上覆盖了上的所有信息资源。高的数量覆盖率应该是任何个搜集系
统及以此为基础的网上信息博物馆的首要目标。
网上信息资源极为丰富,但也存在不少冗余,大量的广告页面和内容重复页面便是北京大学计算机科学技术系网络与分布式系统实验室孟涛学士论文
此例。即使去除这些冗余后,用户感兴趣的网页通常也只是数以十亿计的数量中的极少
数。因此,考虑搜集系统在质量上对网页的覆盖程度显得尤为重要。这指标可
以告诉我们,对那些用户会感兴趣的重要的网页......”。