1、“.....这种搜集性能越优异,意味着它所获得网页集合在数量和质量上越接近 于实际的,网页之间的链接关系也越逼近实际的有向图结构。搜索引擎的 信息覆盖率正是对这种接近程度的衡量,它体现了个网页搜集系统所获得的网页集合 及链接关系所占实际的比例......”。
2、“.....应该定义为互联网上的切信息,即所有存在于上的文档。 这些文档有些能通过浏览器浏览,有些则不能有些存在于网站的数据库中,经过动态 的请求方能生成,有些则是静态存在的且被其它网页链接到。搜索引擎当前所能搜集的 绝大多数就是这种静态的网页......”。
3、“.....在这里,我们所研究的搜集系统覆盖目标是上的所有静态网页, 它们通常可通过浏览器显示内容,且其般静态存在于其它网页中。我们可以从多 个来考量覆盖 率大小。 通过随机法产生的网页样本很好的考察了搜集系统对有向图些入度为 或是从出发顶点无法达到顶点的覆盖情况。这启示我们在搜集网页过程中......”。
4、“.....能提高搜集系统的数量信息北京大学计算机科学技术系网络与分布式系统实验室量导致部分网页直到搜集过程中止都没有被搜集,出现的 情况。 本身处于不断的膨胀过程之中,大量新出现的网页来不及搜集。搜集系 统自身般都有搜集周期......”。
5、“..... 从广义的角度而言,凡是上的信息都应该被搜集,而现在的搜索引擎 般只搜集了部分格式的网页信息。当前搜集的般都是静态网页中类似于 文档的信息资源,没有考虑到包括动态网页在内的巨量深层网络文档。 据估计,当前中的所有网页包括深层网页约有亿之多,搜索 引擎所覆盖的不到其百分之, 因此......”。
6、“..... 搜集系统应该力图遍历的所有网页,在数量这角度上达到完全覆盖的程度。 这提供个衡量搜集系统覆盖信息能力的全局标准。例如当前上的网页 估计约为,个,系统的网页搜集数量是,个,因此 可以估计其数量覆盖率为百分之八十左右。如果系统统计网页的入 度来评判其重要性......”。
7、“.....排除掉纯粹导航的因 素,表示着网页的作者存在对网页的认可而这种认可的增多则意味着网 页权值的上升。因此,入度越大,权值通常越高。北京大学计算机科学技术系网络与分布式系统实验室孟涛学士论文 搜索引擎的信息覆盖率评测模型研究 孟涛李晓明闫宏飞 北京大学计算机科学技术系......”。
8、“.....总结分析了搜索引擎搜集子系统网页搜集不完全性的 若干因素,指出信息覆盖率这概念的研究意义,由此提出了三类比较重要的信息覆盖率概念。在对 信息覆盖以肯何个实际运行的网页搜集系统都不可能将当前中的所有 网页全部抓尽。这种搜集性能越优异,意味着它所获得网页集合在数量和质量上越接近 于实际的......”。
9、“.....搜索引擎的 信息覆盖率正是对这种接近程度的衡量,它体现了个网页搜集系统所获得的网页集合 及链接关系所占实际的比例。 几类重要的覆盖率 广义的信息资源,应该定义为互联网上的切信息,即所有存在于上的文档。 这些文档有些能通过浏览器浏览,有些则不能有些存在于网站的数据库中......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。