搜索引擎的信息覆盖率评测模型研究

格式：word 上传：2023-09-14 20:25:18

《搜索引擎的信息覆盖率评测模型研究》修改意见稿

1、“.....这指标可以告诉我们，对那些用户会感兴趣的重要的网页，系统覆盖了其中的百分之几。从更深的层次来说，如果搜集系统覆盖了绝大多数的重要网页，它也就覆盖了当前社会信息在每个重要主题上映射到上的部分，成为它的个有效特征子集。类似于的系统如果将这些重要网页全部记录下来，以后就能通过历史网页回放来重现人类社会信息资源在时间和空间两维上的每个角落。从信息的表现形式来看，搜集系统当前存储的信息中相当部分日后将是不可见的。这方面是由于存储系统的资源所限，未能搜集类似于图片影音之类的大文档另方面是因为搜集技术的不成熟，无法获得类似于等格式的网页。因此，考察搜集系统对可视网上信息资源的覆盖率，也有着积极的意义。它可以告诉我们当前所搜集到的网页当中，多大比例的部分能够在若干年后通过浏览器重新浏览。在本文的研究中，将对前面的两种进行详细的讨论和量化分析......”。

2、“.....考虑到的链接结构，将其视为张有向图则搜集系统所获得的网页集合是的强连通子图不定是强连通图每个顶点都有唯的标记。则信息覆盖率的表达式为需要加句对公式的解释。的相关属性在搜集过程中已得到，但是因为搜索引擎搜集网页的不完全性，的相关属性却只能去估计。为了得到准确的信息覆盖率数据，我们采取对取样的方法，即采取随机的方式从中获得张子图考察中的顶点落在中所占的比例作为的近似值。如果足够大或是随机性足够好,则非常接近于。此时的即搜集系统的数量覆盖率。我们可以用类似的思想去计算搜集系统的质量覆盖率。考虑中的所有重要网页构成的连通子图，我们可以用随机的办法获为了将无效网页的影响降至最低，还可以对链接作多级扩展。经过这种处理后，上述第种情况可以得到修正......”。

3、“.....页面相同且数量少，且因其通常在国外故可在研究时过滤掉。我们从上述的随机样本中抽取了组，经过扩展以后的网页样本数量以及覆盖数量如下编号存在数扩展样本容量覆盖数在验证的过程中，我们将用地址表示的转化成域名，以便搜集系统的验证。这种转换经过了两级反向解析，第步是通过网上服务器的解析，第二步是通过搜集系统保存的域名与对应数据。对得到的结果作线性拟合，得到的图几没有标如下，从拟合结果可得到信息覆盖率约为。可见，在对模型作修正之后，覆盖率有很大的增幅如果考虑到域名与之间的动态关系即大量域名的是可变的，系统每隔几分钟更新次，我们去除掉样本中以表示的，数量覆盖率数据将还会有小幅度的提高，这才是真正的数量覆盖率大小。通过随机法产生的网页样本很好的考察了搜集系统对有向图些入度为或是从出发顶点无法达到顶点的覆盖情况。这启示我们在搜集网页过程中......”。

4、“.....能提高搜集系统的数量信息北京大学计算机科学技术系网络与分布式系统实验室孟涛学士论文覆盖率和中网页信息的有效性。广度优先法随机法虽然具有较好的随机性和全局性，但在使用过程中发现许多有待改进之处为了使对的取样在逻辑结构上与实际情况更加接近，考虑到对随机法作修正时对逻辑链接关系的利用，我们提出了绝对广度优先搜集取样的办法。这种方法实现的实际就是个最原始的搜集系统的工作过程，只是在搜集过程中按照绝对广度优先的方式级级的扩展开去。这种取样是从局部的角度来进行的，原理如下图所示。取样我们选取了五个作为起始点，采取上述绝对广度优先搜集网页的办法分别获得五组网页样本，样本容量从几万到数十万不等。算法如下选取个网页作为起始创建队列存储未搜集的网页，入队列创建结构数组存储已经搜集过的网页，按照字符串排序取得队列头元素，通过协议获取的源文件......”。

5、“.....并记录链接关系北京大学计算机科学技术系网络与分布式系统实验室孟涛学士论文在中用二分法寻找中得到的是否已被搜集，如果没有搜集，则使其进入队列判断中的网页数量是否已达到要求，若没有继续。得到的结果列表如下样本编组种子扩展数验证和分析得到网页样本之后，我们可以在的网页数据库中验证被覆盖的比例。为了快速的检验数据，达到磁盘性能的极限，我们启动了数百个进程从列表中读取并通过算法从库中查找。得到的覆盖率数据如下表所示。对于这组离散的覆盖率值，我们计算均值和方差分别为和，前者即为通过绝对广度优先法得到的数量覆盖率。样本编组扩展数覆盖数量数量覆盖率对于使用这种采样方法得到的数量覆盖率，较之采用随机法具有较高的覆盖率值是可以理解的。因为这两批数据是从两个不同的方面说明搜集系统的信息覆盖情况随机法着眼于全局......”。

6、“.....更类似于搜索引擎的搜集过程。通常搜集系统是在中的最大连通子图内遍历，绝对广度优先法恰好反映了搜集系统对这最大连通子图的覆盖比例。由于这最大连通子图占据了中左右的网页，而且我们选取的起始均落在这子图之内，故绝对广度优先法得到的结论应该修正为乘以这参数才能在全局角度上反映搜集系统的覆盖率，因此准确的数量覆盖率应该是。当样本容量越大,覆盖率就应该约逼近此值,这从我们采用的大容量样本第组结果中已经得到了验证。随机法反映的是搜集系统对中所有点的覆盖情况，因此这种采样更容易采集到入度为或由于其他原因导致搜集系统无法遍历到的网页称为不可到达网页。由于不可到达网页中大量的点是孤立点，在没有很好的区分这些地址上所存在的网页数据量的情况下，这种样本需要经过多级链接扩展才能全面的反映真实的。也就是说，如果对初始不断作链接扩展，最后的数据会不断接近......”。

7、“..... 我们可以预测到，如果将两种采样方法的优点结合起来，通过随机法产生集合作为绝对广度优先法取样的种子集合再进行扩展，在样本容量足够大之后，最后的数量覆盖率数据应该与通过文献的工作做的估计相符，在附近。质量覆盖率考察搜集系统在质量上对的信息覆盖率，需要通过有效的网页重要性评测方法找到组重要网页样本。尽管通常可以通过用户评选提交的方式得到他们在浏览网页过程中发现的重要网页集合作为样本，但在本文研究中，为了保证样本的随机性和客观性，我们采用两类基于对链接结构的分析而对中重要网页进行取样的有效方法。这些方法的基本思想都是找到组具有较强链接关系的网页初始取样，通过基于链接分析的网页权值算法，求出其中所有网页的相对重要性值，从而可以对网页进行排序取出前若干位作为重要网页的样本......”。

8、“.....它们都是基于对有向图链接结构的理解提出的。网页重要性评测方法上的信息资源数量如此之大，无论是搜集系统本身还是接受返回结果的查询用户，都要求有好的方法对网页集合按照重要性进行排序，因为系统搜集的和用户关心的般都只是其中的子集。准确的辨别出重要的网页加以优先搜集，准确的计算出重要的网页返回给用户优先浏览，要做到这些，我们需要合适的网页重要性评定方法。这里，网页的重要性用权值来衡量，权值越高表示网页越重要。我们可以从三个角度来分析网页的权值，讨论它的相关因素。 从网页本身的唯属性出发来考虑网页的权值可以从的属性中得到反映。般而言，所在网站的域名越短，所在网站上相对于根目录的层次越浅，网页的权值越大。例如，北京大学的网站首页般被认为比北京大学计算机系网站首页的权值要高而比的权值显然也要高。这原理可以在网页搜集过程中加以利用......”。

9、“.....由于网页间的链接通常代表着认可度的传递，我们可以统计网页的入度来评判其重要性。如果网页上存在网页的，排除掉纯粹导航的因素，表示着网页的作者存在对网页的认可而这种认可的增多则意味着网页权值的上升。因此，入度越大，权值通常越高。北京大学计算机科学技术系网络与分布式系统实验室孟涛学士论文搜索引擎的信息覆盖率评测模型研究孟涛李晓明闫宏飞北京大学计算机科学技术系，摘要本文从有向图结构出发，总结分析了搜索引擎搜集子系统网页搜集不完全性的若干因素，指出信息覆盖率这概念的研究意义，由此提出了三类比较重要的信息覆盖率概念。在对信息覆盖率建立量化研究模型之后，本文以北大天网平台为考察对象，以不同的方式对中国进行取样，用和这两类典型的权值算法计算出其中的重要网页作为样本，从量和质的角度上考察的信息覆盖率......”。

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。