搜索引擎的信息覆盖率评测模型的研究（最终版）

格式：word 上传：2022-06-25 17:15:58

《搜索引擎的信息覆盖率评测模型的研究（最终版）》修改意见稿

1、“.....对于第二组网页样本重要网页个数占前百分之几覆盖网页数质量覆盖率下图是随着重要性标准的放松，质量覆盖率的变化情况北京大学计算机科学技术系网络与分布式系统实验室孟涛学士论文对于第四组网页样本重要网页个数占前百分之几覆盖网页数质量覆盖率下图是随着重要性标准的放松，质量覆盖率的变化情况从这两张图中可以看出，当重要标准很苛刻时重要网页样本容量很小，此时搜集系统的覆盖率很高但随着重要标准的放松导致样本容量的增大，搜集系统的质量覆盖率会越来越低当重要性的标准放至最低，即所有网页的地位平等时，质量覆盖率变为最小，为数量覆盖率值。这两张图中都显示，当重要标准降至约左右时，曲线开始逐渐变得平缓，因此此点的覆盖率数据无疑最适合作为我们所测的的搜集系统质量覆盖率......”。

2、“.....它又可根据其内容本身而属于人类社会信息资源的主题类别。例如，网页可以根据其内容分为属于社会人文或休闲娱乐等类别以及它们的子类的网页。基于这点的考虑，我们的研究工作中采取了通过主题查询获得重要网页样本的方法。这类似于文献的工作中算法选择的网页集合所采用的方法。由于上同主题的网页之间具有较强的链接关系，我们可用算法对此网页集合进行权值计算，进行排序后得到前若干网页作为在这主题类别的重要网页样本。取样假设我们希望得到关于主题的重要网页样本，我们般会通过递交若干与相关的查询词提交给搜索引擎，它返回的网页集合为。对于通常的搜索引擎，的网页般都具有和较高的相关度，因为查询中通常使用字符串匹配，使得返回的网页中大多含有之类的字样。但是，也有大量的重要网页不适合这种情况，例如天网系统的主页并没有搜索引擎的字样供匹配。出于对这种特殊现象的考虑......”。

3、“.....加入网页链出去的网页和链向元素的网页得到初始样本，如图示我们选择了八个主题的查询词递交给天网搜索引擎，在用以上的方式对返回结果进行扩展之后，得到了八组初始网页样本如下样本编组查询词北京大学考研股票江泽民教程联想集团三个代表世界杯返回数量扩展数量算法北京大学计算机科学技术系网络与分布式系统实验室孟涛学士论文上图中的正是我们用算法进行权值计算的对象。对于中的任意个元素，设表示其目录型权值，表示其权威型权值是链到的网页是从链出的网页，则和可以从下面的式子计算同算法类似，我们可以将所有的网页的目录型权值看作矢量，将所有网页的权威型权值看作矢量，设样本中所有网页及链接关系构成的有向图的邻接矩阵为，考虑到两个之间最多有个链接使得若存在网页到网页的链接则，否则那么上面的式子可以写成，由此两式可得即实际上是的特征向量同理是的特征向量......”。

4、“.....但考虑到系统内存对初始样本容量的限制，若数量很大的时候需要分块对两个矩阵进行迭代。试验结果在我们的研究工作中，我们没有通过计算特征向量而采取了根据前组公式直接进行迭代计算和值的办法，具体的实现算法如下采集初始样本时将所有的编号存入数据库，同时存入之间的链接关系创建相关的数据结构存储每个的和权值及链接关系，如文中所述，在实验中通过对其中两组样本改变重要性标准，我们得到了不同的质量覆盖率，这也是对上述不足的些修正。在未来的工作中，我们可以加大各组信息覆盖率评测方法中样本的容量和样本组数，从而能够得到更准确的覆盖率数据，减小误差。另外，以此为基础，研究搜集系统对可视信息的覆盖率也将具有积极的意义。参考文献，中国互联网络信息中心，第九次中国互联网络发展状况统计报告阎宏飞，李晓明，关于中国的大小形状和结构，......”。

5、“.....，，，，，，，，，，，，，，数据库中导出所有属性并填充到数据结构中给予和个初始值，分别计算和，直至和的距离足够小为止分别对和值进行冒泡排序，输出前若干个到文件中。在确定重要网页的界限时，我们选取的是初始网页样本中权值排在前面约左右的部分，大致与搜索引擎响应查询词返回的网页数量相当。即搜索引擎就此主题返回个重要网页，我们经过计算后也给出个真正重要的网页，检查搜集系统覆盖其中的比例作为质量覆盖率。对于具有较高权值的重要网页，实验的数据如下样本编组北京大学计算机科学技术系网络与分布式系统实验室孟涛学士论文查询词北京大学考研股票江泽民教程联想集团三个代表世界杯初始数量取数覆盖数量覆盖率八组样本所得的质量覆盖率分别为表几所示，它们的均值和方差分别为和，前者即为搜集系统对型重要网页的覆盖率。对于具有较高权值的重要网页......”。

6、“.....它们的均值为，表几所示方差为和，前者即为搜集系统对型重要网页的质量覆盖率。修正与分析在上述的算法中，我们将所有链接的地位视为平等，而事实上并非如此，我们可以从它的导向词与查询词的匹配度的不同处着手，这在和的工作中有论述。这里的导向词指的是该链接出现在网页源文件的地方前后约个字符之内的信息，它们般含有该链接网页内容或属性的说明。即，个网页中两个链接和，如果的导向词中出现北京大学次，而的导向词中未出现此字眼，在查询的主题是北京大学时，的地位要高于。我们称以此为基础的算法为扩展算法。假定查询词是，存在网页到的链接，提取出网页中的导向词，设，为在导向词中匹配的次数，则可以对算法作如下修正，，我们用这种算法对上述的组初始样本进行计算......”。

7、“.....从和两个角度求得的北京大学计算机科学技术系网络与分布式系统实验室孟涛学士论文搜集系统信息质量覆盖率均值分别为和。从实验数据可以看出，广度优先法和主题查询法所求得的质量覆盖率数据能够很好的符合，的搜集系统对普通的重要网页覆盖率在左右。如果对重要网页的标准提高些，则质量覆盖率的数据还要更高。结论本文针对搜索引擎搜集子系统对的信息覆盖能力，创建了信息覆盖率的量化研究模型。在这个模型中，我们提出两套取样办法，采取了两类典型的网页权值算法，分别从量和质的角度上分析计算搜集系统的信息覆盖率。运用这个模型，我们针对中国进行样本采集，从而对北大天网系统的平台所存储的中国国内网页数据的信息覆盖率进行评估。得到的数据显示，在数量上平台覆盖了中国国内网页总数的，而在质量上覆盖了重要网页总数的左右......”。

8、“.....尤其是在数量覆盖率这方面。对于同类型的信息覆盖率，采用不同取样和权值计算方法所验证得到的数据能够很好的符合，证明了信息覆盖率模型的正确性以及所获得平台信息覆盖率的准确性。实验结果肯定了天网搜集系统的较强搜集能力，并对进步改进这种搜集能力及相关平台的性能提供了重要的客观依据。本文不足之处在于对网页重要性的定性标准不够严密，对于算法，我们选取了权值位于前的网页作为重要网页而对于算法计算的查询所得扩展网页集合，我们选取重要的标准是和初始返回结果相等的量，约占权值排序后前面的数覆盖数可以通过最小二乘法对结果进行线性拟合，得到以下的二维图像。其中，横轴代表随机地址样本容量，纵轴代表搜集系统覆盖样本的数量，直线的斜率则表示信息覆盖率。从图中可知，自变量和因变量之间存在很好的次函数关系，覆盖率基本保持在左右。由此可以推断......”。

9、“.....的覆盖率将会保持在这个数量左右。模型修正和结果分析随机法产生了大量的随机地址，用这种方法可以很好的对上的所有提供服务的服务器进行取样随着样本容量的增加，样本的精确性也会增加。但是，这种采样方法存在些不足，导致信息覆盖率具有较大偏差。首先，地址标记的是服务器的网络地址，在大多数情况下，它等同于该服务器上运行的网站首页。这使得我们最终得到的网页集合实际上是上网站首页的个样本。使用地址将使得我们对所有的网站视同仁，忽略了网站的大小之别。个只有三五个网页的个人小网站如和个有着上千网页的大商业网站如，为的地址是不等同的，然而这种区别在随机地址取样中无法体现。另外，大量存在服务的服务器并非是实际意义上的网站。大多数系列操作系统自带的服务器软件，系统自带安装的软件，如此众多，都会在缺省条件下提供服务，而这些网站首页是没有实际意义的测试网页。类似的......”。

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。