中文Web测试集CWT200g之文档集的构建

格式：word 上传：2022-06-24 08:00:24

《中文Web测试集CWT200g之文档集的构建》修改意见稿

1、“..... ,目录第章引言与搜索引擎测试集和测试集中文测试集第二章文档集的设计原则文档集构造的几点考虑文档集的概况第三章文档集的构造中文网页分布特点种子站点的基本选取垃圾站点过滤网页的抓取后期处理第四章的统计数据规模统计网站域名统计网页形式分类分省网页统计第五章总结参考文献致谢第章引言与搜索引擎是的简称，中文名字为万维网。它是种基于的主从结构分布式网络信息系统，也是目前应用范围最广且最为成功的服务。最初是在年月，由欧洲量子物理实验室的物理学家提出的。于年在自己编写的图形化浏览器上显示了最早的页面。随后在年，正式发布了技术。的核心是超文本和超媒体技术。超文本与普通文本的不同点就在于超文本中加入了指向其他超文本的超链接，打破了传统文本的线性组织方式，使超文本之间能够以链接组织到起。通过超链接用户可以很方便的在超文本之间进行跳转，浏览相关的内容......”。

2、“.....超媒体不仅可以包含文字，还可以包含图形图像动画声音和视频片断，这些媒体之间也使用超链接来组织。超文本和超媒体技术为用户浏览信息提供了极大的便利，它使得用户在通过浏览器访问信息资源的过程中，无须再关心些技术细节。只需通过简单的方法就可以迅速的取得丰富的信息资料。这种便利也促成了在日后的飞速发展。在最近几年中，的规模直以极快的速度扩大着。年月，互联网上大约有亿万网页。而根据搜索引擎在年月索引网页表明，网页数已经超过亿。根据截止到年月日的统计表示，我国网站数已经达到,个，年增加,个，增长率为。百度于年月日正式宣布，百度索引的网页数量已经达到亿。天网实验室在今年年初的统计结果显示，目前中国国内的网页数量已经达到亿。如此大规模的信息资源，没有统的组织和规划，很难迅速有效的找到有用的信息。，即信息检索技术和搜索引擎则为这些问题提供了最有效的解决方法。搜索引擎通过维护个大规模的再现资源数据库来为用户提供搜索服务......”。

3、“.....索引系统以及相关性判断系统组成。当前最具代表性的搜索引擎有百度和天网等。测试集测试集是用来测试信息检索系统性能的套标准数据的集合。大规模数据集是加速信息提取领域研究的基础。任何信息检索系统在大规模测试集上的性能表现能够从定程度上体现出该系统在实际应用中的性能。任何信息系统只有在通过大规模测试集上的测试并给出满意的结果后，才能进入实际应用。由此也可看出，大规模测试集和评测是改进信息检索技术和信息检索系统的关键。个完整的测试集由三部分组成文档集查询集和相关判断集。文档集是组文档的集合，该组文档的内容用来被信息检索系统进行文字分析。它是信息系统评估的数据基础。查询集是向信息检索系统提出的问题的集合。这些问题依据信息检索系统和所需进行评估的项目不同，可以是个或组关键词，也可以是段描述。通常这些问题由建立相关判断集的人员来制作。由于相关判断集的制作非常耗费时间，所以这些问题的数量通常控制在几百个左右......”。

4、“.....加快技术从研究到商业化的转变速度发展适当缺据应用性的评估技术，供各界遵循采用，包括开发更加适用于现有系统的新的评估技术。从开始，开始使用测试集完成评估工作。测试集的特征如下 抓取域名下的网站年早期 在抓取百万格式的网页后停止 还包括格式的文本和从，和文件中提取的文本 为像基于链接的排序这样的应用提供了重复表和重定向表 单文件大小限定在以内从降低到 严格的文件检查没有二进制文件比的文档数更少，但更大的平均文当大小。测试集统计信息文档数依据服务器提供的类型 , , , , 其他文本文档包, 总大小, 平均包大小平均文档大小, 文档限制大小实际上约空文档中文测试集是由北京大学网络与分布式实验室天网组制作的针对于中文信息检索领域的中文测试集。它根据天网搜索引擎截止年月日发现的中国范围内提供服务的个主机，从中采样,个站点，在年月搜集获得个网页......”。

5、“.....容量为。其中每个网页对应的服务器返回信息中的类型都是或者。数据集从年月日开始提供下载。在中文信息检索领域，得到了广泛的应用，截至年月申请该测试集的研究机构已经超过家，连续两年年和年被中文信息检索评测和信息检索评测指定为测试集。第二章文档集的设计原则文档集构造的几点考虑通常来说，文档集相比测试集的其他组成部分起着更至关重要的作用。由于当今领域的技术应用基本都面对，因此选取制作的文档集应该能够很好的体现出真实环境所具有的特点。从而个高质量的文档集应该具有非常广的主题范围，同时又具有相当的规模。般来讲，这两点在实际当中是相辅相成的。和，等人针对文档集的代表性提出了三个问题文档集应该使用静态的采集还是应该使用动态采集这个文档集相对于父集的代表性有多大能够满足般和特殊应用和研究的文档集的大小是多少对于第个问题，我们倾向于采用静态的方式来采集构造大规模文档集的网页......”。

6、“.....即在任何时间搜集到的网页都可以随时添加到大的文档集当中。虽然对于搜索引擎来说，动态增量的采集方法更为灵活并且效果更好，但是动态的采集策略却会给文档集的构造带来麻烦。首先，增量搜集会给文档集消除冗余带来麻烦。在下文将可以看到，的构造过程中，采用了来判断和消除数据集内重复的网页。由于需要对比所有网页的值来判断数据集内网页是否重复，因此这种方法的计算量是非常大的。如果采用动态的采集方法，对于每次的增量采集，采集到的集合中都可能包含与文档集中相重复的网页。因此，每当要把搜集到的网页添加到文档集当中，都必须进行次消重操做，这会导致数据集构造构成对系统资源的需求增加，同时延长数据集构造的时间跨度。其次，增量采集很可能导致对网站大小的估计，因而影响采样。文档集构造的个核心问题就是对于文档的采样策略。当前的采样策略都是基于网站规模的，如果采用增量搜集的话，每次加入的网页可能会影响到站点下网页的多少，因而会影响到采样的结果......”。

7、“.....我们希望能够在通过定的搜集策略下，很好的描绘出网站的大小，然后再针对于文档集进行采样。然而，增量采集的过程会使特定搜集策略对网站规模的估计失效，从而给文档集的构造带来意想不到的结果。再次，增量采集的时间跨度比静态采集的时间跨度更大，因此制作出来的文档集更容易被网站内容在时间上的变化所影响。而实际中，我们更希望文档集是在特定时间点上的子集，因此时间跨度相对较小的静态采集才是首选。对于第二个问题，要使文档集能够具有代表性，首先要让文档集具有定规模，能够容纳下相当数量的网页。天网实验室孟涛同学在年初已经收集到的属于中国的网页已经达到亿之多。因此我们新的数据集也必须能在容量上跟上的发展速度。然而，从另个角度说，如果味增大测试集的规模，将会使相关判断集的制作非常消耗人力。因此我们必须在代表性和规模之间作出权衡。其次，这个大规模的数据集必须能够比覆盖尽可能多的主体，保持内容上的多样性。相比的数据集的抓取仅仅局限在的域名下，数据集的抓取范围仅仅做了很小的约束......”。

8、“.....仅从这点上，就保证了能有更好的主题覆盖范围。另外，相对于，在网页采集过程中还加入了动态网页的搜集，并采用了系列策略来保证能够很好的体现网站规模的同时，避免抓取的网页全部集中在很少的网站上。从而尽可能覆盖更多的网站，以达到提高内容多样性的目的。对于第三个问题，文档集大小的设定，更多的是考虑到数据易用性。由于在年初，的硬盘的价格已经达到可以接受的范围，因此，我们将数据集的规模设定在，同时为了能提供更多的信息，我们在保存的时候使用了压缩的天网格式。文档集的概况根据天网搜索引擎在年月份搜集网页所发现的中国范围内提供服务的，个主机，通过系列处理和过滤后得到，站点。然后对这些站点进行网页搜集，每个网站的搜集深度为，单个网站搜集的数据量不限，得到初始数据集。所有搜集的网页都具有或者的属性。然后针对得到的原始数据集进行后期处理和采样，得到容量为的的测试集，共包括，个站点，个网页......”。

9、“..... 针对中文信息检索评测的需求，构建了文档集。目前该测试集已经用于中文信息检索评测。系列测试集是针对中文信息检索评估而制作的大规模测试集。该测试集的第二版不仅相对于在容量上提高倍，还针对中存在的问题，加入垃圾站点过滤和网页级别的重复内容过滤，并采取新的网页抓取策略，在提供更大的信息量的同时，保证整个数据集的内容质量。论文对于的种子站点列表制作垃圾站点消除抓取策略和后期的消重采样工作进行介绍。特别对于制作过程中不同于的步骤进行了重点分析与讨论。毕设期间，秦琦同学工作努力，态度积极，按计划完成了任务，表现出定的自主研发能力和较强的动手能力。指导教师签字年月日摘要在信息检索领域中，信息检索系统评估对于信息检索系统的研究开发和应用有着显著的影响......”。

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。