帮帮文库

返回

【毕业设计】中文Web测试集CWT200g之文档集的构建 【毕业设计】中文Web测试集CWT200g之文档集的构建

格式:word 上传:2022-06-24 20:04:31

《【毕业设计】中文Web测试集CWT200g之文档集的构建》修改意见稿

1、以下这些语句存在若干问题,包括语法错误、标点使用不当、语句不通畅及信息不完整——“.....索引系统以及相关性判断系统组成。当前最具代表性的搜索引擎有百度和天网等。测试集测试集是用来测试信息检索系统性能的套标准数据的集合。大规模数据集是加速信息提取领域研究的基础。任何信息检索系统在大规模测试集上的性能表现能够从定程度上体现出该系统在实际应用中的性能。任何信息系统只有在通过大规模测试集上的测试并给出满意的结果后,才能进入实际应用。由此也可看出,大规模测试集和评测是改进信息检索技术和信息检索系统的关键。个完整的测试集由三部分组成文档集查询集和相关判断集。文档集是组文档的集合,该组文档的内容用来被信息检索系统进行文字分析。它是信息系统评估的数据基础。查询集是向信息检索系统提出的问题的集合。这些问题依据信息检索系统和所需进行评估的项目不同,可以是个或组关键词,也可以是段描述。通常这些问题由建立相关判断集的人员来制作。由于相关判断集的制作非常耗费时间,所以这些问题的数量通常控制在几百个左右......”

2、以下这些语句存在多处问题,具体涉及到语法误用、标点符号运用不当、句子表达不流畅以及信息表述不全面——“.....它被用来对比信息检索系统对于查询集中的问题所给出的答案。信息系统所给出的答案和相关判断集中的答案越相近,则证明该信息检索系统的质量越高。因此,相关判断集的正确性和权威性至关重要。通常,相关判断集通过人为手动判断获得。由于当今规模的飞速发展,上的信息已经能够覆盖很广泛的范围,因此最常用的个构造测试集的方法就是构造个的子集,使用这种方法所获得的集合叫做测试集。目前,世界上已经有和分别提供了面向英文和日文检索系统的测试集。是由北京大学提供的第个面向中文信息检索系统的中文测试集。对于测试集来说,采用何种方法来构造大规模的子集,以使其能够很好的体现出实际系统的特点是最重要的问题。文档集质量的高低直接决定了整个测试集的质量和信息检索系统评估工作的效果。和测试集为了促进信息检索的研究与应用的发展,美国国防部高等研究计划局,简称与美国国家标准技术局,简称共同举办了。通过自己制作的大型测试集......”

3、以下这些语句在语言表达上出现了多方面的问题,包括语法错误、标点符号使用不规范、句子结构不够流畅,以及内容阐述不够详尽和全面——“.....组合成套评估检索系统的机制。在年举办了第届会议,其后持续每年年底举办。除了与会者依据大会提供的测试集送回各个测试项目的资料以进行评估之外,还会有为期三天的研讨会,与会者可以在会中发表信息检索系统的架构评估结果,并相互讨论切磋。将自身的目标归结如下以大规模测试集为基础,推动信息检索领域的研究通过开放式的论坛,促进与会者交流研究成果与心得,以增进学术界产业界与政府的交流互通通过展示在处理实际问题的检索方法上的实质改进,加快技术从研究到商业化的转变速度发展适当缺据应用性的评估技术,供各界遵循采用,包括开发更加适用于现有系统的新的评估技术。从开始,开始使用测试集完成评估工作。测试集的特征如下抓取域名下的网站年早期在抓取百万格式的网页后停止还包括格式的文本和从,和文件中提取的文本为像基于链接的排序这样的应用提供了重复表和重定向表单文件大小限定在以内从降低到严格的文件检查没有二进制文件比的文档数更少......”

4、以下这些语句该文档存在较明显的语言表达瑕疵,包括语法错误、标点符号使用不规范,句子结构不够顺畅,以及信息传达不充分,需要综合性的修订与完善——“.....测试集统计信息文档数依据服务器提供的类型其他文本文档包,总大小,平均包大小平均文档大小,文档限制大小实际上约空文档中文测试集是由北京大学网络与分布式实验室天网组制作的针对于中文信息检索领域的中文测试集。它根据天网搜索引擎截止年月日发现的中国范围内提供服务的个主机,从中采样,个站点,在年月搜集获得个网页,包括网页内容和服务器返回的信息,容量为。其中每个网页对应的服务器返回信息中的类型都是或者。数据集从年月日开始提供下载。在中文信息检索领域,得到了广泛的应用,截至年月申请该测试集的研究机构已经超过家,连续两年年和年被中文信息检索评测和信息检索评测指定为测试集。第二章文档集的设计原则文档集构造的几点考虑通常来说,文档集相比测试集的其他组成部分起着更至关重要的作用。由于当今领域的技术应用基本都面对,因此选取制作的文档集应该能够很好的体现出真实环境所具有的特点。从而个高质量的文档集应该具有非常广的主题范围......”

5、以下这些语句存在多种问题,包括语法错误、不规范的标点符号使用、句子结构不够清晰流畅,以及信息传达不够完整详尽——“.....般来讲,这两点在实际当中是相辅相成的。和,等人针对文档集的代本消除,然而在接近于零的位置,图形依然很不平滑。因此考虑到这些网站所包含的页面链接很少,搜集他们对于文档集能提供的信息和链接关系不多,而且通过人为随机采样验证这些站点中大多数都属于垃圾站点,因此我们将所有页面数小于的主机地址全部清除,共除去,个主机地址。网页的抓取经过系列的过滤和处理,我们得到了,个种子站点地址来进行网页的抓取。网页的抓取的过程中,并不是所有的网页都需要从网站上抓取下来。因为目前的信息检索系统主要面对的都是具有和类型的文档,因此在抓取过程中,我们仅保存服务器返回类型为上述两种类型的文档。其次,由于中文中有很多网站采用了动态页面技术,因此在网页抓取过程中,我们保留了所有具有动态生成的网页中未收录此类网页。抓取过程中面对的两个主要的问题是原始网页的保存格式和对于网页抓取的策略。对于原始网页的保存格式......”

6、以下这些语句存在多方面的问题亟需改进,具体而言:标点符号运用不当,句子结构条理性不足导致流畅度欠佳,存在语法误用情况,且在内容表述上缺乏完整性。——“.....追加在天网格式头的后面。对于同个主机名下的网页,都保存在以主机名与之后的第个之间的部分命名的文件夹下的中。所有以主机命名的文件夹都根据主机名称计算的哈希值分别存放在到这个文件夹中。哈希算法采用的是的类库中的类自带的算法。分配方法为,使用类计算出主机名称的哈希值之后,将该哈希值模,所得结果前面加上即为该主机文件夹所在的文件夹。经过这样的映射之后,使得每个开头的文件夹下的数据都保持在约左右。通过这样的存储结构,能够很快的确定个主机对应的数据文件的位置。同时,通过将网页数据进行压缩,也有效的减低了对磁盘空间的需求。抓取过程中,我采用了全新的程序进行抓取,该程序采用了与抓取初始数据的程序相类似的策率。具体如下对于每个主机地址,都单独创建个线程进行抓取抓取过程中,对于每张网页内的链接,仅对在该主机下的链接继续抓取每个主机上的网页采用广度优先的抓取侧率,抓取三层,抓完即停......”

7、以下这些语句存在标点错误、句法不清、语法失误和内容缺失等问题,需改进——“.....通过将中每个主机抓取程序的纪录文件达到后自动停止改为广度优先,抓取三层,容量不限,使得我们抓回的网页能够很好的体现出该网站的规模与链接特点。另外,通过加入动态网页抓取,能够覆盖更多的网页资源和网上的信息。这两点是对于最重要的改变。通过上述抓取过程,我们得到了约的原始网页数据。后期处理在完成抓取原始网页数据后,还需要些后期处理才能正式完成的制作,即全局消重和采样。所谓全局消重,主要是针对种子站点制作中网站消重的扩展与补充。全局消重首先要计算出每个网页的值,然后按照与主机消重类似的方法将,用网页的值作为数据库的键值,用网页的作为数据库中的数据项组成纪录插入到数据库中。如果遇到有相同值得网页,则说明这两个网页的内容是相同的,因此只需在两个中任意选择个就可以。这么做的目的是完成在网页级的消重。因为在实际情况中,会有两种主要的问题引入重复的网页。第,对于动态网页......”

8、以下文段存在较多缺陷,具体而言:语法误用情况较多,标点符号使用不规范,影响文本断句理解;句子结构与表达缺乏流畅性,阅读体验受影响——“.....但是有时两个会在个参数上存在差异,但实际上仍然指向同个网页。第二,很多网站对于些地址往往会有个默认的页面,这样在链接中不用写出具体的页面文件就可以直接访问到页面。这种情况通常出现在网站的首页。比如,和指向的是同个页面。通过全局消重,以上两种问题都可以迎刃而解。然而实际处理过程中并不能将所有的和信息放在个数据库中。因为抓回的原始网页已经大约有千万,如过只是用个数据库来处理,会造成数据库非常庞大,使得数据库无法保持在内存中。而如果在这样的数据库中查找或者插入数据将需要频繁的内存换页和硬盘读取,导致系统效率低下。为此,我们网页的的值模,然后根据余数将和信息存放到对应个小的数据库中。这样的好处是可以很好的控制数据库的规模和效率,使数据库能够保持在内存中,从而提高效率。通过实际对比,保存到同个数据库中消重需要天时间,而使用个小数据库则只需小时。文档集的最后步就是采样。根据消重后的结果,我们所需的采样率为......”

9、以下这些语句存在多方面瑕疵,具体表现在:语法结构错误频现,标点符号运用失当,句子表达欠流畅,以及信息阐述不够周全,影响了整体的可读性和准确性——“.....我们的具体采用过程如下确定网站规模的范围将网站的规模数每个分为组,从每组中随机的抽取个网站规模数,根据选出的网站规模数,找到对应的主机名,根据主机名,确定出网页的根据从原始网页数据中,抽取出网页,并按照前面制定的保存规则保存。通过上述的采样策略,我们共选出,个站点,个网页,并按照中所述的方式存储。至此,的制作完成。第四章的统计数据规模统计个数大小平均大小网页网站,网站域名统计域名类型百分比网页数动态网页数网站数其他网页形式分类页面类型页面数量百分比,分省网页统计省份百分比网页数动态网页数网站数北京,上海,广东,江苏,天津浙江福建,河南山东,重庆湖北四川河北辽宁湖南广西江西黑龙江陕西安徽云南甘肃吉林内蒙山西贵州新疆海南宁夏青海西藏其他第五章总结文档集是在的构造经验的基础上,针对中所存在的问题进行改进并构造的新的测试集,它不仅在容量上对进行了扩展......”

下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
【毕业设计】中文Web测试集CWT200g之文档集的构建.doc预览图(1)
1 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建.doc预览图(2)
2 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建.doc预览图(3)
3 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建.doc预览图(4)
4 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建.doc预览图(5)
5 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建.doc预览图(6)
6 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建.doc预览图(7)
7 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建.doc预览图(8)
8 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建.doc预览图(9)
9 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建.doc预览图(10)
10 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建.doc预览图(11)
11 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建.doc预览图(12)
12 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建.doc预览图(13)
13 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建.doc预览图(14)
14 页 / 共 29
【毕业设计】中文Web测试集CWT200g之文档集的构建.doc预览图(15)
15 页 / 共 29
预览结束,还剩 14 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

  • 文档助手
    精品 绿卡 DOC PPT RAR
换一批
【毕业设计】中文Web测试集CWT200g之文档集的构建
帮帮文库
页面跳转中,请稍等....
帮帮文库

搜索

客服

足迹

下载文档