帮帮文库

返回

(大规模网页模块识别与信息提取系统设计与实现)(最终版) (大规模网页模块识别与信息提取系统设计与实现)(最终版)

格式:word 上传:2022-06-25 14:36:14

《(大规模网页模块识别与信息提取系统设计与实现)(最终版)》修改意见稿

1、“.....共得到个确定类型的网页,其中包括个主题型网页,个非主题型网页,主题型网页数目非主题型网页数目,经验证,大致符合原网页集中的类型分布。利用该个网页,评测各组参赛数据。虽然我们的样本数偏少,但由于样本中的类型分布大致符合原网页集中的类型分布,所以评测结果基本反映了各组的实际分类质量,只不过没有形成明显差距。华南理工队和大连理工的分类质量相对最佳,而人民大学和山东大学提交的三个结果,分别将个网页中的个判断为了主题型网页,过高地估计了主题型网页的比例,从而大大降低了精度,但值得提的是,山东大学提交的结果获得了最高的召回率。评测结果如下主题型网页发现任务评测结果较好的队伍是华南理工队和大连理工,分别代表了网页整体性判断和网页分块判断两种主要的实现方法。网页整体性判断方法以华南理工队的方法最为典型......”

2、“.....基于启发式规则判断第二步提取更详细的特征信息,用分类第三步还基于信息块提取的结果反馈,进步筛选出主题型网页。华南理工队也属于整体性判断方法,但只使用了分类器方法山东大学队则只使用了较简单的启发式规则。网页分块判断方法以大连理工队的方法最为典型,在网页分块的基础上,判断各个网页块的类型。如果个网页里都是非主题型块,则为非主题网页。若含有主题块,则为主题型网页。其中判断各个网页块的类型是综合基于规则和基于概率的方法,同时针对本次任务的网页特性做了优化。而四川大学的方法比较特殊,在网页分块的基础上,使用网页块分布的方差和弯曲度属性区分导航型和主题型网页,不足在于使用规则过少,只使用了网页块的文本大小信息。综合所有队伍提取和使用的特征信息,大致有如下几类相关的特征信息包括中数字的个数的深度以及的后缀......”

3、“.....其他特征信息包括网页文本内容中标点符号的个数正文的文字长度特殊标签如是否出现,以及包含特殊关键词与否。下图是各组结果的值大小的直观显示网页内容信息发现任务评测结果我们事先人工标记了个网页中的个主题型网页,标记方法为给的标签添加属性,如正文内容相关链接噪音内容其中标记为的就是内容信息块标记为的是相关链接而标记为的则是噪音内容。因为各组提交的结果只针对第项任务中发现的主题型网页找出内容信息块,而我们标记的个网页并没有被各组致判定为主题型网页,只有其中的个网页被各组致判定为主题型并提取了内容信息块其中华南理工二队没有根据他们第项任务里找出的所有主题型网页来完成第二项任务,定程度上影响了各组的重合度。所以本任务的评测就依据这个标记过的主题型网页,样本量偏少。根据各组提交的格式为的结果文件......”

4、“.....然后逐比较标记过的网页与各组提取的网页。从评测结果可以看出,大连理工提交的结果评测成绩十分优异,精度和值超过了。鉴于我们标记的样本集中也可能存在少量的误标的情况,其召回率应该也达到了。评测结果如下网页内容信息块发现任务评测结果较好的队伍是大连理工队和我的模块。同样,各队的实现方法可大致分为网页整体性判断和网页分块判断两种。网页分块判断其余各队的分块方法都比较简单。大连理工提交的两个结果分别采用了以四个标签为分块节点,和仅以标签为分块节点两种方法。后者由于过于简单,实际评测效果不如前者。而山东大学提到根据,等容器标签对网页分块,再根据种规则对些网页块进行合并的改进型算法,但不知是否最终实现。在噪音过滤,网页分块的基础上,大连理工采用了基于规则和基于的语义分析方法,同时针对本次任务的网页特性做了优化,效果优异。但大连理工的这两种方法有些重合之处......”

5、“.....对等标签可能做了特殊处理,在他们的工作报告中没有提及。在网页分块的基础上,山东大学提取文字数最多的网页块作为网页内容信息块,这方法的缺点是不能处理含有多个内容信息块的网页。网页整体性判断华南理工队,二队采用了整体性判断方法。华南理工队的方法是由叶子节点开始,向上寻找包含所有有效文本信息的最近节点。其中有效文本信息的判断是依靠每个节点的文本长度。这个方法的局限是不能处理含有多个内容信息块的网页,而是不能处理所有网页,比如表算法,该算法是对文本相似度和后验概率估计两种方法的结合。文本相似度算法偏重于语义块内部的文字内容,是从文本的角度衡量个语义块的重要程度而后验概率估计算法提出的条先验概率都反映的是语义块内部的结构信息,是从结构的角度衡量语义块的重要程度。两个算法分别计算主题内容信息块,然后求交,最后得到的信息块既能反映其文本的重要性......”

6、“.....防止了单个算法可能导致的偏差,提高了网页主题内容信息提取的精度和召回率。中文信息检索评测项目。本文介绍了这次评测项目的题目设计,测试集产生评测方法和评测结果,检讨了这次评测的不足之处。通过这次评测,算法的效果得到了检验,同时,受大连理工等参赛队伍的思路启发,我改进了算法,提高了效率。算法。算法起源于的算法,但后者不是分布式的。算法基于网络实验室的天网文件系统和计算平台,本文描述了环节和环节的算法步骤。展望这篇论文基于我这段时间以来在网络实验室天网组的工作,现在虽然论文已经告段落,但工作上仍然有许多遗憾,我还会尽量改进。算法的大遗憾就是没有利用视觉信息。虽然我们是在平台下,但仍然有可能通过调用的开源代码来获取网页中的视觉信息。其次,应该可以尝试用类似于第二章提到的的算法,用机器学习的方法来指导分块。算法中,文本相似度比较方法可以改进,比如增加权重......”

7、“.....而后验概率密度方法也可以进步改进效率,比如增加更多的概率项。评测中,今年的评测存在样本数过少,评测题目设计不够精确等问题,而参赛队伍提交的结果的质量也是参差不齐。希望明年能更详细设计,吸引更多优秀的参赛队伍。今年的评测报告公布之后,也有其他大学未参赛的学生跟我联系和讨论,认为我们的评测是中文领域很权威的信息检索评测,这让我感到很惭愧,当初应该更认真地将这次评测做得更好。算法对网络传输的消耗很大,应该探讨有没有更好的设计方案可以改善网络传输量。同时应该实现更多基于的相关应用。致谢在即将要离开北大的时候,心中充满了留恋与感慨。这篇稚嫩的毕业论文主要基于我这年来在网络实验室天网组的学习和工作内容,这年对我来说是弥足珍贵的年,在天网组浓郁而愉悦的学术氛围中,我得以天天向各位老师和师兄师姐们学习,努力获取点滴的进步......”

8、“.....还有很多需要改进和提高的地方,但却印刻了我这年的足印。感谢闫宏飞老师在我的平常学习生活中以及在这篇论文的撰写过程中对我的监督与鼓励。闫老师踏实的治学态度和严谨的工作作风使我受益匪浅,直指导和规范着我在实验室的学习和工作。感谢我的班主任彭波老师在学习和生活上给我的贯帮助。彭老师除了对班级同学尽心尽力,工作中也认真负责,教给了我很多以前没有了解的知识和技术。感谢天网组里的每位聪明进取的师兄师姐们。每当我有不懂的问题时候,他们总会不厌其烦地教导我。从他们身上我不仅学到了很多知识,还学到了很多做人做事的道理,感受到了他们刻苦学习的热情,他们是我永远的榜样。在天网组里有温馨有欢笑,有学术有运动,使我度过了无比充实而快乐的年。感谢关心我的同学和朋友们。你们不仅让我感受到生活的乐趣,还不断鞭策我反省自己的过错和不足,努力向你们看齐。感谢北京大学四年来的教育......”

9、“.....北京大学就是我唯梦牵魂绕的地方,能有这四年与北大共呼吸同命运,是我最大的自豪。不论以后我走到哪里,北大都将是我最牵挂的地方。最后要感谢我的爸爸妈妈,直毫无保留地支持我的选择,支持我的学业。参考文献,,,,,,,,,,中文信息检索论坛网页信息存储的天网格式,格型网页需要单独处理。华南理工二队采用算法,考察了相似度对的影响,通过网页间结构比较,并计算锚文本与正文块的比例来提取内容信息块,算法相对比较完善,但也有对不同类型的网页处理时普适性不够的问题。其他特殊方法四川大学的算法比较特殊,他们认为内容信息块在长度上相对孤立,所以使用了基于偏差的孤立点检测算法,以块的大小作为属性,检测孤立点,得到的孤立点即内容块。这个算法的缺点在于只以内容长度作为衡量标准,特征过少。下图是各组结果的直观显示评测综述本次评测从设计上和数据上还有很多缺憾数据集的抓取不够有代表性......”

下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
大规模网页模块识别与信息提取系统设计与实现.doc预览图(1)
1 页 / 共 39
大规模网页模块识别与信息提取系统设计与实现.doc预览图(2)
2 页 / 共 39
大规模网页模块识别与信息提取系统设计与实现.doc预览图(3)
3 页 / 共 39
大规模网页模块识别与信息提取系统设计与实现.doc预览图(4)
4 页 / 共 39
大规模网页模块识别与信息提取系统设计与实现.doc预览图(5)
5 页 / 共 39
大规模网页模块识别与信息提取系统设计与实现.doc预览图(6)
6 页 / 共 39
大规模网页模块识别与信息提取系统设计与实现.doc预览图(7)
7 页 / 共 39
大规模网页模块识别与信息提取系统设计与实现.doc预览图(8)
8 页 / 共 39
大规模网页模块识别与信息提取系统设计与实现.doc预览图(9)
9 页 / 共 39
大规模网页模块识别与信息提取系统设计与实现.doc预览图(10)
10 页 / 共 39
大规模网页模块识别与信息提取系统设计与实现.doc预览图(11)
11 页 / 共 39
大规模网页模块识别与信息提取系统设计与实现.doc预览图(12)
12 页 / 共 39
大规模网页模块识别与信息提取系统设计与实现.doc预览图(13)
13 页 / 共 39
大规模网页模块识别与信息提取系统设计与实现.doc预览图(14)
14 页 / 共 39
大规模网页模块识别与信息提取系统设计与实现.doc预览图(15)
15 页 / 共 39
预览结束,还剩 24 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为word文档,建议你点击DOC查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批

搜索

客服

足迹

下载文档