帮帮文库

返回

毕业论文:互联网网页文本对象抽取实现技术 毕业论文:互联网网页文本对象抽取实现技术

格式:word 上传:2022-06-24 19:06:22

《毕业论文:互联网网页文本对象抽取实现技术》修改意见稿

1、“.....该系统采用了期望驱动,脚本与数据驱动,输入文本相结合的处理方法。这种方法被后来的许多信息抽取系统采用。从世纪年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消息理解系列会议,的召开。正是系列会议使信息抽取发展成为自然语言处理领域个重要分支,并直推动这领域的研究向前发展。目前,随着对信息抽取技术的不断发展,各种抽取系统也层出不穷。当前的发展趋势在慢慢减少人工标记的分量,而采用非标记的训练模型来实现信息抽取。根据这趋势,信息抽取系统可以分成四类人工构造的抽取系统基于指导的抽取系统半指导的抽取系统以及非指导的抽取系统。互联网多年的自由发展使得大量无结构信息的积累成为现实,这些信息为互联网用户带来更多选择的同时极大地增大了人们获得所需信息的复杂度。网络搜索引擎的发明在定程度上缓解了这种窘境,通过网络搜索引擎服务商对信息的收集和筛选,人们能够方便地获得些所需信息。这样就出现了项与信息抽取密切相关的研究信息检索,技术......”

2、“.....并根据信息用户的需要找出有关信息的过程。信息抽取与信息检索存在差异,主要表现在三个方面功能不同。信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合,不需要对文本进行深入分析理解而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。虽然信息抽取与信息检索有区别,但两种技术是互补的。为了处理海量文本,信息抽取系统通常以信息检索系统如文本过滤的输出作为输入而信息抽取技术又可以湖南大学软件学院用来提高信息检索系统的性能。二者的结合能够更好地服务于用户的信息处理需求......”

3、“.....它推动着通用搜索引擎向新型的垂直搜索引擎发展,从而能够更好地满足用户的需要,让搜索变得更快更直接更有效。通用的搜索引擎是基于网页级别的,因此有时候无法直接获得想要的信息,而是需要点开很多个链接,分别在这些网页中去找寻所需要的信息。很多时候,用户得到的信息往往不是事先所期望的,或者信息非常杂乱而零散。通用搜索引擎在这些方面的不足让人们开始了对搜索引擎更深层更细致的研究。如今,新型的搜索引擎把研究单元定格在了对象级别。互联网快速增长的海量资源使得人们对于搜索引擎的查询结果有了更高的要求,鉴于的成功,如何基于文本信息抽取的方法,结合网页不同于纯文本的各种特征进行网页信息包括文本图片音频和视频等的分析和抽取,以改进网络搜索引擎,成为互联网信息检索研究者关注的重要问题。互联网信息抽取技术通过将无结构或半结构的互联网数据结构化,为理解用户查询与网络文档之间以及不同网络文档之间的相关性提供了基础......”

4、“.....对象级别的搜索引擎的个显著优点是可以利用对象的语义信息,采用直接或者聚合的结果来响应复杂查询,将具体的搜索结果清晰明了地呈献给用户。本课题研究的目的旨在传统信息抽取思想的基础上,提出种互联网网页文本对象的抽取实现方法,为解决当前博客垂直搜索的问题提供种切实可行的方式。国内外研究状况关于信息抽取的研究在国内外已经开展了相当段时间,本节简要介绍了国内外信息抽取技术研究的进展。国内研究现状国内对中文信息提取系统的研究起步较晚,还集中在命名实体识别方面,遵照规范的完整的中文信息提取系统目前还处于探索阶段。中国研究中心在上演示了他们开发的个抽取中文命名实体以及实体间关系的系统。在和上,增加了中文系统的评测项目,国立台湾大学和新加坡肯特岗数字实验室参加了中文命名实体识别任务的评测,测试了中文命名实体人名地名时间事件等名词性短语的识别,取得了与英文命名实体识别湖南大学软件学院系统相近的性能......”

5、“.....并不能真正进行中文信息提取。另外,北京大学计算语言所对中文信息提取也作了比较早的和比较系统的探讨,承担了两个有关中文信息提取中的每个通过决策树判断为正文块中的文本返回,且不为标签的属性类中是标记湖南大学软件学院中类中对应的标记数目是类的标记并且的文本长度不为的属性类中类标记数目的属性类中的文本长度的的文本返回的第个孩子结点没有兄弟结点没有兄弟结点为标记返回湖南大学软件学院的下个兄弟结点的下个兄弟结点返回系统展示在的地址栏中输入,例如出现智叟搜索引擎的首页,如图所示图查询首页该界面中的文本框为用户输入查询词的地方。输入查询词,点击按钮后,页面跳转到结果显示页面,如图所示湖南大学软件学院图查询结果显示页面在结果显示页面中,当鼠标移动到条结果项的时,将出现博客网页正文预览,如图所示湖南大学软件学院图正文预览湖南大学软件学院总结本文的主要工作总结研究信息抽取技术的原理发展现状及其与信息检索的区别和联系......”

6、“.....研究信息抽取技术的原理方法流程及应用,并深入探讨网页文本对象抽取技术的理论和方法。提出种基于特征和机器学习的博客正文抽取实现方法,详细介绍其原理和具体过程结合专门的统计工具对该博客正文抽取实现算法进行统计训练,并给出测试结果对该博客正文抽取算法进行思考和总结,总结出该算法的优点以及需要改进的地方。将来的工作整个抽取算法是针对博客正文而进行的。为了能使博客搜索的功能更强大更全面,可以扩大抽取的范围,从而抽取到更多更全的博客信息来供用户进行更有效的查询。这些信息包括博主昵称文章标题文章更新时间好友和评论等等。在博客正文抽取算法中,抽取到的结果是纯文本的正文信息,而不包括字体样式大小以及布局等格式信息,如何要给用户更加直观的效果,可以把这些格式信息也列入考虑范围之中。在博客中,些正文的内容是没有任何文字的,而是全部的图片信息。本博客正文抽取算法只针对文本信息而言......”

7、“.....湖南大学软件学院致谢首先,感谢我的父母,为了我,他们付出了很多很多。在湖南大学软件学院学习的四年,是我人生中的个重要历程。本文及课题是在林亚平院长的悉心指导下完成的,在课题的研究过程中,林院长总是在百忙之间抽出时间与我们进行课题的讨论以及生活上的交流,给我们提出了许多有建设性的意见,因此我的毕业设计才得以顺利完成。感谢林院长的给与我的帮助和指导。感谢王实和刘喜亮两位学长,整个毕业设计的过程中,他们给了我很多设计思想上的指导以及技术上的帮助,衷心感谢他们的无私帮助。同时也感谢我们课题组的其它两位同学李红亮赖凌飞,我们的毕业设计是个大项目智叟搜索系统的不同模块,我很高兴能够和他们合作,谢谢他们付出的努力以及给我的帮助。在我的大学四年之中,很多人给了我莫大的支持和鼓励。在我内心深处,我直在默默地感激着他们。感谢谢丙炎副校长李透忠书记和陈军主任,在他们的关爱和支持下我才能顺利入学......”

8、“.....他们在四年里给了我很大的鼓励和支持。感谢许晖老师潘滢伊老师李世勇老师吴越湘老师吴玥老师李司铎老师,他们总是在工作上给与我指导和帮助,在生活上给与我支持和鼓励。感谢凌小宁老师和陈浩老师在创新课程上对我的指导,它是我大学学习过程中个很重要的里程碑。感谢周军海老师在工程实训和企业实习过程中给与我的帮助和指导。感谢比我高个年级的王嘉鸿学长和张韧禾学姐,四年的坎坷路程中,他们给了我精神上最大的支持和鼓励。最后,再次感谢学校学院各级领导和老师的关心和支持,我才能够圆自己的大学梦。感谢软件学院所有老师为我付出的辛勤劳动。对各位专家百忙之中对于本文的审阅和赐教表示衷心的感谢,湖南大学软件学院湖南大学软件学院参考文献刘迁,焦慧,贾惠波信息抽取技术的发展现状及构建方法的研究北京清华大学精密仪器与机械学系,清华大学光盘国家工程研究中心李保利,陈玉忠,俞士汶信息抽取研究综述北京北京大学计算机科学与技术系......”

9、“.....王颖楠,胥桂仙文本信息抽取与挖掘方法吉林长春长春工业大学计算机科学与工程学院王娜博客搜索引擎与传统搜索引擎的比较研究武汉武汉大学信息管理学院图书情报工作于满泉,陈铁睿,许洪波基于分块的网页信息解析器的研究与设计北京中国科学院计算技术研究所,中国科学院研究生院计算机应用宋睿华,马少平,陈刚,李景阳种提高中文搜索引擎检索质量的解析方法北京清华大学计算机科学与技术系,清华大学智能技术与系统国家重点实验湖南大学软件学院室中文信息学报瞿有利,于浩,徐国伟,西野文人页面信息块的自动分割北京富士通研究开发中心有限公司,日本川崎株式会社富士通研究所中文信息学报,入门教程刘云中,林亚平......”

下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(1)
1 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(2)
2 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(3)
3 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(4)
4 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(5)
5 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(6)
6 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(7)
7 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(8)
8 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(9)
9 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(10)
10 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(11)
11 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(12)
12 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(13)
13 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(14)
14 页 / 共 43
毕业论文:互联网网页文本对象抽取实现技术.doc预览图(15)
15 页 / 共 43
预览结束,还剩 28 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为word文档,建议你点击DOC查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批

搜索

客服

足迹

下载文档