意标注文本做为模型输出,通过寻找最佳路径的方式,都可以找到条概率最大的隐路径即由初始状态经由若干中间状态到达终止状态的状态转移序列。在这条最佳路径上,各个输出对应的状态就是利用隐马尔准确率也随文本复杂性增加而显著下降。具有较强的可扩充性,只要训练获取合适的模型参数,即可对更复杂的文本类型进行抽取,而准确率仍有定的保障。旦确定规则,即可采用自动语法分析器生成器如或自动构造分析器。需要大量训练才能获取模型参数,且不能保证获取最佳值,必要时需要人工调整。表六两种信息抽取方法的比较可见,两种方法在不同的应用环境下具有不同的优缺点。所以应该根据需要选择合适的方法。近期其它些研究中,已经考虑将两种方法有机地结合,使它们互补短长,发挥各自最佳的分析优势。这也是计算语言学发展的必然趋势,结构主义和功能主义必将走向统。.结果总结在基于汉语信息抽取模型的股市公告信息抽取系统的设计与实现中,已获得的成果罗列如下提出了基于汉语信息抽取模型的股市公告信息抽取系统的框架结构和分布图。分析了简化信息抽取模型的必要性,给出了简化后的信息抽取模型。简单讨论了小领域分词子模块的设计原则。对大量领域文本做了人工标注,初步够建了领域语料库。尝试了采用基于规则的简单文本信息抽取算法。提出了基于隐马尔科夫模型的信息抽取算法。改进了选择模型参数的迭代算法。分析了两种信息抽取方法的异同及优缺点.遗留的问题目前为止,本信息抽取系统的设计与实现过程中,发现了以下些问题,有待解决多语种的问题。本系统目前为止仍然是基于汉语信息抽取技术的。但是根据信息抽取技术的特征,构建跨语种的信息抽取系统是可能的。可以构建中间语汇,将抽取后的信息以独立于语种的方式表述。具体研究仍有待于进步的讨论。自动分词的完善。目前的自动分词词典结构仍然相当简单,可以通过添加些附加属性申请上海交通大学学士学位论文来提高分词的质量。自动标注的实现。自动标注的实现中,又将包括许多复杂的浅层自然语言处理技术,如命名实体的识别指代分析,等等。标注质量的提高。目前的人工标注标准仍然具有定的模糊性,可能因为主观差异导致标注尺度掌握的不同。这从些方面极大地影响到了语料的可信度。因此需要制定更为明确清晰的标注标准,加上适当的标注工具,可以更高效率获取更高质量的语料库。模型参数学习。目前的迭代算法虽然能够获取较优的模型参数,但是并不能够保证对语料库信息的充分利用。可以结合其它机器学习方法,提高模型参数学习的效率和质量。两种信息抽取方法的结合。结构主义与功能主义的结合是目前自然语言处理领域的必然趋势,例如可以通过语料库统计来学习抽取规则,也可以通过规则指导统计数据的应用,等等。这有待相关理论的发展和应用上的尝试。模型的推广。本文论述了股市公告信息抽取系统的设计和实现,但是其中的绝大多数方法可以方便地扩展到其他应用领域。当然,仍然必要针对相应领域的特征,适当修改模型或算法。申请上海交通大学学士学位论文参考文献.刘开瑛,中文文本自动分词技术研究,山西大学计算机科学系,.张冬茉,姚天昉,王纤,多语种天气预报文本生成系统中句子规划器的设计与实现,上海交通大学计算机系.刘开瑛,郭炳炎,自然语言处理,科学出版社,,张冬茉,王纤,基于的信息抽取模型的研究,上海交通大学,.姚天顺,自然语言理解,清华大学出版社,.蔡自兴,徐光祐,人工智能及其应用第二版,清华大学出版社,.于江生,隐模型及其在自然语言处理中的应用,北京大学计算语言学研究所.于江生,计算语言学中的概率统计方法,北京大学计算语言学研究所,,.于江生,基于约束的句法语义分析,北京大学计算语言学研究所.胡睿,基于的信息抽取模型的研究和实现,上海交通大学计算机系,.孙宾,现代汉语文本的词语切分技术,北京大学计算语言学研究所.孙宾北京大学计算语言学研究所,.孙宾,汉语信息提取的部分研究,北京大学计算语言学研究所.姚天昉等,种基于信息抽取和文本生成的多语种信息检索模型,上海交通大学计算机科学与工程系,德国人工智能研究中心申请上海交通大学学士学位论文致谢在本文即将结束之际,我要由衷地感谢在我毕业设计阶段,乃至本科四年学习生活中帮助过我的师长与同学。我要首先感谢我的导师教授。在整整年的学习科研中,老师给予了我极大的关心和帮助。张老师治学严谨知识渊博诲人不倦,在学术和为人上都为我作出了榜样。在张老师的帮助下,使我的课题研究能够顺利开展,并取得定阶段性成果。在此,我向她表示最真挚的感谢。我还要感谢老师。在年的研究与实践中,老师为课题的顺利进行作出很多贡献。尤其在安排语料库构造的工作中,王老师作出很多贡献。科夫模型求得的模板填充方案。图五是求解模板填充问题的示例图。申请上海交通大学学士学位论文图五信息抽取示例在求解模型对应于特定输出时的最佳路的自由性,语言意义的表达并非完全受限于固定的文法规则,这也是自然语言和形式文法的最大区别。对于这个问题,有两条解决途径。其,对分析法进行扩充。传统的分析法通常只有移进和归约两个动作。如果在些情况下添加若干特殊扩充分析动做,将对增强分析能力有所帮助。在此方面的研究结果表明,扩充的分析法的确能够加强分析能力,尤其是加强了处理自然语言过程中的鲁棒性。但是这样的扩充毕竟还是基于原有分析法进行的,扩充的幅度有限。其二,采用非基于规则的分析方法。基于规则的方法在处理自然语言时遇到的困难,是分析形式文法时的难度无法相比的。改变分析方法可以从根本上突破形式文法的局限性。下节就将讨论采用统计方法来设计信息抽取模块中的模板匹配算法。.统计学方法基于语料库的统计语言学方法近年来,基于语料库分析的自然语言处理方法受到了越来越多的计算语言学家的重视和四砂股份上海医药因未刊登股东大会决议公告,月日停牌天。四砂股份因刊登股东大会决议公告,月日停牌天。未上海医药申请上海交通大学学士学位论文应用。在规则方法即理性主义方法屡受挫折的事实面前,语料库语言学的发展促使计算语言学家们越来越重视数理统计在语言学中的应用。应该说,统计方法并不是包治百病的良药,而是人类由于认识能力和认识范围的有限迫不得已采用的方法。传统语言学给我们积累了丰富的语言实例,但对于语言规律的把握,人类至今仍未找到最好的方法。但是,数理统计方法已经发展的比较成熟,值得信赖。语料库是经过处理的大量领域文本的集合,通过对语料库中的文本进行统计分析,可以获取该类文本的些整体特征或规律。如果能够充分地利用这些统计现象规律,就可以构造基于语料库的统计学信息抽取算法。现代语言学研究已经形成两个大的阵营,结构主义和功能主义或称为理性主义和功能主义。多年来结构主义直占上风,西方学者称为“语言学主流”。功能主义相比之下处于劣势守势。两阵对垒的天平近十几年来似乎在发生变化。如果我们把新兴学科如社会语言学语用学会话分析语篇分析等都划入功能主义因为这些都是研究语言的各种功能的,那么功能主义大有取代结构主义成为语言学主流之势。语料库和语料库语言学可以说是两阵对垒的天平上的个举足轻重的砝码。统计的分析方法多种多样,近期研究的热点主要集中于由随机过程发展而来的理论和方法。其中最重要的,是应用隐马尔科夫模型进行自然语言处理的方法。隐马尔科夫模型简介马尔科夫过程的定义般地,考虑只取有限个或可数个值的随机过程若,就说过程在时刻处于状态,假设每当过程处于状态,则过程在下时刻处于状态的概率为定值,即有这样的随机过程称为链给定过去的状态和现在的状态,将来的状态的条件分布独立于过去的状态,只依赖于现在的状态这就是性。个马尔科夫模型就是个链加上个转移概率矩阵。显然,它可被视为个随机有限状态自动机,其每个状态都代表个可观察的事件,之间的转换都对应定的概率。隐马尔科夫模型的概念对于马尔科夫模型而言,每个状态都是决定性地对应于个可观察的物理事件,所以其状态的输出是有规律的。然而,这种模型限制条件过于严格,在许多实际问题中无法应用。于是人们将这种模型加以推广,提出了隐马尔科夫模型。隐马尔科夫过程是种双重随机过程。即观察事件是依存于状态的概率函数,这是在中的个基本随机过程,另个随机过程为状态转移随机过程,但这过程是隐藏着的,不能直接观察到,而只有通过生成观察序列的另外个概率过程才能间接地观察到。对于隐马尔科夫模型的应用,在语音识别领域已经取得了很好的申请上海交通大学学士学位论文成效,在信息抽取领域的应用也正在不断的尝试和推广中。隐马尔科夫模型的模型参数.模型状态数。.每个状态可能输出的观察符号的数目。.观察符号序列的长度。.状态转移概率矩阵。.观察符号的概率分布集。.初始状态概率分布。般地,由于当确定后,也随即确定,故通常将个描述为。隐马尔科夫模型在信息抽取上的应用在我们的问题中,考虑的是如何应用隐马尔科夫模型,从自动标注后的文本中抽取相关信息到对应模板的合适属性槽中。为了完成这个目的,有必要对问题进行重新描述。先引入几个概念.属性槽表示为。它同时具有类型。.填槽物是用来填充模板构成模板实例的语言单位通常是个单词或短语,通过自动文本标注获得。.模板是用来表示结构化数据的待填属性槽的序列。表示为,,其中是第个待填属性槽。.模板实例是指用适合的填槽物填充了模板中全部或部分属性槽关键属性槽必须填充后得到的实例对象。我们的模型中,考虑使个对应于个模板,模型中的各个状态分别对应到该模板的各个属性槽。而将待抽取的标注文本视为该模型的种输出结果。于是,对于标注文本中的每个关键标注部分,都将有模型状态与之对应。这样,在固定的隐马尔科夫模型下,对于任件项目区内有河流经过,加上降雨量大,可保障本项目灌溉用水。由于雨水过多,排灌渠道建设尤其重要。因此,项目区供排水系统可以满足项目建设需要。园区内生活用水可由打井抽水提供。本项目主要是农业用电动力用电和生活用电。可在园区配备变压器,即可满足项目建设和生产用电需要。交通条件项目区距汶莱首都公里,项目区内公路纵横交错,交通极为便利。通讯条件汶莱已建成足够装机容量程控电话交换系统,可直接同世界各国和地区及国内各地联系。另外,无线通讯数字网模拟网均覆盖整个项目区,通讯十分便利。技术条件项目建设单位拥有科技人员人,其中硕士研究生以上学历占种植国际合作。本项目正是在上述背景下提出,本项目作为汶莱国家粮食安全项目,项目建设是确保汶莱国家粮食安全提高粮食自给率迫切需求。二项目建设目标和任务目标借鉴省水稻良种育苗和栽培先进技术,建成汶莱最大水稻产业化生产基地,集水稻品种引进筛选栽培销售于体。逐渐提高汶莱粮食自给率,逐步扩大生产规模,最终实现汶莱粮食自给自足,为确保汶莱国家粮食安全作贡献。任务筛选适合汶莱人口味及适合当地栽培品种个,年生产大米吨以上。第三章建设单位基本情况本项目由农业科技有限公司承担建设。
(图纸) A1-车轮.dwg
(其他) 毕业设计答辩相关材料.doc
(其他) 毕业设计任务书.docx
(其他) 过程管理封皮.doc
(其他) 开题报告.doc
(论文) 设计说明书.doc
(其他) 题目审定表.doc