汉语股市公告信息抽取系统的设计与实现

格式：word 上传：2022-06-25 14:47:27

《汉语股市公告信息抽取系统的设计与实现》修改意见稿

1、“.....尤其是加强了处理自然语言过程中的鲁棒性。但是这样的扩充毕竟还是基于原有分析法进行的，扩充的幅度有限。其二，采用非基于规则的分析方法。基于规则的方法在处理自然语言时遇到的困难，是分析形式文法时的难度无法相比的。改变分析方法可以从根本上突破形式文法的局限性。下节就将讨论采用统计方法来设计信息抽取模块中的模板匹配算法。统计学方法基于语料库的统计语言学方法近年来，基于语料库分析的自然语言处理方法受到了越来越多的计算语言学家的重视和四砂股份上海医药因未刊登股东大会决议公告，月日停牌天。四砂股份因刊登股东大会决议公告，月日停牌天。未上海医药申请上海交通大学学士学位论文应用。在规则方法即理性主义方法屡受挫折的事实面前，语料库语言学的发展促使计算语言学家们越来越重视数理统计在语言学中的应用。应该说，统计方法并不是包治百病的良药......”。

2、“.....传统语言学给我们积累了丰富的语言实例，但对于语言规律的把握，人类至今仍未找到最好的方法。但是，数理统计方法已经发展的比较成熟，值得信赖。语料库是经过处理的大量领域文本的集合，通过对语料库中的文本进行统计分析，可以获取该类文本的些整体特征或规律。如果能够充分地利用这些统计现象规律，就可以构造基于语料库的统计学信息抽取算法。现代语言学研究已经形成两个大的阵营，结构主义和功能主义或称为理性主义和功能主义。多年来结构主义直占上风，西方学者称为语言学主流。功能主义相比之下处于劣势守势。两阵对垒的天平近十几年来似乎在发生变化。如果我们把新兴学科如社会语言学语用学会话分析语篇分析等都划入功能主义因为这些都是研究语言的各种功能的，那么功能主义大有取代结构主义成为语言学主流之势。语料库和语料库语言学可以说是两阵对垒的天平上的个举足轻重的砝码。统计的分析方法多种多样......”。

3、“.....其中最重要的，是应用隐马尔科夫模型进行自然语言处理的方法。隐马尔科夫模型简介马尔科夫过程的定义般地，考虑只取有限个或可数个值的随机过程若，就说过程在时刻处于状态，假设每当过程处于状态，则过程在下时刻处于状态的概率为定值，即有这样的随机过程称为链给定过去的状态和现在的状态，将来的状态的条件分布独立于过去的状态，只依赖于现在的状态这就是性。个马尔科夫模型就是个链加上个转移概率矩阵。显然，它可被视为个随机有限状态自动机，其每个状态都代表个可观察的事件，之间的转换都对应定的概率。隐马尔科夫模型的概念对于马尔科夫模型而言，每个状态都是决定性地对应于个可观察的物理事件，所以其状态的输出是有规律的。然而，这种模型限制条件过于严格，在许多实际问题中无法应用。于是人们将这种模型加以推广......”。

4、“.....隐马尔科夫过程是种双重随机过程。即观察事件是依存于状态的概率函数，这是在中的个基本随机过程，另个随机过程为状态转移随机过程，但这过程是隐藏着的，不能直接观察到，而只有通过生成观察序列的另外个概率过程才能间接地观察到。对于隐马尔科夫模型的应用，在语音识别领域已经取得了很好的申请上海交通大学学士学位论文成效，在信息抽取领域的应用也正在不断的尝试和推广中。隐马尔科夫模型的模型参数模型状态数。每个状态可能输出的观察符号的数目。观察符号序列的长度。状态转移概率矩阵。观察符号的概率分布集。初始状态概率分布。般地，由于当确定后，也随即确定，故通常将个描述为。隐马尔科夫模型在信息抽取上的应用在我们的问题中，考虑的是如何应用隐马尔科夫模型，从自动标注后的文本中抽取相关信息到对应模板的合适属性槽中。为了完成这个目的，有必要对问题进行重新描述......”。

5、“.....它同时具有类型。填槽物是用来填充模板构成模板实例的语言单位通常是个单词或短语，通过自动文本标注获得。模板是用来表示结构化数据的待填属性槽的序列。表示为,，其中是第个待填属性槽。模板实例是指用适合的填槽物填充了模板中全部或部分属性槽关键属性槽必须填充后得到的实例对象。我们的模型中，考虑使个对应于个模板，模型中的各个状态分别对应到该模板的各个属性槽。而将待抽取的标注文本视为该模型的种输出结果。于是，对于标注文本中的每个关键标注部分，都将有模型状态与之对应。这样，在固定的隐马尔科夫模型下，对于任意标注文本做为模型输出，通过寻找最佳路径的方式，都可以找到条概率最大的隐路径即由初始状态经由若干中间状态到达终止状态的状态转移序列。在这条最佳路径上，各个输出对应的状态就是利用隐马尔科夫模型求得的模板填充方案。图五是求解模板填充问题的示例图......”。

6、“.....采用如下算法进行计算。对于给定的观察序列，为了找到单个最佳状态序列，需要定义个量所以应该根据需要选择合适的方法。近期其它些研究中，已经考虑将两种方法有机地结合，使它们互补短长，发挥各自最佳的分析优势。这也是计算语言学发展的必然趋势，结构主义和功能主义必将走向统。结果总结在基于汉语信息抽取模型的股市公告信息抽取系统的设计与实现中，已获得的成果罗列如下提出了基于汉语信息抽取模型的股市公告信息抽取系统的框架结构和分布图。分析了简化信息抽取模型的必要性，给出了简化后的信息抽取模型。简单讨论了小领域分词子模块的设计原则。对大量领域文本做了人工标注，初步够建了领域语料库。尝试了采用基于规则的简单文本信息抽取算法。提出了基于隐马尔科夫模型的信息抽取算法。改进了选择模型参数的迭代算法......”。

7、“.....本信息抽取系统的设计与实现过程中，发现了以下些问题，有待解决多语种的问题。本系统目前为止仍然是基于汉语信息抽取技术的。但是根据信息抽取技术的特征，构建跨语种的信息抽取系统是可能的。可以构建中间语汇，将抽取后的信息以独立于语种的方式表述。具体研究仍有待于进步的讨论。自动分词的完善。目前的自动分词词典结构仍然相当简单，可以通过添加些附加属性申请上海交通大学学士学位论文来提高分词的质量。自动标注的实现。自动标注的实现中，又将包括许多复杂的浅层自然语言处理技术，如命名实体的识别指代分析，等等。标注质量的提高。目前的人工标注标准仍然具有定的模糊性，可能因为主观差异导致标注尺度掌握的不同。这从些方面极大地影响到了语料的可信度。因此需要制定更为明确清晰的标注标准，加上适当的标注工具，可以更高效率获取更高质量的语料库。模型参数学习......”。

8、“.....但是并不能够保证对语料库信息的充分利用。可以结合其它机器学习方法，提高模型参数学习的效率和质量。两种信息抽取方法的结合。结构主义与功能主义的结合是目前自然语言处理领域的必然趋势，例如可以通过语料库统计来学习抽取规则，也可以通过规则指导统计数据的应用，等等。这有待相关理论的发展和应用上的尝试。模型的推广。本文论述了股市公告信息抽取系统的设计和实现，但是其中的绝大多数方法可以方便地扩展到其他应用领域。当然，仍然必要针对相应领域的特征，适当修改模型或算法。申请上海交通大学学士学位论文参考文献刘开瑛，中文文本自动分词技术研究，山西大学计算机科学系，张冬茉，姚天昉，王纤，多语种天气预报文本生成系统中句子规划器的设计与实现，上海交通大学计算机系刘开瑛，郭炳炎，自然语言处理，科学出版社，,张冬茉，王纤，基于的信息抽取模型的研究，上海交通大学，姚天顺......”。

9、“.....清华大学出版社，蔡自兴，徐光祐，人工智能及其应用第二版，清华大学出版社，于江生，隐模型及其在自然语言处理中的应用，北京大学计算语言学研究所于江生，计算语言学中的概率统计方法，北京大学计算语言学研究所，,于江生，基于约束的句法语义分析，北京大学计算语言学研究所胡睿，基于的信息抽取模型的研究和实现，上海交通大学计算机系，孙宾，现代汉语文本的词语切分技术，北京大学计算语言学研究所孙宾北京大学计算语言学研究所，孙宾，汉语信息提取的部分研究，北京大学计算语言学研究所姚天昉等，种基于信息抽取和文本生成的多语种信息检索模型，上海交通大学计算机科学与工程系，德国人工智能研究中心申请上海交通大学学士学位论文致谢在本文即将结束之际，我要由衷地感谢在我毕业设计阶段，乃至本科四年学习生活中帮助过我的师长与同学。我要首先感谢我的导师教授。在整整年的学习科研中，老师给予了我极大的关心和帮助......”。

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。