1、“.....通过分词库进行过滤,将过滤后的词语作为候选登录词进行邻接熵的计算,将达到阈值的词作为最终的未登录词,加入到专业领域词典,使用分词系统加载改词典进行分词。图为本文的新词们可以用互信息来获取字符串之间的成词概率。互信息公式其定义如下其中,是两个词出现的联合概率,和是单个词出现的概率。对传统的算法进行了改进提出了算法,其公式如下其中当时,算法就是算法,该算法的改进主要是将原来简单的元字串独立成词扩展到可以多元字串成词。黄昌宁等指出,至少有的词语长度都是在个字以下,面向建筑领域的中文分词方法研究建筑基础科学论文采取的是算法与邻接熵结合的方法。首先,我们需要对获取到的原始文本进行预处理操作,目的是去除干扰识别的标点符号特殊符号标签链接数字等。在预处理完成后使用算法进行分词识别出元字串及元以下字串,通过分词库进行过滤......”。
2、“.....将达到阈值的词作为最终的未登录词,加入到专业领域词典,使用分词表示当候选词左边邻接字是的条件概率,表示候选词的右信息熵,是候选词的右邻接字集,候选词右边邻接字是的条件概率,因此,若左熵大于指定阈值,则左边界确定若右熵大于指定阈值,则右边界确定。算法步骤预处理过程因为搜集的文本语料中存在大量的干扰数据,因此首先需要进行预处理操作,将文本按照标点符号特殊符号进行断为在文本中来回的出现频率远高于回溯。为了进步验证本文算法在建筑领域的有效性,通过大量的建筑文本材料进行实验,统计上述种分词方法的和切分得到词总数识别未登录词总数。结果见表。从成词的规则中分析可得,如果文本中有两个字串能组成独立的词,那么它的左右邻接字集应该比较丰富。因此我们可以使用邻接熵来例句线性体量拗成了平行于古罗马轴线的型体量来回溯到古罗马的体量造型......”。
3、“.....个面即型体量对着神庙的面。这个面是十分平整且规矩的,是具有古罗马历史精神的,因为柱廊方正的造型很容易让人联想到古罗马时期的神庙。通过表可以看到当关闭和未登录词识别功能时,分词系统未能识别轴线,设计师词汇,并且将来回溯这个字分成来回两要的作用。目前中文分词技术存在的两个问题,分别是消除歧义的问题和未登录词识别,的问题。其中左右的原因是未登录词识别不准确导致分词准确率低。因此想要提高中文分词效果的个方向就是提高未登录词识别的效率。分词结果及分析本文通过算法与邻接熵的结合方法来进行未登录词的识别,并最终在建筑领域文本中得到了较为不错的提升。将识别的未登录词加入到建筑领域专业词典。然词结果。通过设计实验来验证最终的分词效果本文设计了个对比实验。实验关闭自带的未登录词识别功能,此时该分词系统仅依赖自带的词典进行分词。实验使用自带的未登录词识别功能......”。
4、“.....实验加载通过有本文算法识别的未登录词组成的专业领域词典。实验结果举例见表。面向建筑领域的中文分词方法研究建筑基础科学时会将新词切分成单个的字当开启未登录词识别功能时,分词系统将来回溯这个字识别成来回这个词,然而对于体量,设计师,方正这个比较偏专业的词语,开启和关闭都未能正确分词当加载专业领域词典时,发现可以将专业性较高的词汇能够正确切分。但也有将回溯切分成了来回这是因为在文本中来回的出现频率远高于回溯。为了进步验证本文算法在建筑领域的有效性,通过大依次进行扩展,同时统计词语和右邻接字出现的频率,若达到阈值则进行向右扩展组成新的词语,达到阈值的计算,如果小于阈值则加入候选词集合,对比分词库中的词语进行过滤,否则就继续向右扩展。迭代进行扩展,最终形成候选未登录词集。面向建筑领域的中文分词方法研究建筑基础科学论文......”。
5、“.....设计师直强面向建筑领域的中文分词方法研究建筑基础科学论文后通过分词系统进行分词,最后得最终的分词结果。通过设计实验来验证最终的分词效果本文设计了个对比实验。实验关闭自带的未登录词识别功能,此时该分词系统仅依赖自带的词典进行分词。实验使用自带的未登录词识别功能,该系统的未登录词识别时利用模型进行分词。实验加载通过有本文算法识别的未登录词组成的专业领域词典。实验结果举例见邻接熵,设定阈值确定最后的未登录词,最后将识别的未登录词作为加入到专业词典进行分词。通过实验证明建筑领域文本在使用提出的算法时对于未登录词有较好的识别效果,准确率较算法提高了,召回率提高了,因此最终的分词效果在准确率和召回率分别可达到。关键词中文分词互信息建筑领域新词识别中文自然语言处理的前提操作是进行中文分词......”。
6、“.....候选词的左信息熵就越大,候选词左边越明显的跟其他类别的字不能结合。相反的如果左边种类越少,则信息熵越小,候选词与左边的字越容易结合成个新的词语。左右信息熵公式如下其中表示候选词语的左信息熵,表示候选词的左邻接字集,表示当候选词左边邻接字是的条件概率,表示候选词的右信息熵,是候选词的右邻接字集,候论文。摘要中文分词技术目前存在的个问题是针对特定领域未登录词识别效率较低的问题。建筑类文本分词由于受到专业本身词语的特点等限制,分词时对未登录词的识别效果不太好。提出种非监督的基于改进算法与邻接熵结合的方法来进行未登录词的识别。首先通过算法对文本间相互依赖值比较大的字串进行识别,然后通过停用词表和语料库进行筛选过滤得到候选词典,计算候选词典之间的量的建筑文本材料进行实验,统计上述种分词方法的和切分得到词总数识别未登录词总数。结果见表......”。
7、“.....并最终在建筑领域文本中得到了较为不错的提升。将识别的未登录词加入到建筑领域专业词典。然后通过分词系统进行分词,最后得最终的分调的线性体量是有方向性的,个面即型体量对着神庙的面。这个面是十分平整且规矩的,是具有古罗马历史精神的,因为柱廊方正的造型很容易让人联想到古罗马时期的神庙。通过表可以看到当关闭和未登录词识别功能时,分词系统未能识别轴线,设计师词汇,并且将来回溯这个字分成来回两个字,将方正分为方和正两个单字,这是因为分词系统算法当遇到未识别的词语选词右边邻接字是的条件概率,因此,若左熵大于指定阈值,则左边界确定若右熵大于指定阈值,则右边界确定。算法步骤预处理过程因为搜集的文本语料中存在大量的干扰数据,因此首先需要进行预处理操作,将文本按照标点符号特殊符号进行断句。然后通过停顿词表进行过滤无用字串......”。
8、“.....通过互信息得到候选未登录词将文本语料从左到右面向建筑领域的中文分词方法研究建筑基础科学论文法的精度高而且当取时,算法的效率最优,因此本文使用的是算法。面向建筑领域的中文分词方法研究建筑基础科学论文。从成词的规则中分析可得,如果文本中有两个字串能组成独立的词,那么它的左右邻接字集应该比较丰富。因此我们可以使用邻接熵来判断词周围的邻接字丰富程度。候选词的左邻接熵定义为该候选词左邻接字集中所有相邻字的信息熵之和,因此若左邻接字集中识别流程图,图为分词流程图。字符串成词标准评价字符串是否能评价为是个独立的词,通常使用的是信息论中的互信息概念,互信息,是用来计算两个物体间相关的程度。互信息值越大,代表两个物体相关性越强,若,则表示和相互关联,若,则表示和相互独立。因此我们可以用互信息来获取字符串之间的成词概所以般取上限值为算法比算法的精度高而且当取时,算法的效率最优......”。
9、“.....实验及结果分析实验数据约万字建筑领域语料,用于领域的新词发现。停用词典哈尔滨工业大学停用词表个停用词。词典包含个词,是目前比较主流的词典之,用于过滤候选未登录词中已登录词。与邻接熵结合方法本文采取的是算法与邻接熵结合的方法。首先,系统加载改词典进行分词。图为本文的新词识别流程图,图为分词流程图。字符串成词标准评价字符串是否能评价为是个独立的词,通常使用的是信息论中的互信息概念,互信息,是用来计算两个物体间相关的程度。互信息值越大,代表两个物体相关性越强,若,则表示和相互关联,若,则表示和相互独立。因此我句。然后通过停顿词表进行过滤无用字串,将进行切分多条长短不等的短句。通过互信息得到候选未登录词将文本语料从左到右依次进行扩展,同时统计词语和右邻接字出现的频率,若达到阈值则进行向右扩展组成新的词语,达到阈值的计算......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。