1、“.....分别为年人民日报语料库和自标注的桥梁语料库。本文使用爬虫技术,在网络上爬是影响模型性能的关键。为了设置适合于多领域的文本特征模板,我们选取了以下个特征。上下文特征本文选择上下文个词作为上下文特征,例如,造就支稳定的基础研究的队伍这句话中,研究词上文两个词特征为的和基础两个词。位置特征词语在句子的位置在命名实体识别中起到了关键的作用,在基于半监督学习的命名实体识别的方法论文原稿为条件随机场,取值为的条件下,取值为的条件概率如下公式自学习方法是有监督和无监督学习相结合的统计机器学习方法,其可通过大量未标注语料与少量已标注语料自行进行训练及分类......”。
2、“.....而其中自举法是自学习中常用的种方法,具体的流程如图所示。自学习算法体方法是在限定文本领域限定语义单元类型的条件下进行的,采用的是基于规则与词典的方法。等人采用启发式算法与人工编写规则相结合的方法,首次实现了从文本中自动抽取公司名,但扩展性差,规则制定费时费力。摘要命名实体识别是信息抽取中基础且关键的项子任务。本文根据不同领随机场是等人于在隐马尔可夫模型和最大熵模型的基础上提出的种概率式判别模型。它可以充分结合观察序列中的多种特征信息,来克服中严格的强独立性假设问题。以上的方法都需要大量的标注语料作为数据支撑,仅需少量语料的半监督学习方法也取得定成就......”。
3、“.....本文根据不同领域文本的特性,设置了通用的特征模板,利用半监督学习的方法,对新闻文本和桥梁文本分别进行了命名实体识别。实验表明,仅使用少量标注的语料也可以达到较好的识别效果。早期的命名实体方法是在限定文本领域限定语义所提升,词向量特征能够从大规模的未标注数据集中获取词的语义信息,并且相比于人工选取和设置的特征,无监督学习可以减少大量的工作量,提高命名实体识别的性能。闫丹辉,毕玉德基于规则的越南语命名实体识别研究中文信息学报,潘清清,周枫,余正涛,等基于条件随机场的越南语命名未标注数据进行词向量训练并进行聚类,类别作为特征的部分加入到模板中。例如,辽宁省聚类类别为......”。
4、“.....我们选择了桥梁语料和新闻语料两个领域的语料,分别为年人民日报语料库和自标注的桥梁语料库。本文使用爬虫技术,在网络上爬取了两个领域的大量键。为了设置适合于多领域的文本特征模板,我们选取了以下个特征。上下文特征本文选择上下文个词作为上下文特征,例如,造就支稳定的基础研究的队伍这句话中,研究词上文两个词特征为的和基础两个词。位置特征词语在句子的位置在命名实体识别中起到了关键的作用,在开展各种形式的科学的条件下,取值为的条件概率如下公式自学习方法是有监督和无监督学习相结合的统计机器学习方法,其可通过大量未标注语料与少量已标注语料自行进行训练及分类......”。
5、“.....具体的流程如图所示。自学习算法流程如图所示,首先,基于半监督学习的命名实体识别的方法论文原稿体识别方法山东大学学报,张海楠,伍大勇,刘悦,等基于深度神经网络的中文命名实体识别中文信息学报,蔡月红,朱倩,程显毅基于半监督学习的中文组织机构名识别计算机应用研究,邱泉清,苗夺谦,张志飞中文微博命名实体识别计算机科学,。况下使用自学习方法可以提高模型的质量。本文针对不同领域语料,采用模型,选取上下文特征位置特征长度特征字符特征,同时利用大规模的未标注数据,通过词向量训练和聚类获取词向量特征,并进行了对比实验。实验表明,利用半监督学习的方式......”。
6、“.....张海楠,伍大勇,刘悦,等基于深度神经网络的中文命名实体识别中文信息学报,蔡月红,朱倩,程显毅基于半监督学习的中文组织机构名识别计算机应用研究,邱泉清,苗夺谦,张志飞中文微博命名实体识别计算机标注语料,利用分词工具对其分词,并利用词向量工具进行词向量训练和聚类。实验结果如表所示,在使用特征模板后,模型的效果获得较大幅度提升,通过自学习算法,最终模型效果进步加强,根据文本特性选取适合的特征和选取的学习方式同样重要,在仅有少量语料的及教育句中,科学词位置为。长度特征本文选取词语的长度作为基础特征之,例如,新年词语的长度为。字符特征在命名实体中......”。
7、“.....例如,人行天桥和年两词语中都包含数字,前者还包含了特殊符号。词向量特征利用词向量工具对大量利用获得的少量标注语料放入模型中学习,用训练好的模型对大量的未标注预料进行预测,将置信度高于的句子加入到标注集中并在未标注集中删除,重复此过程直到模型收敛,最终得到模型。在模型的训练中,选取合适的特征并创建特征模板是影响模型性能的学,。命名实体识别是信息抽取过程中十分基础且关键的项子任务。命名实体识别是指识别出文本中例如人名,地名,时间或组织名等具有特定意义的实体。基于半监督学习的命名实体识别的方法论文原稿。设与为随机变量,是在给定的条件下,的条件概率分布......”。
8、“.....取值基于半监督学习的命名实体识别的方法论文原稿是新闻领域效果都有所提升,词向量特征能够从大规模的未标注数据集中获取词的语义信息,并且相比于人工选取和设置的特征,无监督学习可以减少大量的工作量,提高命名实体识别的性能。闫丹辉,毕玉德基于规则的越南语命名实体识别研究中文信息学报,潘清清,周枫,余正涛,等基于条件了两个领域的大量未标注语料,利用分词工具对其分词,并利用词向量工具进行词向量训练和聚类。实验结果如表所示,在使用特征模板后,模型的效果获得较大幅度提升,通过自学习算法,最终模型效果进步加强,根据文本特性选取适合的特征和选取的学习方式同样重要开展各种形式的科学普及教育句中......”。
9、“.....长度特征本文选取词语的长度作为基础特征之,例如,新年词语的长度为。字符特征在命名实体中,通常存在词语中包含数字符号或者英文字母的实体。例如,人行天桥和年两词语中都包含数字,前者还包含了特殊符号。词向量特征利用词向量工具程如图所示,首先,利用获得的少量标注语料放入模型中学习,用训练好的模型对大量的未标注预料进行预测,将置信度高于的句子加入到标注集中并在未标注集中删除,重复此过程直到模型收敛,最终得到模型。在模型的训练中,选取合适的特征并创建特征模文本的特性,设置了通用的特征模板,利用半监督学习的方法,对新闻文本和桥梁文本分别进行了命名实体识别。实验表明......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。