1、“.....参考文献,作者单位广东电网公司电力科学研究院广东省广州市。统计机器翻译中基于双语数据筛选的语言模型自适应方法论文原稿。从系统融合角度来说,基于翻译模型的双语数据筛选方法和基于主题模型的双语数据筛选方法对于双语数据筛选过程是相互补充的,可以通过线性排序函数对这两类方法进行融合,进步提高数据筛选的性能。融合后的模型既能从词汇的层面考虑上下文信息,又能从语义的层面考虑上下文信息,因此融合后的模型比单模型具有更好的上下文描述能力。虽然以上数据筛选方法性能都相对很好,但是在实际系统运用中模型过于复杂,需在系统实现上做进步的优化,精简模型。如做相应的关键词信息处理,利用算法提取相应的关键词并对训练数据做处理,在此基础上训练模型。另外......”。
2、“.....还需在模型和大数据方面做相应的深入研究,是要做到数据融合和模型整合的统,是要做到海量规模的训练数据。前人的基于数据筛,统计机器翻译中基于双语数据筛选的语言模型自适应方法论文原稿作者单位广东电网公司电力科学研究院广东省广州市从系统融合角度来说,基于翻译模型的双语数据筛选方法和基于主题模型的双语数据筛选方法对于双语数据筛选过程是相互补充的,可以通过线性排序函数对这两类方法进行融合,进步提高数据筛选的性能。融合后的模型既能从词汇的层面考虑上下文信息,又能从语义的层面考虑上下文信息,因此融合后的模型比单模型具有更好的上下文描述能力。虽然以上数据筛选方法性能都相对很好,但是在实际系统运用中模型过于复杂......”。
3、“.....精简模型。如做相应的关键词信息处理作者单位广东电网公司电力科学研究院广东省广州市从系统融合角度来说,基于翻译模型的双语数据筛选方法和基于主题模型的双语数据筛选方法对于双语数据筛选过程是相互补充的,可以通过线性排序函数对这两参考文献以及跟它配对的,可以从个带有参数的狄利克雷先验分布中提取相应的主题分布。在以上假设下,基于短语翻译的双语数据筛选可以表示为其中,表示个短语调序后的结果定义为,和构成的元组集合,表示将转换成的过程。对于给定的部分对齐关系,我们关注的是由,和构成的元组与部分对齐关系是致的,记为。旦词语对齐关系确定了,调序部分就可以忽略。利用最大化求和可以得到不同于基于词的翻译模型......”。
4、“.....融入了上下文信息,理论上可以获得更好的性能,但是直接运用基于短语翻译的相似值计算进行数据筛选效果不好。为提高性能,通常采用线性排序的方法,将不同的模型作为特征,融合到统的框架中。例如,短语翻译特征,词汇化特征,词翻译特征等。基于成对双语主题模型的双语数据筛选在数据筛选任务中,对于个相似的双语句对不定要有完全相同的主题分布,更加合理的应该是相似的主题分布。因为相似句对在长度不同的时作者单位广东电网公司电力科学研究院广东省广州市从系统融合角度来说,基于翻译模型的适应的性能,还需在模型和大数据方面做相应的深入研究,是要做到数据融合和模型整合的统,是要做到海量规模的训练数据。参考文献......”。
5、“.....主题分布不可能完全相同变得尤其明显。我们希望趋向于在长句时的主题向量的生成更好,使得句对中两个句子的对数可能性更高,而短句的最好的主题分布权重相对更小,进而在基础上我们提出了。比较与总结以上种双语数据筛选方法可以基本分为两类基于翻译模型的双语数据筛选和基于主题模型的双语数据筛选基于翻译模型的双语数据筛选方法相对于传统的利用单语数据筛选的方法,双语数据筛选可以解决噪声繁衍的问题。另外,相对于传统的基于词袋模型的方法和基于词翻译的双语数据筛选方法,基于短语翻译的双语数据筛选方法能够从词汇的层面考虑局部上下文内容,在数据筛选过程中以短语为处理单位,提高数据筛选精度......”。
6、“.....作者单位广东电网公司电力科学研究院广东省广州市。统计机器翻译中基于双语数据筛选的语言模型自适应方法论文原稿。基于联合双语主题模型的双语数据筛选在数据筛选任务中,对于个相似的双语句对我们假设有完全相同的主题分布,以主题分布为目标去做双语数据的相似值计算。对于任何个主题,从个带有参数的狄利克雷先验分布中选取对不同的词分布。其中,和分别是和的具体主题词分布。对于每个双语数据筛选方法和基于主题模型的双语数据筛选方法对于双语数据筛选过程是相互补充的,可以通过线性排序函数对这两类方法进行融合,进步提高数据筛选的性能。融合后的模型既能从词汇的层面考虑上下文信息,又能从语义的层面考虑上下文信息......”。
7、“.....虽然以上数据筛选方法性能都相对很好,但是在实际系统运用中模型过于复杂,需在系统实现上做进步的优化,精简模型。如做相应的关键词信息处理,利用算法提取相应的关键词并对训练数据做处理,在此基础上训练模型。另外,要在根本上提高语言模型自适应的性能,还需在模型和大数据方面做相应的深入研究,是要做到数据融合和模型整合的统,是要做到海量规模的训练数据。参考文献作者单位广东电网公司电力科学研究院广东省广州市从系统融合角度来说,基于翻译模型的双语数据筛选方法和基于主题模型的双语数据筛选方法对于双语数据筛选过程是相互补充的,可以通过线性排序函数对这两类方法进行融合,进步提高数据筛选的性能。融合后的模型既能从词汇的层面考虑上下文信息......”。
8、“.....因此融合后的模型比单模型具有更好的上下文描述能力。虽然以上数据筛选方法性能都相对很好,但是在实际系统运用中模型过于复杂,需在系统实现上做进步的优化,精简模型。如做相应的关键词信息处理,利用算法提取相应的关键词并对训练数据做处理,在此基础上训练模型。另外,要在根本上提高语言模型自统计机器翻译中基于双语数据筛选的语言模型自适应方法论文原稿选的语言模型自适应方法大都依赖于次解码的翻译结果,他们根据次解码的翻译结果从目标语言端语言模型的训练数据中筛选和当前翻译任务相似的训练数据。这些方法全部受限于翻译结果的质量,越好的初始翻译结果会带来越精确的筛选到的数据。但是翻译结果远不够精确,里面有很多噪声数据......”。
9、“.....进而将噪声带入筛选到的训练数据中,最终导致噪声繁衍的问题,降低自适应后的语言模型的性能。另外,传统的数据筛选方法都是基于词袋模型的,可以看作是上下文内容无关的。这些方法在整个数据筛选过程中将词语孤立看待,以词为单位,没有考虑上下文内容信息,会降低筛选到的数据的质量。从系统融合角度来说,基于翻译模型的双语数据筛选方法和基于主题模型的双语数据筛选方法对于双语数据筛选过程是相互补充的,可以通过线性排序函数对这两类方法进行融合,进步提高数据筛选的性能。融合后的模型既能从词汇的层面考虑上下文信息,又能从语义的层面考虑上下利用算法提取相应的关键词并对训练数据做处理,在此基础上训练模型。另外......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。