帮帮文库

返回

统计基础上的中文地址位置解析方法深究论文原稿 统计基础上的中文地址位置解析方法深究论文原稿

格式:word 上传:2022-06-26 15:55:57

《统计基础上的中文地址位置解析方法深究论文原稿》修改意见稿

1、“.....称为地址语句的切分词图。设定弧段花费中文信息处理中,统计方法主要应用于自动抽词或汉市,则,小于阈值,所以从词频生成的词库中去掉武汉字符串,保留字符串武汉市。再比如武汉市,武汉市武,则。所以,应从统计语料库的词频生成词库中去掉武汉市武字符串,保留武汉市字符串。实验结果分析实验采用完全基于统计特征的分词方法和引入了置信度过滤的分词方法。前者基目前尚不成熟,实际应用中无法直接使用该算法。同样可知字符串相对于字符串的置信度。字符串相对于字符串的置信度,反映了字符串与前缀汉字串或后缀汉字串结合的稳定性,即字符串构成词条的可能性。如果字符串相对于字符串的置信度小于阈值,则认为字符串是真实字符串的可能性比大,则从词频生成作为空间信息形式化最基础的工作,其准确性将直接影响到后续工作的有效性和准确性。地名地址分词是中文分词在地名地址中的应用,它将地名地址串拆分成若干地理要素......”

2、“.....基于词库的方法将待分析的汉字串与个充分大的机器词典中的词条进行匹配,若在词典中找到个字符串则匹统计基础上的中文地址位置解析方法深究论文原稿处理,得到所有的分词方案,然后通过互信息和信息熵计算选择弧度花费最小的分词方案最后通过置信度对该分词方案进行过滤得到最优结果。统计词频词是最小的能够独立活动的有意义的语言成分,是相邻的字与字构成的稳定组合。在语料库中,相邻的字同时出现的频率越高,就越有可能构成个词。因此字与字相邻共现的频率或概率能够较好地反映成词的可信度。本构成词条的可能性。如果字符串相对于字符串的置信度小于阈值,则认为字符串是真实字符串的可能性比大,则从词频生成的词库中去掉字符串。如果字符串相对于字符串的置信度大于阈值,则认为字符串是真实字符串的可能性比大,从词频生成的词库中去掉字符串......”

3、“.....则比较两个词的词频度等统计量可用于定量判断候选词的边界,其中最常用的是互信息和信息熵。基于统计的中文地址解析方法本文提出了基于无词典的中文地址分词方法。首先对互联网上爬取的万条地址数据构成的语料库词频相邻词语之间的互信息词语的信息熵进行统计,然后对地名地址串进行正则表达式预处理,提取出数字号这类描述方式以及些标点符号再对剩下的地址串进行全切分比结果如表所示。正确率切分正确的总词数切分出的总词数召回率切分正确的总词数标准结果中的总词数结语本文提出了种无词典的中文地址分词方法。在互联网上爬取多万条地址数据构成语料库,通过统计地址文本中各个字的组合频度,计算待分词文本的各种参数,判断汉字之间的紧密程度,通过置信度过滤最后获得分词结果。实验结果表明,本文方法武汉市武,则。所以,应从统计语料库的词频生成词库中去掉武汉市武字符串,保留武汉市字符串......”

4、“.....前者基于统计考虑,说明了统计分词方法的有效性,后者通过引入置信度过滤改进了统计分词效果。从互联网上爬取万条地址数据构成的语料库中,不需要依靠人工去构建个地名地址库,且不需要人工去标注训练语料就能实现对地名地址串的切分,且分词效果较好,实用性強。统计基础上的中文地址位置解析方法深究论文原稿。同样可知字符串相对于字符串的置信度。字符串相对于字符串的置信度,反映了字符串与前缀汉字串或后缀汉字串结合的稳定性,即字符串构造切分词图给定个中文地址字符串,对进行全切分处理,那么就有种切分方法。其中,是地址字符串的长度,的全切分集合为代表种切分方法。把切分的字符串当作节点,把字符串的切分位置当作弧段,就可以将地址语句的全切分集合表示为图,称为地址语句的切分词图。设定弧段花费中文信息处理中,统计方法主要应用于自动抽词或度对该分词方案进行过滤得到最优结果......”

5、“.....是相邻的字与字构成的稳定组合。在语料库中,相邻的字同时出现的频率越高,就越有可能构成个词。因此字与字相邻共现的频率或概率能够较好地反映成词的可信度。本文对互联网上爬取的多万条地址文本进行统计处理。在没有地名词典的情况下,任意长度的字串都有可能连续的数字认定为个字符。哈希查找方法是效率较高的查询算法,因此将统计好的词频采用哈希结构存储。上式中,表示该字符串,表示该字符串和左邻接字的组合形式,表示该字符串和右邻接字的组合形式。本文根据互信息和信息熵原理将其转化为切分词图中弧段的开销。条弧段相邻字大小,保留词频大的字符串。关键词中文分词,地名地址分词,中文地址位置互联网是信息传播交流的重要平台。网络空间中存在海量的中文地址数据,蕴含着丰富的空间信息。但是与传统的地理信息或数据相比,文本中的地理信息是非结构化的,只有在形式化处理后才能进行分析和挖掘......”

6、“.....地名地址分词不需要依靠人工去构建个地名地址库,且不需要人工去标注训练语料就能实现对地名地址串的切分,且分词效果较好,实用性強。统计基础上的中文地址位置解析方法深究论文原稿。同样可知字符串相对于字符串的置信度。字符串相对于字符串的置信度,反映了字符串与前缀汉字串或后缀汉字串结合的稳定性,即字符串处理,得到所有的分词方案,然后通过互信息和信息熵计算选择弧度花费最小的分词方案最后通过置信度对该分词方案进行过滤得到最优结果。统计词频词是最小的能够独立活动的有意义的语言成分,是相邻的字与字构成的稳定组合。在语料库中,相邻的字同时出现的频率越高,就越有可能构成个词。因此字与字相邻共现的频率或概率能够较好地反映成词的可信度。本全切分处理,那么就有种切分方法。其中,是地址字符串的长度,的全切分集合为代表种切分方法。把切分的字符串当作节点......”

7、“.....就可以将地址语句的全切分集合表示为图,称为地址语句的切分词图。设定弧段花费中文信息处理中,统计方法主要应用于自动抽词或未登录词识别,比如串频互信息信息熵检验值相关统计基础上的中文地址位置解析方法深究论文原稿构成个地理要素。个最长的地理要素長度为如新疆维吾尔自治区,所以将字符串的最大长度设为,统计语料库中任意长度最大为字符串的词频。在地名地址串比如武汉市洪山区珞瑜路号中,在计算机中是个字符,而在人们认知的地址数据中是个整体,所以在预处理时将连续的数字认定为个字符。哈希查找方法是效率较高的查询算法,因此将统计好的词频采用哈希结构存储处理,得到所有的分词方案,然后通过互信息和信息熵计算选择弧度花费最小的分词方案最后通过置信度对该分词方案进行过滤得到最优结果。统计词频词是最小的能够独立活动的有意义的语言成分,是相邻的字与字构成的稳定组合。在语料库中,相邻的字同时出现的频率越高......”

8、“.....因此字与字相邻共现的频率或概率能够较好地反映成词的可信度。本法本文提出了基于无词典的中文地址分词方法。首先对互联网上爬取的万条地址数据构成的语料库词频相邻词语之间的互信息词语的信息熵进行统计,然后对地名地址串进行正则表达式预处理,提取出数字号这类描述方式以及些标点符号再对剩下的地址串进行全切分处理,得到所有的分词方案,然后通过互信息和信息熵计算选择弧度花费最小的分词方案最后通过置信在召回率和值上有了较大提升。而且最大熵方法在前期需要人工标注大量的语料,工作量大,本文方法则不需要标注,实用性更强。两者对比结果如表所示。正确率切分正确的总词数切分出的总词数召回率切分正确的总词数标准结果中的总词数结语本文提出了种无词典的中文地址分词方法。在互联网上爬取多万条地址数据构成语料库,通过统计地址文本符串之间的互信息越大,越不适合作为词的边界,弧段开销越大其连接左右字串的信息熵越大......”

9、“.....该弧段开销越小。因此,可以定义如下弧段花费计算公式表示弧段连接的左右字串,表示左字串最右侧的字和右字串最左侧的字。统计基础上的中文地址位置解析方法深究论文原稿。基于统计的中文地址解析方不需要依靠人工去构建个地名地址库,且不需要人工去标注训练语料就能实现对地名地址串的切分,且分词效果较好,实用性強。统计基础上的中文地址位置解析方法深究论文原稿。同样可知字符串相对于字符串的置信度。字符串相对于字符串的置信度,反映了字符串与前缀汉字串或后缀汉字串结合的稳定性,即字符串文对互联网上爬取的多万条地址文本进行统计处理。在没有地名词典的情况下,任意长度的字串都有可能构成个地理要素。个最长的地理要素長度为如新疆维吾尔自治区,所以将字符串的最大长度设为,统计语料库中任意长度最大为字符串的词频。在地名地址串比如武汉市洪山区珞瑜路号中,在计算机中是个字符,而在人们认知的地址数据中是个整体......”

下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
统计基础上的中文地址位置解析方法深究论文原稿.doc预览图(1)
1 页 / 共 6
统计基础上的中文地址位置解析方法深究论文原稿.doc预览图(2)
2 页 / 共 6
统计基础上的中文地址位置解析方法深究论文原稿.doc预览图(3)
3 页 / 共 6
统计基础上的中文地址位置解析方法深究论文原稿.doc预览图(4)
4 页 / 共 6
统计基础上的中文地址位置解析方法深究论文原稿.doc预览图(5)
5 页 / 共 6
统计基础上的中文地址位置解析方法深究论文原稿.doc预览图(6)
6 页 / 共 6
预览结束,喜欢就下载吧!
  • 内容预览结束,喜欢就下载吧!
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为word文档,建议你点击DOC查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批

搜索

客服

足迹

下载文档