ppt 绘本故事:收起来(优) 编号18060 ㊣ 精品文档 值得下载

🔯 格式:PPT | ❒ 页数:11 页 | ⭐收藏:0人 | ✔ 可以修改 | @ 版权投诉 | ❤️ 我的浏览 | 上传时间:2022-06-24 19:28

绘本故事:收起来(优) 编号18060

χ统计文本证据权特征权重计算方法布尔权重词频权重反比文档频率权重权重各种分类算法介绍朴素贝叶斯算法类中心向量法分类算法支持向量机分类算法决策树分类算法神经网络算法文本分类算法评估指标本章小结第三章信息增益特征选择方法改进熵的背景及其概念介绍信息增益方法介绍及分析传统的信息增益方法信息增益算法的分析信息增益存在的不足及改进信息增益存在的不足改进方法实验设计结果分析本章小结第四章基于关联分析的改进算法关联规则挖掘概述关联规则挖掘的基本概念关联规则挖掘相关技术介绍万方数据关联规则挖掘算法的流程关联规则的产生算法的分析及改进传统算法的不足分析基于关联分析改进的文本分类算法算法描述实验设计与结果分析实验设计实验结果及分析本章小结第五章文本分类的研究在网络热点事件识别中的应用引言热点发现系统设计系统实现网络信息采集与清洗网页信息处理子系统热点分析子系统改进的分类算法在热点发现中的应用实验及分析分类实验聚类实验本章小结第六章总结与展望本文工作总结未来工作展望参考文献附录攻读硕士学位期间撰写的论文附录攻读硕士学位期间申请的专利附录攻读硕士学位期间参加的科研项目致谢万方数据南京邮电大学硕士研究生学位论文绪论第章绪论课题研究背景及意义随着,等网络技术的逐步成熟,以及等浏览器的广泛地应用,人们可以更加方便快捷地在网络上获取文档信息。互联网网站上世纪年代开始起步,到年超过亿个。年后,达到百亿数量级,且每天以数百万的数量增长。网络的海量信息方面为人们提供了的强大信息源泉,另方面,也为人们快速,高效地获取有价值的信息带来了很大的挑战,即人们面临着“信息爆炸”而导致的“知识匮乏”问题。面对海量信息,人们已经不能简单地靠人工来处理所有的信息,需要辅助工具来帮助人们更好地发现过滤和管理这些信息资源。如何过滤冗余和无用信息,提高信息的质量如何有效的管理互联网中的信息资源,帮助人们方便快捷地查找所需要的信息如何更加有效的为特定用户个性化服务,挖掘未完全释放的潜在消费力所有的这些问题,都使政府企业和科研机构面临着重大的挑战,是人们亟待解决的难题。在这个背景下,网络数据挖掘技术应运而生,伴随着网络数据的发展而受到社会各界的广泛关注,同时也吸引了众多科研人员投入其中。文本分类是基于文本内容把被测文本划分到已存在的类别中的方法。文本分类可以概括分为人工分类和自动分类两种方式,般早期采用人工分类方法,不过这存较多缺点,如需要消耗大量的人力成项在文本集中的分布状况的重要体现,该方法简单易行,但是该方法不能考虑到信息过于分散的情况,所以其存在片面性的缺点。权重是目前加权效果最好的权重计算方法,被广泛地应用于文本处理领域中。其基本思想是文本中包含的特征的频数越高,则该特征词越重要。文本集合中含有特征的文本数目数值越小则越重要。在实际应用中取得了非常良好的效果。其公式如下其中表示文本出现特征词频数,特征词的反文本频率用来表示,是在训练文本集合中按照文档统计出现的频繁程度的量万方数据南京邮电大学硕士研究生学位论文文本分类关键技术和算法研究化。它有很多的计算方式,目前比较常用的计算公式为其中含义是文本包含特征项的数目,表示训练文本集包含的文本数目,含义为训练文本中包含有的文本数目,需要根据具体的实验环境来设定,般取值为。根据信息学中的相关理论,特征项在语料集较多的文本中出现,那么它所包含的信息就越小反之,若特征分布较为集中,则它包含的信息也就越大。上面的公式也就是基于这种思想设计出来的。我们知道特征词权重易受到文本长度的干扰,所以还必须对特征项权重公式进行归化操作,具体操作如公式所示公式值是种经验化的总结,缺乏相关理论的支持。不过长期的实验研究结果证明,上述公式是文本处理领域中的个简单有效的工具。事实上,该公式不仅在信息处理中得到了非常广泛的应用,对于其他文本处理领域,如信息过滤和文本分类等方面,公式也有重要的参考价值。各种分类算法介绍朴素贝叶斯算法贝叶斯概率分类器被广泛应用于机器学习领域中。其是由首先提出的,基本思路是将文本视为独立的词语集合,通过训练语料集进行相关处理,再利用贝叶斯方法可以得到各个单词在不同类别的概率大小,从而构建出贝叶斯分类模型。运用贝叶斯公式,再结合类别的条件概率和先验概率等相关信息就可以大致计算出文本对于类别的后验概率,进而对文本进行类别判定。贝叶斯公式的定义如公式所示假设训练文本集中类别为训练文本其中含义是文本中第个特征词的权重,为文本中包含的特征词数目。已知类和文本,则由全概万方数据南京邮电大学硕士研究生学位论文文本分类关键技术和算法研究率公式,可得下面的式子对于全部的类别都是样的为类别数目。可以通过简单的估算得到先验概率,也就是类别的文本数占全部训练集文本数的比值,即各类别文本在训练语料库中的分布。表示计算特征词在类别中的分布情况,在确定训练集后,可以通过式来计算。假设表示类别中包含特征词的文本数目,表示类别中包含的文本数目,则。若对所有的类别,都可以计算出来,则最大概率值的类别就可以断定为被测文本的类别。类中心向量法文本分类方法最早是由在信息检索领域中用于计算“询问”与文本之间的关联性大小而提出的。之后又把公式进行改进并引入到文本分类领域中。方法的核心思想是利用训练集为各个类别分别构建个原型变量,其具体构造方法是我们预先给定个已知类别,则类中包含文本对象的文本向量的每维分量用正数来表示反之,不属于类的文本对应的文本向量就用负数来表示,最后将上述两种向量进行相加,得到的结果也就是该类别的原型向量。利用余弦公式,逐计算训练集合中文本和原型向量的相似度,再按照定的算法设定个相似度值作为阈值。分类算法最近邻,简称算法是在年由和率先提出,是个理论上非常成熟的方法。该算法的具体思想是利用传统的空间向量模型,可以将文本信息转化为特征空间中对应的特征向量,表现形式为。对于需要测试的文本,分别计算其与训练文本集中各个类别文本的相似度,将结果降序排列,从而可以找出个最邻近的文本,统计最近邻文本对象的类别信息,即可判断测试文本应属的类别。具体算法的流程如下所示利用选取的特征词集合,将训练文本表示成特征向量形式。万方数据南京邮电大学硕士研究生学位论文文本分类关键技术和算法研究将测试文本表示成文本向量形式。计算测试文本与训练文本集中各个类别文本的相似度,具体的计算如下,公式中表示测试文本的特征向量,为训练文本序号为文本的特征向量,特征向量的维度用表示,其中表示特征向量的第维。基于测试文本与其个近邻的相似度以及个近邻的类别,计算测试文本属于每个类别的权重,计算公式如式所示,其中,,含义为文本是否属于,表示测试文本与训练文本的相似度。决策方法为如果,则决策,即类别权重最大的作为测试文本的所属类别。是种基于类比学习的方法,属于非参数的分类技术,在基于统计的模式识别领域中应用的效果非常不错,对于未知或非正态分布也取得了不错的分类准确率,具有概念清晰健壮性等优点。但是在文本分类领域,方法也存在很多的不足,如是种懒散的分类算法,所以时间和空间复杂度都很高计算相似度时,文本向量维数高,且不包含特征词间的关联关系最近邻数的确定没有有效的方式,所以可能导致选取的最近邻数目不准确。对于算法的改进是论文的主要内容之,将会在第四章做深入地探讨。支持向量机分类算法支持向量机,简称已经成为倍受各方关注的机器学习方法,由和最先提出来的,其核心思想是统计学理论,该方法在些实际应用场合展示了良好的实践效果,如文本分类人工书写的数字的识别等。支持向量机方法的基础是维理论,且融合了最小结构风险等相关理论,为了获得良好稳定的分类效果,该方法在考虑模型结构复杂程度的基础上,还必须兼顾其学习能力,从而在两者之间寻找个平衡。线性支持向量机如何将线性支持向量机在文本分类领域中应用,这是现实中遇到的个难题。现在假设万方数据南京邮电大学硕士研究生学位论文文本分类关键技术和算法研究有两个类别的文本,分别用类和类表示,则需要寻找到个最优的超平面使各个类别的文本划分到各自的类别中。现在我们以二维空间来加以说明,图中展现了个简单的例子。用超平面来区分区分类和类两个类别中的样本,这样问题就转化为怎样寻找偏置和向量以使各个类别的样本能够获得正确的区分。则推导出和必须满足的条件如下,对于全部的,对于全部的为了较好的解决上面两个问题,综合起来考虑,即可得到等式,易知等式中的大于,可以将等式的两边同时比上,并且令,,从而又可以得出如下的不等式,其中图为上式提供了直观的几何解释。图中构建了两个类别的边界平面,分别表示为和。两者都和划分平面平行,与分布样本相比,这两个平面都更加靠近划分平面。符合上面不等式条件和能够较好的将样本对象划分到相应的类别中。类类图线性分类问题图非线性支持向量机我们也可以在非线性分类领域中应用线性向量机。但是必须要解决支持向量机涉及到的最优化方法中的等价对偶问题。万方数据单位代码密级硕士学位论文论文题目文本分类的研究及其在网络热点事件识别中的应用范恒亮成卫青计算机应用技术计算机网络工学硕士二零四年四月学号姓名导师学科专业研究方向申请学位类别论文提交日期万方数据万方数据南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人学位论文及涉及相关资料若有不实,愿意承担切相关的法律责任。南京邮电大学学位论文使用授权声明本人授权南京邮电大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档允许论文被查阅和借阅可以将学位论文的全部或部分内容编入有关数据库进行检索可以采用影印缩印或扫描等复制手段保存汇编本学位论文。本文电子文档的内容和纸质论文的内容相致。论文的公布包括刊登授权南京邮电大学研究生院办理。

下一篇
绘本故事:收起来(优) 编号18060第1页
1 页 / 共 11
绘本故事:收起来(优) 编号18060第2页
2 页 / 共 11
绘本故事:收起来(优) 编号18060第3页
3 页 / 共 11
绘本故事:收起来(优) 编号18060第4页
4 页 / 共 11
绘本故事:收起来(优) 编号18060第5页
5 页 / 共 11
绘本故事:收起来(优) 编号18060第6页
6 页 / 共 11
绘本故事:收起来(优) 编号18060第7页
7 页 / 共 11
绘本故事:收起来(优) 编号18060第8页
8 页 / 共 11
绘本故事:收起来(优) 编号18060第9页
9 页 / 共 11
绘本故事:收起来(优) 编号18060第10页
10 页 / 共 11
绘本故事:收起来(优) 编号18060第11页
11 页 / 共 11
  • 内容预览结束,喜欢就下载吧!
温馨提示

1、该PPT不包含附件(如视频、讲稿),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

  • 文档助手,定制查找
    精品 全部 DOC PPT RAR
换一批