帮帮文库

返回

基于半监督的文本分类算法 基于半监督的文本分类算法

格式:word 上传:2022-06-25 19:29:27

《基于半监督的文本分类算法》修改意见稿

1、“.....密度函数如下,图聚类分类图该分布可由个高斯密度函数的加权平均所表示的概率密度函数描述如下,聚类的算法假设存在个完整数据集,,是不完整的数据集,是引入的隐含变量。,,是给定的有限整数。于是则完整数据的似然函数为,该似然函数的期望值采用算法的基本思想是对于上述的不完整数据集,假设这些数据独立同分布于我们已知的个模型,如,而我们知道该模型的参数,因此可以根据该模型推出属于每个成分的各数据点的概率,然后修改每个成分的值,重复该过程直到收敛到结束条件。显然,辅助函数,的值就是......”

2、“.....并且是的函数,是上步迭代运算求得的参数值。,求解,使得,得到极大值。可以看出,随机向量的分布是由和决定的,若表示第次迭代的最大似然函数值,表示第次迭代的最大似然函数值,可知证明,算法能够保证,并且算法是收敛的。高斯混合模型里,假设完整数据为,,为可观测变量,为隐含变量,设是独立同分布于类,其概率分别为,并且由给出的的密度为。完整数据的似然函数为算法是在和之间迭代。在,由可观测变量和当前的参数估计,计算出完整数据似然的条件期望值。中,根据的值,计算使得似然函数值最大的参数估计......”

3、“.....但此算法分类是在前期算法对训练集聚类分析的基础上进行操作的。具体步骤如下根据算法的聚类结果,对每类计算出其中心点在众多中心点中选出与新文档最相似的个中心点,公式为,其中,值的确定目前还没有很好的方法,般采用先定个初始值,然后根据实验测试的结果调整值。在新文本的个邻居中依次计算每类的权重,公式为,其中,为新文本分特征向量,,为相似度计算公式,与上步的计算公式相同,而,为类别属性函数,即如果属于,那么函数值为,否则为零。比较类的权重,将文本分到权重最大的那个类别中。算法步骤针对以上两节提出的算法和算法......”

4、“.....算法流程如图示图新文档所属类别图样本点原始分布图样本中的中心点图聚类后的结果图新文档与中心点之间的欧几里得距离图算法步骤流程其中,红色圆点为标示样本,黑色为类别中心点,三角为待分类样本。由上图可以十分清楚的了解到分类算法的步骤,具体如下假设有个训练集,类别,每个类别中有若干个训练样本。对训练集中的文档进行预处理,得到图的样本点分布根据标示样本应用算法进行聚类,图所示计算聚类后每类的中心点,中心点与未聚类样本组成新的训练集,图所示计算新文档与中心点和其它样本点之间的欧几里距离如,两点,和,的欧几里德距离是,......”

5、“.....图所示。算法效率分析算法效率的分析也就是对算法时间复杂度的分析,而个算法的质量优劣将直接受算法乃至程序效率的影响。本文算法是在算法聚类的基础上应用算法进行文本分类的,故在此将分别对算法聚类和算法分类的效率进行分析。训练文档集数目个对象进行层次聚类的平均复杂度为,最坏复杂度为。考虑到特征的因素,在个特征词构成的空间中,对个文档特征矢量进行聚类的平均复杂度为,最坏复杂度为。也就是说算法聚类的最小复杂度为,与训练集数目的平方值有关。算法本身简单有效,它是种算法,分类器不需要使用训练集进行训练,训练时间复杂度为。而分类的计算复杂度和训练集中的文档数目成正比,也就是说,如果训练集中文档总数为......”

6、“.....综上所述,如有文档数为的训练集,用经典算法分类,则其分类时间复杂度为。而如果用本文算法分类,设聚类后形成的新的训练集文档数为,其中,则其分类时间复杂度为,。由此知,在分类时间复杂度上本文算法优于经典的算法。但经典的算法不需要使用训练集进行训练,训练时间复杂度为。而本文算法需要先对训练集聚类,而聚类的平均复杂度为。由此可知,本文算法在前期准备工作上稍有欠缺。本章小结本章首先介绍了半监督学习算法以及文本分类算法,然后在此基础之上提出了基于和的半监督的文本分类算法,最后重点研究了该算法的具体实现,并给出了算法的具体思想和算法的步骤以及其效率分析。实验与分析实现算法实验平台实验平台为,规格......”

7、“.....算法实现及流程图算法实现本文所研究的算法是通过编程实现的。算法中的聚类和分类都很好的通过语言编程实现。算法界面如图示图聚类界面以上界面是聚类的实现,对训练样本进行聚类,其基本伪代码为最终聚类结果如图示图聚类结果图所示界面为分类界面输入训练样本的向量集初始假设协方差矩阵为单位阵,先验概率为整体均值计算协方差矩阵,聚类中心最大化最大化高斯模型中的权重均值协方差迭代不断迭代和步骤输出向量类别期望矩阵聚类中心协方差矩阵。图分类界面在聚类基础上,对测试文本进行分类,其基本伪代码为最终分类结果如图示......”

8、“.....流程图训练集特征标示特征选择开始训练样本的预处理训练样本聚类计算中心点中心点与其它样本点组成新的训练集计算新样本与训练集样本的距离判断类别并计算相似度结束是否是否还有新样本取新样本图算法流程图实验结果与分析本实验中用到得数据集为数据库中的数据集,即数据集。此数据集有个样本,共分为三类。其中个样本作为训练集,剩余的个样本作为测试集。用本文算法通过实验得到结果如表示表算法实验结果类别该类总数正确判为该类的数判为该类的总数第类第二类第三类由上表可知召回率准确率当时,值之后本文算法分别与和算法进行了对比......”

9、“.....值分类时间复杂度,算法经典由表可知算法与传统算法和算法相比无论准确率还是算法分类效率上都有了很大的提高。小结本章主要研究了本文提出的算法的实现,通过实验得出实验结果并对其进行了分析,结果表明本文提出的算法能在定程度上提高文本分类的性能。总结随着的发展和信息时代的到来,网络上大量的信息以文本形式存在。基于机器学习的文本分类系统能够在给定的分类模型下,根据文本的内容自动对文本进行分类,使得文本分类成为信息技术领域的个重要研究方向。文本分类作为信息过滤信息检索搜索引擎数字化图书馆等领域的技术基础,有着广泛的应用前景,可以产生巨大的社会效益和经济效益。而基于半监督的文本分类技术更是现在研究的热门......”

下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
基于半监督的文本分类算法.doc预览图(1)
1 页 / 共 66
基于半监督的文本分类算法.doc预览图(2)
2 页 / 共 66
基于半监督的文本分类算法.doc预览图(3)
3 页 / 共 66
基于半监督的文本分类算法.doc预览图(4)
4 页 / 共 66
基于半监督的文本分类算法.doc预览图(5)
5 页 / 共 66
基于半监督的文本分类算法.doc预览图(6)
6 页 / 共 66
基于半监督的文本分类算法.doc预览图(7)
7 页 / 共 66
基于半监督的文本分类算法.doc预览图(8)
8 页 / 共 66
基于半监督的文本分类算法.doc预览图(9)
9 页 / 共 66
基于半监督的文本分类算法.doc预览图(10)
10 页 / 共 66
基于半监督的文本分类算法.doc预览图(11)
11 页 / 共 66
基于半监督的文本分类算法.doc预览图(12)
12 页 / 共 66
基于半监督的文本分类算法.doc预览图(13)
13 页 / 共 66
基于半监督的文本分类算法.doc预览图(14)
14 页 / 共 66
基于半监督的文本分类算法.doc预览图(15)
15 页 / 共 66
预览结束,还剩 51 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为word文档,建议你点击DOC查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批

搜索

客服

足迹

下载文档