doc 【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档 ㊣ 精品文档 值得下载

🔯 格式:DOC | ❒ 页数:50 页 | ⭐收藏:0人 | ✔ 可以修改 | @ 版权投诉 | ❤️ 我的浏览 | 上传时间:2022-06-25 03:04

【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档

,但是对于我们的日常生产生活的影响极大。因此,异常点检测被广泛应用于网络入侵检测,金融保险,天气预报以及新药研制等领域。相对于大量的正常数据挖掘而言,异常点检测被称作小模式数据挖掘。算法是种常用的数据挖掘算法。但是算法进行实际数据的异常点数据挖掘过程中存在实际数据的维数较高,存在冗余特征的干扰,以及在高维特征下,数据量不充分的问题。因此,本文分析神经网络处理各种数据的情况,并得到以下结果。神经网络能够较好的分离特征单的仿真数据但是特征相似性较大的数据集,难以分离判断正常数据不充分或者不具有代表性,因此正常数据类学习不充分,从而导致异常无法判断。针对以上问题,本文提出了以下的改进措施算法前进行特征约简映射从中选取有益于异常检测的特征多神经网络融合,不同神经网络识别不同的特征,相互取长补短,融合后得到最终的结果。关键字异常异常点检测,神经网络注本设计论文题目来源于教师的国家级或部级省级厅级市级校级企业科研项目,项目编号为。引言背景传统已有异常点算法介绍基于统计学的异常点检测算法基于距离的异常点检测算法基于密度的算法基于偏差的异常点检测基于聚类的异常点检测算法基于属性特征在异常点检测中的研究神经网络介绍模型简介计算各层节点输出修正权值异常检测中神经网络的设计可微阈值单元单个网络结构设计神经网络学习过程的基本步骤实验研究研究使用的数据库介绍训练方案实验把神经网络相似性代替距离算法相似度量训练方案二实验用单个神经网络对训练数据库整体特性进行学习训练方案三实验多神经网络各种形式训练及其决策实验设计思路实验方案及步骤实验分析实验失败原因分析调参实验对实验调整隐层实验对实验二调整隐层实验对实验三调整隐层实验数据仿真实验实验思路实验步骤实验结果结果分析实验整体分析总结与展望致谢引言背景异常点离群点或者孤立点检测是数据挖掘中个重要方面,最早给出了异常点的本质定义异常点是数据集中与众不同地数据,以至于使人怀疑这些数据并非随机偏差,而是产生与完全不同的机制。异常点可能由于度量或执行产生,也可能是由于固有数据可变性的结果。例如,个公司首席执行官的工资自然远远高于公司其他雇员的工资,成为个异常点。许多数据挖掘算法试图减少异常点的对挖掘结果的影响,或者在挖掘过程中排除异常点。然而异常点可能隐藏着重要的信息,也许比般的数据更有价值。因此人们开始逐渐研究异常点挖掘算法。目前异常点检测已经开始用于信用卡欺诈网络入侵检测以及金融申请和交易欺诈等领域,近年来异常点检测已成为数据挖掘研究中的个热点问题。传统数据挖掘主要有以下几类基于统计的方法,基于距离的方法,基于偏移方法,基于聚类方法,基于密度方法。本文从特征与异常检测的关系出发进行研究。神经网络适用于储存和描述这种复杂的关系。但是异常检测过程,通常数据的位数较高,在高维特征存在冗余特征干扰,以及高维特征下数据不充分的问题,因此,本文研究了神经网络应用于不同情况。传统已有异常点算法介绍基于统计学的异常点检测算法早期的异常点检测算法大多数是基于统计学实现的,通常可以分为基于分布的检测算法和基于深度的检测算法两类。前者般通过先构造个标准概率分布来拟合数据集,然后根据概率分布来确定异常点,例如提出的单样本多个异常检测算法算法,和等使用混合高斯模型的异常点检测算法。此类算法估计多维分布的概率模型的难度较大,且准确性低。基于深度方法主要以计算几何为基础,通过计算不同层的凸包将外层的对象判定为异常点。但当数据集较大,此类方法在维数上的伸缩性不好。基于统计的异常点检测方法易于理解,实现方便,但此方法检测出来的异常点很可能被不同的分布模型检测出来,解释异常点意义时经常发生多义性。其次,此方法在很大程度上依赖于待挖掘的数据集是否满足种概率分布模型模型的参数异常点的数目等对基于统计的方法都有非常重要的意义,而确定这些参数通常比较困难另外,此方法大多适合于挖掘单变量的数值型数据,然而许多数据挖掘问题要求在多维空间中发现异常点,目前几乎没有多元的不致检验,当没有特定的检验时,或观察到的分布不能恰当地用任何标准的分布建模时,此类方法不能确保所有的异常点被发现。基于距离的异常点检测算法基于距离的异常点检测算法的基本思想是把数据点看作空间中的点,异常点被定义为与大多数数据距离较远的点。通常这类异常被描述为,。当且仅当数据集中至少有个数据点与点的距离大于时,数据对象点称为异常点。这类方法与基于密度的检测算法有很大的相似之处,不需要事先知道数据集的分布模型,对于任意分布模型均有效。基于距离方法最早是由和在年提出的。他们用,来表示数据集中的异常点,采用不同的参数与可以表示所有的异常点。与此定义相应的算法有三种,它们是基于索引的算法,嵌套循环,算法,基于单元或划分的算法等。基于索引的方法依赖多维索引结构等的性能。随着维数的增加,所有的索引结构的性能迅速下降,使得算法性能不佳。算法可以避免构建索引结构,减少了算法的次数。以上两方法的算法时间复杂度为,当遇到大量数据集时它们还有待改进。基于单元的方法是把数据集划分为单元,逐个单元的检测,而非逐个对象的检测。它的时间复杂度为,其中取决于单元的个数和维数。和通过试验证明,当时此算法优于算法。相对前两者,基于单元的算法无论是在数据量还是在维数增加时,性能都是最好的。此算法需要将数据空间分隔成彼此的单元结构,经过多次选择来判断离群数据。对于参数的每个变化都需要调整单元结构,因此会影响了算法的结果。后来,和提出了个新的基于距离的异常点定义,即基于距离的第最近邻异常点挖掘方法。给定维空间中包含个点的数据集参数和自然数,表示点和它的第最近邻的距离。如果满足的点不超过个,即,那么称为异常点。如果对数据对象根据它们的距离进行排序,那么前个点就被看作异常点。他们用聚类算法首先对数据集进行聚类,然后在类中发现异常点。相对于,异常点挖掘,异常点挖掘方法人为干预的因素要小些。但它也有自身缺陷,就是要计算数据集中所有点的,这显然影响到算法的效率。对低维空间的数据此方法优于索引算法和算法,但对于高维数据此算法性能不高。和在沿用和对于异常定义的基础上,提出了种基于随机抽样的检测方法,它通过随机抽样的方法,减少了寻找近邻的范围,在试验数据上获得了几乎线性的计算复杂度。随着人们对基于距离的方法的不断研究,些新的较好的算法也不断的涌现。代表性的算法有陆声链等提出个判断异常点的新定义,并设计基于抽样近似检测算法。使得算法性能有所提高另外,徐雪松等利用聚类算法与第个最近邻的原理提出了基于距离的再聚类的异常点算法,它克服些基于距离算法的缺点,并取得较好的试验结果。与基于统计的方法相比,它有以下几个优点则可找出数据集中的异常点。在理论上可以处理任意维任意类型的数据,这就克服了基于统计方法仅能检测单个属性的缺点。不必对数据集的相关信息数据服从哪种统计分布模型,数据类型特点等足够了解。实际上在给出了距离的度量,并对数据进行预处理后。基于密度的算法基于密度方法是在基于距离的方法上改进而来。基于密度的异常观点比基于距离的异常观点更贴近的异常定义,因此能够检测出基于距离异常算法所不能识别的局部异常。局部异常观点摒弃了以前所有的异常定义中非此即彼的绝对异常观念,更加符合现实生活的中的应用。所谓密度是基于任意点和点距离小于给定半径的邻域空间内的数据点的个数计算得到的。般的对密度的定义是点到其量近邻的平均距离,平均距离小则密度小。基于密度的异常点检测,就是探测局部密度,通过不同的密度估计策略来检测异常点。代表性算法主要有以下几种。等提出相互近邻图,简称算法,其主要思想是对每个连通子图进行检测,如果包含多个结点就组成个簇,如果仅有个结点,那么该结点就是异常点。该算法针对数据点的分布对各种特殊形状都有效,但算法执行效率不高。等提出两种基于密度的异常点检测算法,第种算法思路为在图中,若顶点成为其它点的近邻的次数少于给定阈值时就被认为是异常点,另种算法则是先对所有顶点的平均近邻距离进行排序,然后将平均近邻距离大于点顶点视为异常点。定义了多粒度偏离系数,简称,该算法将多粒度偏离系数是所在邻域的标准多粒度偏离系数的倍的点判定为异常点,然而标准多粒度偏离系数的计算量大,对算法的可行性有定的限制。等采用相对密度系数,简称,即点的密度相对该点的邻域密度的比值作为孤立程度的度量方法,其基本思路是首先基于对位于簇中心的数据点进行剪枝,然后仅仅在剩下的较小的数据集中进行异常点检测。该方法降低了数据集的大小,提高了算法效率,但是在剪枝过程中对于特殊分布的数据集就有可能将异常点剪掉,算法的准确性受到限制。提出了局部异常的概念及相应异常检测方法算法,即数据集中的每个对象的异常程度用局部异常因子来衡量。也就是说是否是异常点不仅仅取决于它与周围数据的距离大小,而且与邻域内的密度情况有关。个对象领域内的密度可以用包含固定结点个数的域半径指定半径领域中包含的结点数来描述。这样就不会像,异常点那样遗漏部分异常点。算法充分体现了局部的概念,每个点都给出了个离群程度,离群程度最强的那个几个点被标记为异常点。文献有关发面对进行推

下一篇
【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档第1页
1 页 / 共 50
【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档第2页
2 页 / 共 50
【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档第3页
3 页 / 共 50
【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档第4页
4 页 / 共 50
【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档第5页
5 页 / 共 50
【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档第6页
6 页 / 共 50
【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档第7页
7 页 / 共 50
【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档第8页
8 页 / 共 50
【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档第9页
9 页 / 共 50
【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档第10页
10 页 / 共 50
【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档第11页
11 页 / 共 50
【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档第12页
12 页 / 共 50
【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档第13页
13 页 / 共 50
【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档第14页
14 页 / 共 50
【RS50】毕业设计_BP神经网络的异常点检测应用可行性研究.doc文档第15页
15 页 / 共 50
温馨提示

1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

  • 文档助手,定制查找
    精品 全部 DOC PPT RAR
换一批