1、“.....本研究在保留足够的特征信息条件下,提出了四种与支持向量机相结合的特征选择方法。利用这四种方法进行属性选择可以构建各种不同的模型。两个美国加州大学尔湾分校的数据集被用来评估各种混合模型的精度,并利用支持向量机分类器与传统的统计决策树粗糙集相结合,进行特征数据的预处理,删除不相关和冗余的信息以优化特征空间。在本文里,我们将会对所提出的方法步骤加以描述,并通过他们的分类性能进行评估。最后我们将对结合支持向量机的各种模型的分类结果进行比较,利用非参数符号秩检验显示这些模型之间是否具有显著性差异。本研究结果表明,混合的信用评估方法是种寻找最优特征子集的最为稳健的方法,也是数据挖掘领域中很有前途的方法。关键字支持向量机线性判别分析决策树粗糙集理论度量简介消费信贷预测在信贷行业里是个非常重要的问题。信用评级模型在这个领域里快速增长......”。
2、“.....信用评级模型的开发是根据以往客户的记录,即他们的相关属性诸如收入婚姻状况年龄或其他属性来区分哪些是优质客户接受贷款或者是不良客户拒绝给予贷款。在过去的几年里,大多数信用评级模型常通过减少冗余的特征,以改进信用评级的准确性。对当前存在的基于特征选择的方法进行了综述,并认为特征选择过程由四部分组成,包括特征生成特征评价停止准则和测试。常用的评价指标诸如准确度,信息含量,距离和相关性等常被用来去除无关的特征。人工智能与机器学习技术可用来解决这些决策问题,现代数据挖掘技术已经用于建立信用评分模型,。研究人员已发展各种各样的传统统计方法,其中涉及线性判别方法决策树方法,粗糙集理论方法方法,和遗传规划方法,。最近,研究人员又提出了混合的数据挖掘方法对有效的信用评级模型进行设计。和他的同事们整合神经网络与传统的判别分析法......”。
3、“.....般来说,信用评级可视为将观察数据分类到预先定义组的二元分类问题。以前的研究主要集中在增加信用评级模型的准确率上。然而,即使点点的改善也会引起显著的成本节约。根据先前的研究,机器学习方法在处理信用评级问题上均优于传统方法,特别是非线性模式分类。对传统的统计分类,都存在假设个潜在的概率模型。而最近发展起来的数据挖掘技术不存在这样的限制条件,可以实取得优于传统统计分析方法更好的预测性能,。特征子集选择算法可以分为两类过滤式方法和封装式方法,。过滤式方法首先是选择重要的特征子集。过滤式方法的特点是独立于任何学习算法,仅依赖于训练数据总体特性的各种度量,如距离信息含量相关性和致性。封装式模型通常使用预先确定的学习算法,根据预测精度来确定所选择的特征子集。但当这些学习算法用来计算大量的特征数据时,所需要的成本是非常昂贵的,。般来说,过滤方法速度快......”。
4、“.....另方面,封装方法在寻找相关有用的变量子集上可以表现的更好,。然而,众所周知的是这个问题非常困难快速搜索难以计算。在本研究中,过滤方法和封装方法将都被使用。与分类相结合的特征选择方法可以进行更好的分类。在设计混合的支持向量机分类器之前,必须先选择个核函数。寻找最佳的惩罚参数和核函数参数,格点搜索算法是种合适的程序。为了比较不同的信用评级模型,本文试图将整体研究分成基本的支持向量分类器和四个基于的特征选择方法,即利用格点搜索优化模型参数,但不进行特征选择利用和方法进行特征选择,然后用格点搜索优化选择模型参数。本文组织如下第二部分和第三部分分别叙述结合支持向量机的特征选择算法这四个策略和基本支持向量机的概念,第四部分根据两个实际数据集给出实验结果,第五部分给出评论并提供相应的结论。特征选择方法的基本概念线性判别分析方法线性判别分析最初是由提出的个著名分类技术......”。
5、“.....可降低变量的维数从而减少特征的数量。但仅仅通过原始数据的线性变换组合成新的变量子集,而不是从原始特征空间中直接消除不相关或冗余的变量。因此,线性判别分析方法提供了种理解数据的新方式,但不能够减少原有特征的数量,。可以表示如下其中代表区别分数,为截距,,,为与解释变量,对应的系数。是种传统的统计方法,在信用评级上的准确率被视为是其他现代分类方法的基准。这个简单的参数化模型是历史上第个出现的信用评级模型。然而,优质和不良客户类的协方差矩阵关于真实的信贷数据可能是不平等的。研究人员正在研究混合模型以克服模型的缺陷,其中个好的例子就是基于支持向量机的信用评级模型。支持向量机方法支持向量机是由等人首先提出的个功能强大的分类工具年。最近,它也被用来解决现实世界中的些问题,如信用评级手写字符识别,,疾病分类诊断等......”。
6、“.....力求最大限度地降低泛化误差的上界。支持向量机的独特优势在于它可以从理论上分析计算学习理论的概念,并同时实现良好的性能。般地,利用训练数据估计出分类问题的判决函数。函数描述如下表示个维模式与类标签之间的种映射,其中根据公式,支持向量机分类器应该满足以下条件这等价于如下方程。其中非线性函数将原始空间映射到高维特征空间,超平面可由下面的等式构建起来。如图所示,问题的两类将通过最优超平面区别。图是二维空间中个线性可分问题的例子。为避免大的数值范围控制了小的数值范围,对数据尺度变换进行预处理是必要的。而且数据预处理还可以避免数值计算过程中的困难,提高准确性。可以通过归化方程将每个变量值以线性的方式缩放在,的范围内,其中是原始值,是缩放值,是最大值,是最小值。结论特征选择过程涉及确定特征子集的最高预测精确度,或者寻求可接受精度的最小特征子集。本研究基于定数量的特征前提下......”。
7、“.....在本研究中,数据降维的预处理步骤是先于改善整体分类性能的分类过程的。我们还描述了四种特征选择方法,揭示出关键的特征以及这些特征如何影响信用评级模型。更少的特征意味着相关部门只需集中精力关注相关的和重要的变量因素,这样可以减少信用评级人员的工作量,因为他们在评估过程中不需要考虑大量的特征,降低了计算强度。特征选择在分类领域中是项重要的任务。本文给出了基于支持向量机的特征选择的混合方法的比较,选取出大部分相关的有用特征而删除那些不相关的特征。与此同时,这不仅能减少变量的数目,还能消除噪声的输入。研究结果表明,混合特征选择方法的预测命中率都高于那些单的方法,尤其是当两部分实例相当的时候澳大利亚数据集。另方面,实验结果主要由数字决定。在将来的研究中,不同类型的数据集可分成不同的比例,以获得更高的准确率。此外......”。
8、“.....对于构造个好方法来说可能是多余的。虽然封装式方法在计算大量的数据时所花费的成本是昂贵的,但是它可能更好地找到有关变量的子集。在这个领域未来的工作里,还可发展信用评估的启发式算法。很多有效的封装式特征选择方法,如遗传算法模拟退火蚁群优化和粒子群优化的开发也是值得尝试的。外文翻译之二作者,国籍,出处原文正文可理解的使用规则提取支持向量机的信用评分模型作者,国籍,出处中文译文摘要近年来,支持向量机应用广泛。然而,分类器通常描述为个复杂的数学函数,难以让人理解。当既要求准确度又有可理解性的时候,这种不透明度阻碍了他们在许多现实生活中的应用,如医疗诊断和信用风险评估。为了克服这种限制,人们认为支持向量机的规则提取可以保持尽可能多的准确性。在本文中,我们将简单地描述近日提出的支持向量机规则提取技术,并介绍两个面向人工神经网络的提取技术,和......”。
9、“.....如数据集多类的数据集等。我们也考虑医学诊断和信用评估中可理解的个关键问题,甚至提出建议。我们的实验结果表明,支持向量机规则提取技术与支持向量机本身相比在性能上仅仅损失了个很小的比例,因此,在可理解的分类技术上的排名处于领先地位。关键字信用评估分类支持向量机规则提取简介支持向量机是种广泛应用于众多领域的新兴的数据挖掘技术,如信用评估金融时间序列预测垃圾邮件分类脑部肿瘤分类等。这种技术的优势在于其复杂的数学模型的非线性能力,而这种优势又恰恰是他的主要缺点该模型拥有比其他数据挖掘技术更高的准确率,但是他们的可理解性是有限的。在些领域中,如信用评估,缺乏这种理解性是个很大的缺点,有些人甚至不愿使用这种模型。更深入步来说美国公平信贷机会法案要求金融机构提供详细的拒绝客户信贷的理由,不明确的拒绝是非法的。在医疗诊断领域,清晰性和诠释性是关键的制约因素。为保准支持向量机的精度......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。