1、“.....个重要部分是常量空字段。在早期阶段中,把他们过滤掉能大大减少数据挖掘时间以及提高模型准确性。据统计分析,序列中第步,是为了获得对数据质量初步理解未知字段数量,相关频率,早期指示,平均值和目标数据分布。在最初字段分辨中,个单值在所有记录中出现超过或者为空将被认为是无价值,然后从属性集中移除字段。这些字段将在数据和源数据文件中被移除,来确保从建模步骤中被移除,因此,减少了计算时间。数据预模型化数据预模型化阶段是下步模活跃和流失之间活动。基础上图,我们决定聚焦到两个流失问题上利用过去连续个月所开账户为数据,在提前天情况下,预测特定客户是否会自主通过电话或写信注销她他账户。利用过去连续个月所开账户为数据,在提前天情况下,预测个特定客户是否可能会将他账户转移到竞争对手手上。而账户不定仍保持开通......”。
2、“.....•识别出最具盈利可能性最值得拥有客户群体特征以便开发种好策略使他们对我们持续支持得到保证以及获得更多拥有同样优质客户特征客户。问题客户激励政策区分出从潜在客户和非营利性客户变成盈利客户群体特征。旦找到了这些因素,我们能借助这些因素来发展风险维护和机会等各项策略来促成客户可盈利化成功转变。数据选择像所有数据挖掘活动样,正确数量和超过重要时间段里相关数据区分对于模型进展是很关键。鉴于此,且与这个领域专家合作,我们采集了经过识别和初步审查后所需数据源。表概括了确定数据源和它们预期功能。表描述确定潜在相关数据来源。图表描述了数据挖掘来源以及它们概述以及相关流失模型。数据仓库信用卡数据仓库包含约个产品具体字段。起源于不同点写入数据......”。
3、“.....分数等,数据根据系列可操作规则即在不变化字段情况下减小了字段大小进行压缩。这个仓库包含个月数据,且在每月基础上交替循环。在当前情况下,这个周期包含个月历史信息。信用卡数据仓库是保留数据建模问题主要来源。第三方数据组相关人口和信用局信息。数据可从外部供应商得到,例如,丹麦公司。连接数据库数据提供额外预测数据。分割文件基于客户分割方案设立账户相关分割值,结合风险,盈利和外部潜在能力。该段数据结合数据提取与模型结果覆盖。支付数据库数据库存储了所有进程。数据库能够分类检查。这样数据库允许集允许日期检测,平衡和开户者和用来检查识别客户挖掘账户。数据预处理目标数据预处理包括系列必要活动来创建个压缩文件,如下所示•反映数据随时间而变化。•识别和移除统计中不重要字段。•定义与介绍目标字段。•允许第二领域预处理和统计分析,这个将通过三个步骤来完成,在下面章节详细介绍......”。
4、“.....•目标值定义。•第阶段统计分析。确定数据周期在给定有效数据以及时间周期后,我们决定选取项状态为开通账户记录子集开始数据选择例子是选取周期在间合法客户。另外为了对比,我们还获取在之后状态是保密或者是注销账户数据。这将使得我们能够检测出流失客户特征以及能够形成自愿型流失客户。基于这个考虑,条随机记录被选择,每项代表个账户,其中个是公开,剩下个是自年以来是保密。获得数据被放入个临时表格中,连接到所有产生包含每个账户账户状态每月和过去四个月相关表格。这意味着我们能够重新建立从年月开始所有字段而不仅仅是年月数据。通过时间顺序展开在数据源中每个账户中每月都有列。在操作中,历史客户数据被划分为流失客户和保留客户。为了数据节省空间,每个月我们都核对先前个月数据。如果没有变化,我们就不增加列,有效开始日期值保持和最后次修改时数据即新列被插入保持致。如果属性发生了改变......”。
5、“.....因此些账户记录会少于标准月数量,因为有些月份没有活动被记录下来。如,如果个账户直到年月都没有变化,最后列将会成为当前月列,被用来推算当前这个月结论。在理解这些基础后,创建客户流失模型。鉴于数据文件中数据记录是每月每户列,我们需要使用过去四个月历史数据来建立个预测模型。为了表示数据随时间和季节性行为而变化,我们需把过去独立四个月数据结合在个数据文件里,而在数据文件里每个账户有个包含过去四个月金融信息列。使用数据格式,要求隐性数据成为显形,而时序被分为单独字段。为了完成这点,我们将变量分成静态变量和时间敏感度变量。静态变量不随时间而变化。例子如下账号,母姓,住址和爱好。时间敏感值每月而变化且为了找到季节性时间相关性行为保留在过去个月不同值。时间敏感值被分配到个时间前缀意味着最近个月,意味着前二个月,意味着三个月前,意味着四个月前。因此,例如......”。
6、“.....鉴于此,下个任务是包含了在干净格式化文件生成额外文件以及将它们添加到结果文件。时间序列数据显示于表三,数据值设置从增加到。表二以四个月为周期时间敏感度数据库。周期与命名上个月,当前账户余额个月前,当前账户余额二个月前,当前账户余额三个月前,当前账户余额。表三按时间顺序展开数据集。目标值定义像很多真实数据挖掘应用程序样,通常在数据仓库中是不会直接定义数据挖掘目标字段,因此,定义合适商业领域研究目标字段也是数据挖掘工作部分。在商业领域专家帮助下,我们在些存在数据中定义数据目标值,并籍此定义目标变量值,换言之,变量能够测量流失客户,因此定义会计账户中价值分析为客户流失为保留客户。定义如下状态代码状态更改日期注销原因代码公式定义为注销状态更改日期在年月和年月日之间注销原因代码在之间。自主客户流失原因代码是客户需求,自主客户流失原因代码客户需求相关价格是。根据定义......”。
7、“.....第步骤数据统计分析在时序数据集中个字段中,个重要部分是常量空字段。在早期阶段中,把他们过滤掉能大大减少数据挖掘时间以及提高模型准确性。据统计分析,序列中第步,是为了获得对数据质量初步理解未知字段数量,相关频率,早期指示,平均值和目标数据分布。在最初字段分辨中,个单值在所有记录中出现超过或者为空将被认为是无价值,然后从属性集中移除字段。这些字段将在数据和源数据文件中被移除,来确保从建模步骤中被移除,因此,减少了计算时间。数据预模型化数据预模型化阶段是下步模由未选择属性组属性,该属性最提高所得分类器精确度上测试集。属性中选择,直到添加任何其他属性查询结果中分类器精确度下降。自然选择条件下朴素贝叶斯网络如图解所示。ı图解选择贝叶斯网络模型柱状图。结果如上图所示。种混合方法种分类器集成方法种分类器集成是生成组分类器而不是新项目分类种分类器......”。
8、“.....。分类器集成已被证明是提高分类精度个非常有效方法,因为个体分类器所犯不相关能够通过投票从而被删除。种分类器,利用分类规则中组最小分类来区分未来例子,可能会导致。分类器集成是系列分类器,这些分类器在些方面来划分新样本。为构建分类器集成创建了些方法,有些是般算法和有些特定算法,。我们采用了种混合方法首先,我们用自然条件下贝叶斯网络来建立种分类器,人工神经网络预测,决策树,自然选择条件下贝叶斯网络,然后我们在主要通过投票将从个分类集合成个分类器。集成分类器比任何个个体分类器得到更精确字段。上图是集成分类器所得到结果。数据挖掘发现最初研究揭露了系列变量之间关系以及临界值来进步探讨与分析。如下总结了重要观点和些可能含义上表显示,些特定值或数值范围属性是来预测保留客户和流失客户。这些解释增加了我们信心,而这些属性值将继续在未来继续预测......”。
9、“.....我们客户采取了字段检测。测试要显示出两个要点客户流失率包含了集中流失客户。基于营销方法数据挖掘对于保留目标是有效。他们对现有客户分类方法从而生成模型,然后将客户流失比率再次进行分类。他们决定与列表中前现有客户进行联系大约名,其中有大约名客户。他们把客户随机分为组,每组大约有名,然后对不同组客户采取积极主动地行动第组,市场营销部门接触每个客户,并提供了些优惠措施来鼓励客户留在公司而第二组,没有采取任何联系。经过个月后,他们检查列表然后发现,在第组中,流失率非常低,而在第二组中,流失率非常高,几乎是,在两个月累积平均流失率为,因此获得了字段在测试数据段中,列表中始终保持着数据。在第组中较低流失率显示,如果积极主动行动是及时和适当,这对客户行为确实有影响,而第二组高流失率证明,我们数据挖掘模型是正确和前高比例流失率被捕捉。结论在此篇论文中......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。