机器学习模型下企业信用风险浅析（论文原稿）

格式：word 上传：2023-04-07 14:41:00

《机器学习模型下企业信用风险浅析（论文原稿）》修改意见稿

1、“.....使得各个指标分箱更加合理。最后，计算转换后各指标的相关系数，对于共线性较强的组指标，仅保留余个指标，包括财务基础指标个财务衍生指标个，通过均值方差变异系数加工财务分析指标个非财务指标个，均已删除缺失率较高的指标。其中，财务指标基于样本观测日近年的财报数据含季报半年报和年报共个时点的财报数据进行加工非财务指标包含工商信息主体评级审计意见法律诉机器学习模型下企业信用风险浅析论文原稿企业。跟踪其后续违约情况，实际预测效果如表矩阵所示。数据显示，模型预警到年月日至月日违约的家企业中的家，命中率为，且命中的家违约企业均在高风险前名内，说明模型对违约企业具有良好的监测预警效果......”。

2、“.....使用本文模型可起到提前预警企业信用风险的作用。未来型精确率相对不高的原因是进行企业信用风险监测的主要目的在于发现高风险企业，因此更关注模型的灵敏度，即模型命中实际违约企业的比例越高就越好，而扩大命中比例相应会降低精确率。从通常用来检验分类模型效果的指标来看，模型的分数为，为，值为。以上各指标使假阳率尽可能低真阳率尽可能高的点。这里通过曲线确定的最优预警阈值为违约概率对应的信用评分为，即违约概率大于等于信用评分小于等于的企业预测为高信用风险。通过比较样本的预测违约概率与选取的阈值的大小，笔者对每个建模样本进行违约未违约的分类预测。将每个摘要本文基于大数据和机器学习方法......”。

3、“.....并对公司信用类债券发行人的违约风险进行监测。在余个指标中，通过信息值和随机森林指标重要度计算等方法，筛选出个对信用风险有显著影响的指标，构建机器学习模型，计算企业的违约概率，并利用曲线异机器学习模型下企业信用风险浅析论文原稿。样本选择指标筛选及模型拟合样本选择笔者选取截至年月末历史上有公募信用债发行记录的家企业作为建模样本，其中，含有历史违约记录的企业有家。对于已违约企业无违约无存续债企业无违约有存续债企业，观测日分别为首次违约日率以年度为主，难以准确及时监测信用风险。本文创新性地应用机器学习模型，发挥大数据优势......”。

4、“.....挖掘海量多维动态数据信息，提高监测预警准确性及时性和前瞻性。是采用集成学习算法，解决正负样本不均问题。我国刚险列为大攻坚战之，多次强调要夯实金融稳定的基础，深化信用体系改革。因此，对企业债务风险进行实时动态监测预警，是当前形势下贯彻落实防范化解重大金融风险工作部署的重要举措。企业债务风险监测预警可前臵风险管控端口，是防控市场信用风险的重要抓手。相对于亡羊补牢式如表所示。可以看到，的违约样本的信用评分位于信用评分最低档，说明模型对违约样本和未违约样本有较好的区隔能力机器学习模型下企业信用风险浅析论文原稿......”。

5、“.....自变量为样本截至观测日可获取的财务及非财务数据指标因变量为样本历史上是否发生违约，违约记为，未违约记为机器学习模型下企业信用风险浅析论文原稿。作者周双双张子鹏单位中央结算公司深圳分公司机器学习模型下企业信用风险浅析论文原稿是计算每家企业的预测违约概率，提升信用区分度。传统信用评级方法是将企业信用风险分为若干档，相同档内的企业信用风险缺乏区分度。本文采用机器学习模型，计算每家企业的预测违约概率，并转换为信用评分，这样可以直观反映企业信用风险状况......”。

6、“.....具体含义见表。在模型结果方面，根据拟合的模型计算违约概率，将其调整为与原始样本分布相吻合的违约概率。然后，按照以下设臵对模型进行转换当违约几率即为时，对应的信用评分设为分此时违约概率为。同时，违约几率每翻性兑付打破时间较晚，违约样本出现的时间较短，时间序列数据较少，难以使用传统的实证方法进行风险监测。本文创新性地采用基于套袋法，全称为，意为自助聚合的算法，有效解决正负样本严重不均衡问题的风险处臵而言，未雨绸缪式的风险监测预警可实现风险的早预警早发现早防范早处臵，有利于减缓企业债务风险发生后对经济社会造成的冲击，降低风险防范化解的成本。本文的主要创新点包括以下方面......”。

7、“.....充分挖掘大数据信息。传统研究主要选择企业财务数据，且数据重当期还款压力等多重因素影响下，我国贷款不良率和债券违约率有所攀升，企业债务风险已成为值得关注的金融风险之。年，我国债券市场违约金额逐年攀升，累计达亿元，违约主体涉及中央国有企业地方国有企业民营企业等。近年来，国家高度重视金融风险防范工作，将防范化解金融，设对应的信用评分降低分违约几率每降低半，设对应的信用评分提高分。转换后得到每个样本的总体信用评分以及在每个入模指标上的得分，信用评分越低表示违约风险越高。将所有样本的信用评分进行等频分箱，共分为档，即每个信用评分区间中大约有的样本......”。

8、“.....由组训练样本得到的个逻辑回归子模型入模指标有较高的致性。最后，选取个子模型中显著性检验值均小于的个指标入模，重新拟合每个子模型的回归系数，取每个子模型中回归系数的平均值，得到最终逻辑回归模型其中，为基于欠采样训练样本计算的违约概率，至为各值较高或更加符合业务逻辑的个指标，得到个候选指标。模型拟合在模型拟合方面，违约样本比例仅为，存在较严重的正负样本不均衡情况。基于套袋法的算法提供了种简单有效的改进方法，即利用套袋法在原始训练集的随机子集上构建种分类器的多个实例，然后集成成交价格地方经济财政等。在进行指标筛选时，首先，区分定性指标和定量指标......”。

9、“.....其中，定性指标依据变量取值进行分箱，定量指标基于分类决策树进行最优分箱。另外，利用随机森林算法计算指标重要度，经初步筛选，得到值较高或者重要度较，方面，随着实际违约企业的不断积累，应持续跟踪和评估模型效果，不断对模型进行优化迭代。另方面，企业处于动态发展中，应以定的频率获取企业最新的数据并代入模型，更新计算结果，实现对企业债务风险的动态监测预警。指标筛选在指标方面，基于数据情况和业务理解，笔者加表明模型对违约样本的预测能力较好，对违约样本和非违约样本有较强的区隔能力，模型效果良好。模型实证效果检验依据模型......”。

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。