大数据征信如何实现

2020-05-14 15:53作者:admin来源:未知>次阅读

模型投票原则的依据通常考虑预测精度、过拟合和误判的容忍度等各种类型,在机器学习领域通常指ROC、AUC等指标。同时,为将分类概率转为评分或评级,一般还用到得分转换函数。

其次,对相关原始数据进行关联分析,从而完成数据清洗和变换。各类渠道获取的原始数据并非都能直接用于征信模型。有些可能是冗余的;有些则是非结构化的多媒体数据,需要提取、加工、转换成数量或分类特征;还有些可能需要进行函数变换或与其它数据整合,才能显示与客户信用相关的行为特征和预测效果。

同时,将原始数据整合成具备经济含义、便于解释的新变量,能帮助开发人员更好地理解信用风险形成和演化本质,加快模型迭代。这些新变量很可能直接反映借款人的某一特性,如欺诈、团案、洗钱、长短期信用等,进而输出和应用到特定模型和场景。

首先,通过各种交互接口,自动高速地采集和传输各种形态的数据。其中,来源于客户自身的数据既包括其自主录入的个体基本信息,也包含其上传提交或主动授权访问的公共信息。来自平台自身积累的数据主要是平台自身基于各类线上场景获取的消费、支付、社交和信用活动等线上行为数据。而采自第三方平台的数据来源既有线上各类电商平台、银行卡和第三方支付机构、即时通讯和网络社交平台、公共服务机构等,也有来自于各类线下渠道。

因而需先对所获取的原始数据进行关联分析,再将无效的原始变量通过函数变换或与其他变量进行整合,并再次分析新变量的关联特征。进而淘汰无效数据,保留初始有效以及经过变换有效的那部分原始数据。

由于各子、并行模型的结构差异,对同一个体在同一或不同时期的信用评分和评级往往存在差异。这就需要通过模型投票原则,确定最佳模型或模型组合,并载入数据,综合分析结论,进而使各模型输出结果统一,得到连贯、最优的信用评分或评级。

最后,利用模型投票原则,筛选最优的几个模型,并载入数据合成分析结论,输出最终的信用得分和评级。

其后,构建定制化的子模型和并行模型,利用机器学习等前沿算法对指标化的变量进行深度学习。通常构造的模型并非单一,但具关联性和系统性。需根据不同风险管理环节、不同特征客群和特定场景等的需要,在一般化模型的基础上,构建多样化、逐步演进的征信子模型或并行模型。这不仅能够降低对输入数据维度和频度的要求,还能提高模型预测精度和实施效率,更好地服务特定目标。同时意味着输入到特定模型中的变量或指标存在差异,需依模型特性定制。

再次,将相关原始数据进行深度整合,形成更为集成、具有经济含义的新变量。即使所有数据都已经有效但若维度太大,即使已经有成熟的大规模计算技术,也不一定适合将所有数据同时用于建模。通过变量整合,能够有效降低数据维度,在保证模型计算精度的同时,减轻计算负担,加快计算进程。

大数据征信已经被广泛应用于信贷科技,其实现分为五个阶段。

另外,在数据应用和模型设计时,除了逻辑回归和支持向量机等传统计量方法外,更多地会运用复杂网络、NLP、神经网络和深度学习等前沿机器学习技术。


热门排行

最新文章

Powered by 配资参谋www.xunnong.com.cn @2018 RSS地图 html地图

Copyright 站群系统 © 2015-2025 中信e配官方网 版权所有