【数据挖掘】银行信用卡风险大数据分析与挖掘

发布于:2024-07-06 ⋅ 阅读:(38) ⋅ 点赞:(0)

银行信用卡风险大数据分析与挖掘

1、实验目的

中国某个商业银行高层发现自家信用卡存在严重的欺诈和拖欠现象,已经影响到自身经营和发展。银行高层希望大数据分析部门采用数据挖掘技术,对影响用户信用等级的主要因素进行分析,结合信用卡用户的人口特征属性对欺诈行为和拖欠行为的影响因素进行分析,挖掘银行客户信用卡记录数据的潜在价值,为该银行的信用卡业务决策提供参考。银行大数据部门通过对银行的客户信用记录、申请客户信息、拖欠历史信息、消费历史记录等数据进行分析,可对不同程度的客户进行归类,研究信用卡贷款拖欠、信用卡欺诈等问题与客户的个人信息、信用卡使用信息的关系,为银行提前识别、防控信用卡业务风险提供参考,从而减少银行在信用卡业务方面的损失,并采用大数据分析与挖掘模型和算法设计构建信用卡风险识别系统,为银行的智慧运营奠定基础。本次分析的主要目的是通过对客户拖欠历史信息和消费记录进行信用卡风险客户识别模型的建立。

2、实验环境

实验环境采用的是R4.3.1版本,环境编程工具采用的是RStudio进行编程建立预测模型并评估模型的效果,对模型进行参数优化,得出响应的模型结果。

3、实验设计

3.1、题目设计

信用卡风险客户识别模型。通过对该应该用户是否有拖欠行为和欺诈行为的用户作为该银行的信用卡风险客户,制定风险客户标签。

3.2、数据获取与存储

采用R语言对原始数据进行读取,读取后的数据采用变量进行保存在R工作环境中,以便建模分析调取使用。由于数据文件为excel形式,因此利用R读取数据时采用readxl包中的read_excel函数进行数据的读取。

3.3、数据处理

在读取数据后需要对数据做处理,而由于需要用到不同的表格数据,需要先将不同表格数据通过关联的客户号进行连接后,建立目标变量是否风险客户,是否风险客户是通过是否有拖欠行为和是否欺诈行为判断,两者只要满足其一则为风险客户。建立好目标变量后需要对无用变量进行剔除,如客户姓名、客户号等对建模无用的基础信息进行剔除。剔除无用变量后发现数据中的变量有分部为类别变量,因此需要对类别变量的数据类型做转换,将是否类型或有无类型的变量采用0和1进行复制替换处理,有序类别变量则采用序列号赋值处理,无序类别变量则将其转换为因子的数据类型,最后得到模型的原始数据,再对原始数据进行训练集和测试集的划分,以便利用训练集和测试集分别进行模型的建立和模型的测试。

3.4、模型与参数确定

建立模型所选用的算法分别为逻辑斯蒂回


网站公告

今日签到

点亮在社区的每一天
去签到