
某地区电力公司欠费预测
根据某地区电力公司工业用户的用电数据和缴费数据,通过机器学习等算法,完成对用电用户进行电费欠费概率预测的数据分析。
实验需要给出一个预测用户欠费概率的算法模型,通过该模型能预测每一个用户未来三个月可能欠款的概率。使得电力公司能提前对存在较高欠费风险的用户进行提前干预,改变电力管理的被动局面,达到减少电力用户欠费风险的目的。
实验需要给出一个预测用户欠费概率的算法模型,通过该模型能预测每一个用户未来三个月可能欠款的概率。使得电力公司能提前对存在较高欠费风险的用户进行提前干预,改变电力管理的被动局面,达到减少电力用户欠费风险的目的。
实验列表
-
step1
-
step2实验2 数据预处理为了有利于建模分析,我们需要将这个数据aggregate到一个客户在一个月,有且仅有一条记录,这一条记录代表了一个客户在某一个月的状态查看详情
为达到以上目的,并且不损失信息,我们创建了以下新变量:
用户户账号、年月
当月总度数、总电费、转电费次数、存入次数、调整账目次数、账目余额调入次数、退电费次数、调整违约金次数、补入银行收费次数、账目余额调出次数、坏票或贴息次数、未达项未达处理次数、账户核销次数、当月月底余额(按下月10日前算的余额)
1个月前的上述所有变量
......
6个月前的上述所有变量
下一个月的上述所有变量
Aggreate后的数据只含有16万条记录
去除一些没有信息的记录后,有效记录数目为15.7万条
通过创建过去1-6个月的变量,对于每一个账户我们总获得94个变量
因为一定数量的账号没有过去1-6个月或者下1个月的信息,我们删除那这些行号后,最终的数据记录数目是11.5万条
本实验中规定的欠费定义为:下个月10号前用户账户中的余额小于当月应缴纳电费金额 -
step3实验3 模型建立与评估逻辑回归模型实现模型训练、预测查看详情
支持向量机SVM实现模型训练、预测,分别采用了三种不同的kernel模型,来比较不同kernel模型得出的预测率的精度
将测试集中的数据分为两部分:输入数据,结果
将上述输入数据代入所建立的模型,计算出结果;再将模型计算结果与测试集数据中的实际结果进行比对,来评估每种模型的性能,判断所建模型是否能较好地推广到实际应用中