新工科 课程 美国社会收入的影响因素研究
课程封面
美国社会收入的影响因素研究
大数据
简介:有关收入的研究一直是社会热点问题,自 1776 年, “美国梦”的概念在世世代代美国人心中生根发芽。在近百年来,自由的经济体系、济济的世界人才、有限的政府角色,使得人们认为只要通过自己的不懈奋斗、勇气、创意和决心必能获得不菲的收入实现理想生活,而“美国梦”的概念也在电影电视剧书籍等文化宣扬中普遍至世界各国。然而现实总是骨感, 21世纪以来,美国的贫富差距不断增大,相关机构估计占人口 0.1%的最富有家庭拥有财富已经和占人口 90%的家庭不相上下。中国国务院新闻办公室 2016 年 4 月 14 日发表《2015 年美国的人权记录》, 指出美国最穷的 20%人口的收入仅占全民总收入的 3.1%,而最富有的20%人口的收入占到 51.4%,此外美国民众对社会经济波动前景感到悲观, 79%的人相信更多人会掉出中产阶级行列。在巨大的财富分化鸿沟里,出生贫穷者是否真能如他们坚信的美国梦般通过自身努力改变命运挣取不菲的收入?在机遇与挑战中又是否值得无数不同种族国籍的人放弃故土来到美国获得理想收入?
影响收入的因素非常多,小至教育水平、性别、人种等个体因素,大至经济金融化等宏观因素,而影响收入的因素也一直是研究学者和媒体关心的重要话题。 如一项横跨 30 年的芬兰研究表明近三十年来性别的薪酬差异一直存在并未改变,且这种差异从青少年期便开始出现(Wilska & Lintonen, 2016)。即使是强调种族和性别平等的美国社会,仍存在男性普遍比女性收入高,白种人普遍比黑人收入高的现象。而教育水平、工作类型等也明显影响着个体的收入状况。
本实验采用美国人口统计局的一份数据,希望探究数据中各因素对收入的影响,并建立神经网络模型、朴素贝叶斯分类、随机森林模型用于预测个体收入,数据记录了个体的年龄、工作类型、教育水平、婚姻状况、个体职业、家庭关系、人种、性别、投资收入、投资支出、每周工作时间、来源国家、收入状态等基本人口学和个人资料。
实验列表
  • step1
    处理训练集数据
    从文件中加载训练集数据,进行基础的数据探查和清理
    查看详情
  • step2
    训练集缺失值的处理
    分析缺失值的规律
    尝试三种缺失值处理方法,比对处理效果
    查看详情
  • step3
    处理测试集数据
    分类变量因子一致性及相关处理
    查看详情
  • step4
    应用机器学习模型
    建立对变量income的预测模型
    神经网络(多层感知机)、朴素贝叶斯、随机森林
    模型的性能评估(交叉验证、准确率、ROC曲线、AUC)和超参数调优
    查看详情
  • step5
    数据优化(一)
    变量的离散性
    离散变量的列联表
    离散变量的独立性(卡方检验)
    变量优化、比对优化效果
    查看详情
  • step6
    数据优化(二)
    主成分分析、因子载荷
    变量优化:合并分类变量的取值因子
    比对优化效果
    查看详情
  • step7
    数据优化(三)
    变量重要性(随机森林)
    有序变量的关系
    比对优化效果
    查看详情

如果您想对我们的产品和服务更进一步了解
请用下面的方式和我们联系

电子邮箱:business@yundaxue.org(会在1个工作日之内和您接洽)

联系电话:400-828-1210(周一至周五 9:00-18:00 )