Skip to content

某训练营的数据赛道,表格类赛题,主要是对客户流失进行预测,是一个常规的二分类问题

License

Notifications You must be signed in to change notification settings

ff1023/Data-Analysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Data-Analysis

某训练营的数据赛道,表格类赛题,主要是对客户流失进行预测,是一个常规的二分类问题

main.ipynb

  1. xlsx转csv方便后续读取
  2. 进行数据清洗,去除CUST_UID,处理处理问号、缺失值等
  3. 进行特征工程,增加问号个数、2个数等新特征,并根据特征重要性,取前几的特征进行内部暴力交叉,以及和类别特征交叉
  4. 模型选择以及融合,尝试模型包括xgboost、lightGBM、catboost、神经网络等,模型融合包括voting以及stacking
  5. 尝试过的tricks: 强特征交叉、删去关联性高的特征、dae处理特征(和神经网络配合会有奇效,MLP即可)、自动特征工程(EvolutionaryForestRegressor等)

Untitled.ipynb

魔改版本,未经过整理

Untitled1.ipynb

同上

总结

  1. 特征工程,特征重要性排序,取重要特征进行暴力交叉生成新特征,也可以和类别特征交叉。对于B榜,要将关联性强的特征删去,提高泛化性。关注DAE等数据处理方法。特征要尽可能增多,提高精度,后续保证泛化性,再逐步降低
  2. lgbm模型很牛逼,调得好可以超过xgb、catboost甚至神经网络
  3. 模型融合除了voting之外,可以尝试stacking方法,lgbm以及xgb都可以设置叶子节点参数,生成的结果可以用逻辑回归或者Knn进行计算,可能会有意想不到的效果
  4. 不能一拿到数据就想着模型,一开始EDA还是很重要的,特征数据的分布也能提供很多信息
  5. A榜和B榜只有测试数据上的差别,so 别忘了分析A/B榜数据

开源方案

A榜第九 B榜第二十八

Todo

  1. 整理代码,规范流程
  2. 搜集更多开源方案

About

某训练营的数据赛道,表格类赛题,主要是对客户流失进行预测,是一个常规的二分类问题

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published