Data-Analysis

某训练营的数据赛道，表格类赛题，主要是对客户流失进行预测，是一个常规的二分类问题

main.ipynb

xlsx转csv方便后续读取
进行数据清洗，去除CUST_UID，处理处理问号、缺失值等
进行特征工程，增加问号个数、2个数等新特征，并根据特征重要性，取前几的特征进行内部暴力交叉，以及和类别特征交叉
模型选择以及融合，尝试模型包括xgboost、lightGBM、catboost、神经网络等，模型融合包括voting以及stacking
尝试过的tricks：强特征交叉、删去关联性高的特征、dae处理特征（和神经网络配合会有奇效，MLP即可）、自动特征工程（EvolutionaryForestRegressor等）

Untitled.ipynb

魔改版本，未经过整理

Untitled1.ipynb

同上

总结

特征工程，特征重要性排序，取重要特征进行暴力交叉生成新特征，也可以和类别特征交叉。对于B榜，要将关联性强的特征删去，提高泛化性。关注DAE等数据处理方法。特征要尽可能增多，提高精度，后续保证泛化性，再逐步降低
lgbm模型很牛逼，调得好可以超过xgb、catboost甚至神经网络
模型融合除了voting之外，可以尝试stacking方法，lgbm以及xgb都可以设置叶子节点参数，生成的结果可以用逻辑回归或者Knn进行计算，可能会有意想不到的效果
不能一拿到数据就想着模型，一开始EDA还是很重要的，特征数据的分布也能提供很多信息
A榜和B榜只有测试数据上的差别，so 别忘了分析A/B榜数据

开源方案

A榜第九 B榜第二十八

Todo

整理代码，规范流程
搜集更多开源方案
淦

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
LICENSE		LICENSE
README.md		README.md
Untitled.ipynb		Untitled.ipynb
Untitled1.ipynb		Untitled1.ipynb
main.ipynb		main.ipynb
tree(1).dot		tree(1).dot

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Data-Analysis

main.ipynb

Untitled.ipynb

Untitled1.ipynb

总结

开源方案

Todo

About

Uh oh!

Releases

Packages

Languages

License

ff1023/Data-Analysis

Folders and files

Latest commit

History

Repository files navigation

Data-Analysis

main.ipynb

Untitled.ipynb

Untitled1.ipynb

总结

开源方案

Todo

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages