某训练营的数据赛道,表格类赛题,主要是对客户流失进行预测,是一个常规的二分类问题
- xlsx转csv方便后续读取
- 进行数据清洗,去除CUST_UID,处理处理问号、缺失值等
- 进行特征工程,增加问号个数、2个数等新特征,并根据特征重要性,取前几的特征进行内部暴力交叉,以及和类别特征交叉
- 模型选择以及融合,尝试模型包括xgboost、lightGBM、catboost、神经网络等,模型融合包括voting以及stacking
- 尝试过的tricks: 强特征交叉、删去关联性高的特征、dae处理特征(和神经网络配合会有奇效,MLP即可)、自动特征工程(EvolutionaryForestRegressor等)
魔改版本,未经过整理
同上
- 特征工程,特征重要性排序,取重要特征进行暴力交叉生成新特征,也可以和类别特征交叉。对于B榜,要将关联性强的特征删去,提高泛化性。关注DAE等数据处理方法。特征要尽可能增多,提高精度,后续保证泛化性,再逐步降低
- lgbm模型很牛逼,调得好可以超过xgb、catboost甚至神经网络
- 模型融合除了voting之外,可以尝试stacking方法,lgbm以及xgb都可以设置叶子节点参数,生成的结果可以用逻辑回归或者Knn进行计算,可能会有意想不到的效果
- 不能一拿到数据就想着模型,一开始EDA还是很重要的,特征数据的分布也能提供很多信息
- A榜和B榜只有测试数据上的差别,so 别忘了分析A/B榜数据
- 整理代码,规范流程
- 搜集更多开源方案
- 淦