虽然现在出现了很多性能优秀的分类算法,包括svm,RF,GBDT,DNN等,作为最简单的分类算法,$lr$ 依然是工业界主流的分类算法之一。那么 $lr$ 到底有什么魔力,即使面对如此众多的 “高手” 面前,依然屹立不倒呢?
市面上关于 $lr$ 的书籍和文章大部分的讲解都是针对 $lr$ 一些基本理论或者一些推导公式。掌握这些还远远不够,要想让 $lr$ 发挥其最大效果,必须要有一套科学的、严密的数据预处理流程。
和市面上对 $lr$ 算法的讲解不同,本文将以金融评分卡模型为例,讲解一整套 $lr$ 配套的数据处理流程,包括数据获取,EDA (探索性数据分析),数据预处理,到变量筛选,$lr$ 模型的开发和评估,生成评分卡模型。希望大家在阅读本篇文章之后能够轻松驾驭 $lr$ 算法。