Technologies come and technologies go, but insight is forever.

玩转逻辑回归之金融评分卡模型 2018-05-06|machine learning|机器学习-逻辑回归-评分卡模型

虽然现在出现了很多性能优秀的分类算法，包括svm，RF，GBDT，DNN等，作为最简单的分类算法，$lr$ 依然是工业界主流的分类算法之一。那么 $lr$ 到底有什么魔力，即使面对如此众多的 “高手” 面前，依然屹立不倒呢？

市面上关于 $lr$ 的书籍和文章大部分的讲解都是针对 $lr$ 一些基本理论或者一些推导公式。掌握这些还远远不够，要想让 $lr$ 发挥其最大效果，必须要有一套科学的、严密的数据预处理流程。

和市面上对 $lr$ 算法的讲解不同，本文将以金融评分卡模型为例，讲解一整套 $lr$ 配套的数据处理流程，包括数据获取，EDA (探索性数据分析)，数据预处理，到变量筛选，$lr$ 模型的开发和评估，生成评分卡模型。希望大家在阅读本篇文章之后能够轻松驾驭 $lr$ 算法。

本节是SVM系列三部曲的最后一部分。主要讲了SMO算法，SVR算法，sklearn中SVM算法的参数介绍和调参建议。网上有很多SMO算法的文章，有的要么讲解的比较浅显，要么就是一堆公式的堆砌，让人看完之后会有各种疑问，比如：SMO算法和EM算法有什么异同点？坐标上升(下降)法与梯度下降(上升)法有什么异同点？什么时候用坐标上升(降法)？什么时候用梯度下降法(上升)？SMO为什么采用两个变量迭代，而不是一个，三个，四个或者更多？SMO算法两个变量的选择是怎么来的？SMO算法的基本步骤是什么？以及SVR和SVC都有哪些具体的区别？有没有详细的物理直观的解释和公式比较？

针对以上问题，本文都已经详细作答，希望阅读完本SVM三部曲的朋友能够对SVM有更深的了解和认识。文章中夹杂着很多自己的思考和理解，如有不正确的地方，请多多指正，也希望志同道合之士能够多多交流。

关于软间隔SVM和非线性SVM，在学习过程中，估计有很多入门的同学会好奇软间隔和硬间隔的区别有没有更合理的解释？软间隔中引入的松弛变量到底是什么？软间隔的优化函数和硬间隔的优化函数化简之后，为什么长得这么类似？有没有更形象的方式来划分软间隔中的支持向量，噪声点和误分类的点？软间隔SVM的代价函数，硬间隔SVM的代价函数和合页损失函数是一致的吗？以及核函数是个什么玩意？核函数的优点到底怎么解释？

下面我将用EM算法的思想去解释软间隔和硬间隔的区别，并用通俗易懂的语言解释松弛变量的几何含义，以及系数C对支持变量的影响。用一张图解释软间隔是怎样区分支持向量，噪声点和误分类的点。对软间隔SVM的代价函数，硬间隔SVM的代价函数和合页损失函数的一致性进行了推导。之后对特征空间和核函数的核心idea进行了阐述，并分析了核函数的形式来历和那句让人捉摸不透的优点。最后简要介绍了一下几个重要的核函数。

由于文章当中包含很多自己理解的部分，如有不当之处，请多多指正！！！

SVM 可以说是传统机器学习中最难的算法之一，也是很多面试官最喜欢的算法之一。网上有各种各样关于SVM的博客文章，市面上也有很多SVM的书籍。大部分文章，要么仅面向小白，深度不够，要么搞一大堆公式放上去忽悠人。很少能见到对 SVM 算法分析非常透彻的文章。估计很多同学看了很多文章，还是有很多疑问。 SVM的核心idea是什么？它和我们平时见到的逻辑回归有什么区别和联系？几何间隔和函数间隔为什么长成那个样子？SVM定义的间隔和这两种间隔本质上有什么区别和联系？ SVM的那一堆公式都是什么意思？有没有更直观的表述？下面我会从最常见的感知机和逻辑回归算法入手，分别从机器学习三要素，算法的核心idea来分析 SVM 和逻辑回归以及感知机之间的区别和内在联系，然后讲解 SVM 算法中几个核心的 idea 和推导步骤，SVM中那种间隔定义的根源以及另外一种理解方式， SVM 是怎样“盗取”EM算法的核心思想等等。希望大家读完之后会有一种一览众山小的感觉，同时能体会到SVM算法精妙！

很多东西都是个人理解，有不准确的地方，还请大家指正！

下面让我们来揭开SVM的神秘面纱吧！！！

估计有很多入门机器学习的同学在看到EM算法的时候会有种种疑惑：EM算法到底是个什么玩意？它能做什么？它的应用场景是什么？网上的公式推导怎么看不懂？

下面我从极大似然估计开始，过渡到EM算法，讲解EM算法最核心的idea，以及EM算法的具体步骤。鉴于网上很多博客文章都是直接翻译吴恩达的课程笔记内容，有很多推导步骤都是跳跃性的，我会把这些中间步骤弥补上，让大家都能看懂EM算法的推导过程。最后以一个二硬币模型作为EM算法的一个实例收尾。希望阅读本篇文章之后能对EM算法有更深的了解和认识。