酷应用

干货：如何选择适当的机器学习算法

百家作者：数据分析 2018-07-11 09:19:28

选择适当的机器学习算法

原文: Choosing the Right MachineLearning Algorithm

来源: https://hackernoon.com/choosing-the-right-machine-learning-algorithm-68126944ce1f

导读：

在决定使用哪种算法时，必须考虑数据的类型和种类。一些算法只需要少量样本，另一些则需要大量样本。某些算法只能处理特定类型的数据。例如，朴素贝叶斯算法与分类数据相得益彰，但对缺失数据完全不敏感。
缺失数据对某些模型的影响超过了对其他模型的影响。即便是对能够处理缺失数据的模型来说，它们也可能受到影响（某些变量的缺失数据会导致糟糕的预测）。
为现实问题设计恰当的解决方案不仅仅是一个应用数学问题，还需要考虑商业需求、规章制度、利益相关者的关切和相当多的专业知识。在解决一个机器问题时，结合和平衡这几个方面至关重要。

原文翻译：

机器学习是艺术和科学的结合。没有哪种机器学习算法能解决所有的问题。有几个因素能影响你选择机器学习算法的决定。

有些问题非常具体，需要独特的方法去解决。例如，推荐系统是十分常见的机器学习算法，解决的是非常具体的问题。而其他问题非常开放，需要试错的方法去解决。监督学习、分类和回归都是非常开放的。它们可以用于异常检测，或者用来打造更通用的预测模型。我们在选择机器学习算法时所做的一些决定，更多地取决于商业决策，而不是优化或者算法的技术面。在下文中，我们将讨论有助于缩小机器学习算法选择范围的一些因素。

数据科学过程

在开始审视不同的机器学习算法之前，你必须对你的数据、面临的问题和局限有一个清晰的认识。

了解你的数据

在决定使用哪种算法时，必须考虑数据的类型和种类。一些算法只需要少量样本，另一些则需要大量样本。某些算法只能处理特定类型的数据。例如，朴素贝叶斯算法与分类数据相得益彰，但对缺失数据完全不敏感。

你必须：

了解你的数据

1. 着眼汇总统计数据和可视化数据

Percentiles有助于识别大部分数据的范围
平均数(Average)和中位数（Medians)能描述集中趋势
相关系数(Correlations)能指明紧密的关系

2. 数据可视化

箱形图(Box Plots)能识别离群值
密度图(Density Plots)和直方图(Histograms)显示了数据的分布
散点图(Scatter Plots)能描述二元关系

整理你的数据

1. 处理缺失值。缺失数据对某些模型的影响超过了对其他模型的影响。即便是对能够处理缺失数据的模型来说，它们也可能受到影响（某些变量的缺失数据会导致糟糕的预测）。

2. 选择如何处理离群值

离群值(Outliers)在多维数据中十分常见。
某些模型受离群值的影响要小于其他模型。通常来说，决策树模型受离群值的影响较小。但回归模型或者其他使用等式的模型肯定会受离群值的影响。
离群值是糟糕的数据收集所致，或者是真实的极值。

3. 数据是否需要汇总

增强你的数据

1. 特征工程是从原始数据到建模可用数据的过程。这有几个目的：

使模型更易于解释（比如分箱）
抓取更复杂的关系（比如神经网络）
减少数据冗余和维度（比如主成分分析）
重新缩放变量（比如标准化或正则化）

2. 不同的模型可能对特征工程有不同的要求。一些要求已经内置到特征工程中。

问题归类

然后是问题归类。这分两步。

1. 按输入数据归类：

如果是标签数据，那就是监督学习问题。
如果是无标签数据，想找到结构，那就是非监督学习问题。
如果想通过与环境互动来优化一个目标函数，那就是强化学习问题。

2. 按输出数据归类：

如果模型的输出数据是一个数字，那就是回归问题。
如果模型的输出数据是一个类，那就是分类问题。
如果模型的输出数据是一组输入数据，那就是聚类问题。
是不是想检测一个异常？那就是异常检测。

了解你的限制

数据存储能力如何？根据系统的存储能力，你可能无法存储大量的分类/回归模型或者待聚类的大量数据。例如，嵌入式系统就是这样。
是否必须迅速作出预测？在实时应用中，尽可能快地作出预测显然非常重要。例如，在自动驾驶时，必须尽可能快地对道路标志进行分类，以免发生事故。
是否必须迅速学习？在某些情况下，快速训练模型是必需的。有时，你需要在匆忙之中用不同的数据集迅速更新你的模型。

找到可用的算法

你已经对自己的处境有了一个清晰的认识，接下来是识别适用的、利用手中工具可以实际执行的算法。影响模型选择的因素包括：

模型是否符合商业目标
模型需要多大程度的预处理
模型的准确性
模型的可解释性
模型的速度：建立模型需要多久，模型作出预测需要多久
模型的扩展性

影响算法选择的一个重要标准是模型的复杂性。一般来说，更复杂的模型：

需要更多的特征来学习和预测（比如使用两个特征VS使用10个特征来预测一个目标）
需要更复杂的特征工程（比如使用多项式项、交互关系或主成分）
需要更大的计算开销（比如1颗决策树VS由100颗决策树组成的随机森林）

此外，同一种机器学习算法会因为参数的数量或者对某些超参数的选择而变得更加复杂。例如：

一个回归模型可能拥有更多的特征或者多项式项和交互项。
一颗决策树可能拥有更大或更小的深度。

使同一算法更复杂，这会增加过拟合的几率。

常用的机器学习算法

线性回归

这可能是最简单的机器学习算法。当你想计算某个连续值的时候，可以使用回归算法，而分类算法的输出数据是类。所以，每当你要预测一个正在进行当中的过程的某个未来值时，你可以使用回归算法。但线性回归在特征冗余（也就是存在多重共线性）的情况下会不稳定。

线性回归的几个用例：

是时候从一个地方到另一个地方
预测特定产品在下个月的销量
血液酒精含量对身体协调性的影响
预测每月礼品卡销量和改善每年收入预期

逻辑回归

逻辑回归进行二元分类，所以输出数据是二元的。这种算法把非线性函数（sigmoid）应用于特征的线性组合，所以它是一个非常小的神经网络实例。

逻辑回归提供了模型正则化的很多方法，不必担心特征是否相关，就像使用朴素贝叶斯算法的时候一样。与决策树和支持向量机相比，逻辑回归提供了出色的概率解释，能轻易地用新数据来更新模型。如果想建立一个概率框架，或者希望以后将更多的训练数据迅速整合到模型中，可以使用逻辑回归。这种算法还能帮助你了解预测背后的贡献因素，不是一种黑箱方法。

逻辑回归的几个用例：

预测客户流失
信用评分和欺诈检测
衡量营销活动的效果

决策树

人们很少使用单一的决策树，但与其他很多决策树结合起来，就能变成非常有效的算法，比如随机森林和梯度提升树。

决策树可以轻松地处理特征的交互关系，并且是非参数化的，所以不必担心离群值或者数据是否线性可分。缺点是不支持在线学习，所以在新样本到来时，必须重建决策树。另一个缺点是容易过拟合，但随机森林和提升树等集成方法可以克服这一缺点。决策树还会占用很多内存（特征越多，决策树就可能越深、越大）。

决策树是帮助你在几个行动方案之间作出选择的出色工具。

投资决策
客户流失
银行贷款违约人
自建VS购买决策
销售线索资质

K-means

有时，你不知道任何标签，你的目标是根据对象的特征赋予标签。这被称为聚类任务。聚类算法的一个用例是根据某些共同属性，将一大群用户分组。

如果在你的问题陈述中，存在“这是如何组织的”等疑问，或者要求将某物分组或聚焦于特定的组，那么你应该采用聚类算法。

K-Means的最大缺点，在于必须事先知道你的数据中将有多少个簇。因此，这可能需要进行很多的尝试，来“猜测”簇的最佳K值。

主成分分析（PCA）

PCA能降维。有时，数据的特征很广泛，可能彼此高度相关，在数据量大的情况下，模型容易过拟合。这时可以使用PCA。

PCA大受欢迎的一个关键，在于除了样本的低维表示以外，它还提供了变量的同步低维表示。同步的样本和变量表示提供了以可视方式寻找一组样本的特征变量。

支持向量机（SVM）

SVM是一种监督学习方法，被广泛用于模式识别和分类问题（前提是数据只有两类）。

SVM的优点是精度高，对避免过拟合有很好的理论保障，而且只要有了适当的核函数，哪怕数据在基本特征空间中不是线性可分的，SVM也能运行良好。在解决高维空间是常态的文本分类问题时，SVM特别受欢迎。SVM的缺点是消耗大量内存、难以解释和不易调参。

SVM在现实中的几个应用：

探测常见疾病（比如糖尿病）患者
手写文字识别
文本分类——按话题划分的新闻报道
股价预测

朴素贝叶斯

这是一种基于贝叶斯定理的分类方法，很容易构建，对大数据集特别有用。除了具有简单的优点以外，朴素贝叶斯甚至好于某些高度复杂的分类方法。在CPU和内存资源是限制因素的情况下，朴素贝叶斯也是很好的选择。

朴素贝叶斯超级简单，只需要做些算术即可。如果朴素贝叶斯关于条件独立的假设确实成立，那么朴素贝叶斯分类器将比逻辑回归等判别模型更快地收敛，因此你需要的训练数据更少。即使假设不成立，朴素贝叶斯分类器在实践中仍然常常表现不俗。如果你需要的是快速简单且表现出色，朴素贝叶斯将是不错的选择。其主要缺点是学习不了特征间的交互关系。

朴素贝叶斯在现实中的几个应用：

情感分析和文本分类
推荐系统，比如Netflix和亚马逊
把电子邮件标记为垃圾邮件或者非垃圾邮件
面部识别

随机森林

随机森林包含多颗决策树。它能解决拥有大数据集的回归和分类问题，还有助于从众多的输入变量中识别最重要的变量。随机森林可扩展到任意维数，其表现通常是可接受的。遗传算法可扩展到任何维度以及对数据本身知之甚少的任何数据，微生物遗传算法实现起来代价最低、最简单。但随机森林的学习速度可能很慢（取决于参数化），而且不可能迭代地改进生成模型。

随机森林在现实中的几个应用：

预测高风险患者
预测制造业的零件故障
预测贷款违约人

神经网络

神经网络包含神经元之间的连接权重。权重是平衡的，在学习数据点后继续学习数据点。所有权重被训练后，神经网络可以用来预测类或者量，如果发生了一个新的输入数据点的回归。用神经网络可以训练极其复杂的模型，它们能作为黑箱，不必在训练模型之前进行不可预测的、复杂的特征工程。再加上“深度方法”，即便是更加不可预测的模型也能被用来实现新的可能性。例如，利用深度神经网络，对象识别近期取得巨大进步。应用于非监督学习任务，比如特征提取，深度学习还能从原始图像或语音中提取特征，不需要太多的人类干预。

另一方面，神经网络非常难以解释说明，参数化极其令人头疼，而且非常耗费资源和内存。

Scikit速查表

scikit-learn提供了一张非常深入、清晰易懂的流程图，帮助你选择适当的算法，用起来非常方便。