最全最实用的机器学习算法优缺点分析

发布时间：2022-12-21 13:11:04 所属栏目：搜索优化来源：互联网

导读： 本文长度为4600字，建议阅读6分钟
本文结合使用场景及实际经验，细致剖析每种算法在实践中的优势和不足。
本文的目的，是务实、简洁地盘点一番当前机器学习算法。尽管人们已做过不少盘点，

本文长度为4600字，建议阅读6分钟

本文结合使用场景及实际经验，细致剖析每种算法在实践中的优势和不足。

本文的目的，是务实、简洁地盘点一番当前机器学习算法。尽管人们已做过不少盘点，但始终未能给出每一种算法的真正优缺点。在这里，我们依据实际使用中的经验，将对此详加讨论。

归类机器学习算法，一向都非常棘手，常见的分类标准是这样的：生成/判别、参数/非参数、监督/非监督，等等。

举例来说，Scikit-Learn 对算法的分类是根据它们的学习机制，由此所产生的类别如下：

……

然而，根据我们的经验，这都不是最实用的算法分类方式。这是因为，在使用机器学习的时候，你不会这么去想：“我今天想训练一个支持向量机出来！”

相反，你一般是想着那个最终的目标，比如预测某个结果，或是将观察结果进行分类。

因而，我们想基于你的任务目标，来对机器学习算法进行分类。

天下没有免费的午餐

在机器学习领域，一个基本的定理就是“没有免费的午餐”。换言之，就是没有算法能完美地解决所有问题，尤其是对监督学习而言（例如预测建模）。

举例来说，你不能去说神经网络任何情况下都能比决策树更有优势，反之亦然。它们要受很多因素的影响，比如你的数据集的规模或结构。

其结果是，在用给定的测试集来评估性能并挑选算法时，你应当根据具体的问题来采用不同的算法。

直线搜索方法,无约束优化方法,约束优化方法_常用的约束优化方法_无模型的策略搜索方法

当然，所选的算法必须要适用于你自己的问题，这就要求选择正确的机器学习任务。作为类比，如果你需要打扫房子，你可能会用到吸尘器、扫帚或是拖把，但你绝对不该掏出铲子来挖地。

机器学习的任务

这里，我们将首先讨论当前的「三大」最常见的机器学习任务：

以及两大数据降维（Dimensionality Reduction）问题：

后续的文章，我们还将讨论密度估计（Density Estimation）和异常检测（）的任务。

说明：本文将不讨论具体的细分领域，如自然语言处理。

本文也不会覆盖到每一个具体的算法。毕竟当前的算法数不胜数，而新的算法更是层出不穷。尽管如此，本文仍能针对每项任务给出当下最有代表性的算法。

1. 回归

回归是一种用于连续型数值变量预测和建模的监督学习算法，使用案例包括房地产价格、股价走势或学生成绩等的预测。

回归任务的特征是具有数值型目标变量的标注数据集。换言之，每一个用以监督算法的观察样本，都有一个数值型真值。

常用的约束优化方法_无模型的策略搜索方法_直线搜索方法,无约束优化方法,约束优化方法

线性回归

1.1 （正则化）线性回归

线性回归是回归任务最常用的算法。它最简的形式，是用一个连续的超平面来拟合数据集（比如，当你仅有两个变量时就用一条直线）。如果数据集内的变量存在线性关系，拟合程度就相当高。

在实践中，简单线性回归通常会被其正则化形式（LASSO、Ridge 及弹性网络）所取代。正则化是对过多回归系数所采取的一种避免过拟合的惩罚技巧，同时，惩罚的强度需要被平衡好。

Python -

R-

1.2 回归树（集成方法）

回归树，又名决策树，通过将数据集重复分割成不同的分支来最大化每次分离的信息增益，从而让回归树很自然地学到非线性关系。

集成的方法，如随机森林（RF）或梯度提升树（GBM），则能结合许多独立训练树的预测。我们在这里不会详述其中的机制，但在实践中，随机森林一般都有很出色的表现，梯度提升树则较难调参，但往往能有更高的性能上限。

Python - #random-forests

R -

Python - #classification

R -

1.3 深度学习

深度学习是指能够学习极端复杂模式的多层神经网络。它们在输入层和输出层之间使用隐藏层来对数据的中间表征建模，这一点是其他算法很难做到的。

深度学习还有几个重要的机制，如卷积、漏失等，这使该算法可以有效学习高维数据。然而，相对于其他算法，深度学习需要更多的数据来进行训练，因为该模型需要估算更大数量级的参数。

Python -

R -

1.4 荣誉奖：最近邻算法

最近邻算法是“基于实例的”，也就意味着它需要保留每一个训练观察值。最近邻算法通过搜寻最相似的训练样本来预测新样本的观察值。

它是内存密集型算法，处理高维数据时的效果并不理想，同时还需要高效的距离函数来计算相似度。在实践中，使用正则化的回归或树型集成方法通常是更好的选择。

2. 分类

分类是一种用于分类变量建模及预测的监督学习算法，使用案例包括员工流失、邮件过滤、金融欺诈等的预测。

正如你所见，许多回归算法都有其对应的分类形式，分类算法往往适用于类别（或其可能性）的预测，而非数值。

常用的约束优化方法_无模型的策略搜索方法_直线搜索方法,无约束优化方法,约束优化方法

逻辑回归

2.1 （正则化）逻辑回归

逻辑回归是线性回归所对应的分类方法，基本概念由线性回归推导而出。逻辑回归通过逻辑函数将预测映射到 0 到 1 的区间，因此预测值可被视为某一类别的概率。

该模型依旧是线性的，只有当数据线性可分时（例如，数据可被某决策平面完全分离），这一算法才会有很好的表现。逻辑回归同样能惩罚模型系数以进行正则化。

Python - #logistic-regression

R -

2.2 分类树（集成方法）

对应于回归树的分类算法是分类树。通常，它们都是指决策树，更为严谨的说法是“分类回归树（CART）”，也就是非常有名的 CART 算法。

Python - #regression

R -

Python - #classification

R -

2.3 深度学习

深度学习同样很容易适应于分类问题。实际上，深度学习应用地更多的是分类任务，如图像分类等。

Python -

R -

2.4 支持向量机

支持向量机使用一个名为核函数的技巧，来将非线性问题变换为线性问题，其本质是计算两个观测数据的距离。支持向量机算法所寻找的是能够最大化样本间隔的决策边界，因此又被称为大间距分类器。

举例来说，使用线性核函数的支持向量机类似于逻辑回归，但更具稳健性。因而在实践中，支持向量机最大用处是用非线性核函数来对非线性决策边界进行建模。

Python - #classification

R -

2.5 朴素贝叶斯

朴素贝叶斯是一种基于条件概率和计数的简单算法，其本质是一个概率表，通过训练数据来更新其中的概率。它预测新观察值的过程，就是根据样本的特征值在概率表中来寻找最为可能的类别。

被称为“朴素”原因，是其核心的特征条件独立性假设（例如，每一项输入特征都相互独立），在现实中几乎是不成立的。

Python -

R - htps://cran.r-project.org/web/packages/naivebayes/index.html

3. 聚类

聚类是基于数据内部结构来寻找样本自然族群（集群）的无监督学习任务，使用案例包括用户画像、电商物品聚类、社交网络分析等。

由于聚类属于无监督学习，也就不会输出“正确的答案”，评价结果时往往要用到数据可视化。如果你需要“正确的答案”，亦即训练集中存在预标注的集群，那么用分类算法会更加合适。

常用的约束优化方法_无模型的策略搜索方法_直线搜索方法,无约束优化方法,约束优化方法

K 均值

3.1 K均值

K 均值是基于样本点间的几何距离来度量聚类的通用目的算法。由于集群围绕在聚类中心，结果会接近于球状并具有相似的大小。

我们之所以推荐该算法给初学者，是因为它不仅足够简单，而且足够灵活，对于大多数问题都能给出合理的结果。

Python - #k-means

R -

3.2 仿射传播

仿射传播是一种相对较新的聚类算法，它基于两个样本点之间的图形距离来确定集群，其结果倾向于更小且大小不等的集群。

Python - #affinity-propagation

R -

3.3 分层 / 层次

分层聚类，又名层次聚类，其算法基于以下概念来实现：

1) 每一个集群都从一个数据点开始；

2) 每一个集群都可基于相同的标准进行合并；

3) 重复这一过程，直至你仅剩下一个集群，这就获得了集群的层次结构。

Python - #hierarchical-clustering

R -

3.4 DBSCAN

DBSCAN 是一种基于密度的聚类算法，它将样本点的密集区域组成集群；其最新进展是HDBSCAN，它允许集群的密度可变。

Python - #dbscan

R -

维度灾难

在机器学习领域，“维度(Dimensionality)”通常指数据集中的特征数量（即输入变量的个数）。

当特征的个数特别大的时候（相对于数据集中观测样本的数量来说），训练出一个有效的模型，对算法要求就会特别高(即，用现有的算法训练出一个有效的模型特别困难)。这就是所谓的“维度灾难(Curse of Dimensionality)”，特别是对依赖于距离计算的聚类算法而言。

无模型的策略搜索方法_常用的约束优化方法_直线搜索方法,无约束优化方法,约束优化方法

对于“维度灾难”，有位 Quora 用户给出了一个非常好的类比：

假设有一条100码的直线，而你在该直线的某处掉了一枚硬币。要找回硬币并不难，你只需沿着这条线走就行了，最多花上你2分钟时间。

然后，假设有一个长和宽都是100码的广场，而你是把硬币掉在广场的某个位置。现在再想找回它，可就不容易了，这好比在两个并排的足球场中找针，可能会耗上你几天时间。

再然后，假设是一个长、宽、高都是100码的立方体，那就好比是在30层楼高的大型体育场内找zhen找针……

随着维度的增加，在空间中搜索的难度也会变得愈加困难。

Quora链接：

这就需要数据降维的办法：特征选取和特征提取。

4. 特征选取

特征选取是从你的数据集中过滤掉不相关或冗余的特征。特征选取与特征提取的关键区别在于：特征选取是从原特征集中选取一个子特征集，而特称提取则是在原特征集的基础上重新构造出一些(一个或多个)全新的特征。

需要注意的是，某些监督式机器学习算法已经具备了内在的特征选取机制：比如正则回归与随机森林。通常，我们是建议一开始优先尝试这些算法，如果它们能匹配上你的问题的话。对此我们已经做过介绍。

作为独立的任务，特征选取既可以是非监督式的(如方差阈值)，又可以是监督式的(比遗传算法)。有必要的话，你还可以把多种方法以某种合理的方式整合在一起。

4.1 方差阈值

方差阈值会摒弃掉观测样本那些观测值改变较小的特征(即，它们的方差小于某个设定的阈值)。这样的特征的价值极小。

举例来说，如果你有一份公共健康数据，其中96%的人都是35岁的男性，那么去掉“年龄”和“性别”的特征也不会损失重要信息。

由于方差阈值依赖于特征值的数量级，你应该对特征值先做归一化处理。

Python -

R -

4.2 相关性阈值

相关性阈值会去掉那些高度相关的特征(亦即，这些特征的特征值变化与其他特征非常相似)。它们提供的是冗余信息。

举例来说，如果你有一个房地产数据，其中两个特征分别是“房屋面积（单位：平方英尺）”和“房屋面积（单位：平方米）”，那么，你就可以去掉其中的任何一个（这非常安全，也不会给你的模型带来任何负面影响）。

问题是，你该去掉哪一个特征呢？首先，你应该计算所有特征对的相关系数。而后，如果某个特征对的相关系数大于设定的阈值，那你就可以去掉其中平均绝对相关系数较大的那一个。

Python -

R -

4.3 遗传算法

遗传算法是可用于不同任务的一大类算法的统称。它们受进化生物学与自然选择的启发，结合变异与交叉直线搜索方法,无约束优化方法,约束优化方法，在解空间内进行高效的遍历搜索。这里有一篇非常棒的简介：“遗传算法背后的原理引入”。

直线搜索方法,无约束优化方法,约束优化方法_无模型的策略搜索方法_常用的约束优化方法

在机器学习领域，遗传算法主要有两大用处。

其一，用于最优化，比如去找神经网络的最佳权重。

其二，是用于监督式特征提取。这一用例中，“基因”表示单个特征，同时“有机体”表示候选特征集。“种群体”内的每一个有机体都会基于其适应性进行评分，正如在测试数据集上进行模型性能测试。最能适应环境的有机体将会生存下来，并不断繁衍，一直迭代，直至最终收敛于某个最优的解决方案。

Python -

R -

4.4 荣誉奖：逐步搜索

逐步搜索是一个基于序列式搜索的监督式特征选取算法。它有两种形式：前向搜索和反向搜索。

对于前向逐步搜索，你从没有任何特征开始。接着，从候选特征集中，选择一个特征来训练模型；然后，保存模型性能最好对应的那个特征；再往下，你不断往训练模型的特征集中添加特征，一次添加一个特征，直到你模型的性能不再提升。

反向逐步搜索的过程相同，只不过顺序相反：从把所有的特征都用于训练模型，接着一次性移除一个特征，直到模型的性能骤降。

我们提及这一算法纯粹是源于某些历史原因。尽管很多教科书都把逐步搜索算法作为一个有效的方法，但它所表现出来的性能总是不及其它监督式方法，比如正则化。逐步搜索有很多明显的缺陷，最致命的一点就是它是一个贪心算法，无法面对未来变化的冲击。我们并不推荐这个算法。

5. 特征提取

特征提取是用来创造一个新的、较小的特征集，但仍能保留绝大部分有用的信息。值得再提的是，特征选取是用来保留原始特征集中的一部分子特征集，而特征提取则是创造全新的特征集。

跟特征选取一样，某些算法内部已经具有了特征提取的机制。最好的案例就是深度学习，它可以通过每一层隐神经层，提取出越来越有用的能表征原始数据的特征。我们在“深度学习”部分已给出相关的讲解。

作为独立的任务，特征提取可以是非监督式的(如主成分分析)或监督式的(如线性判别分析)。

5.1 主成分分析

主成分分析是一个非监督式算法，它用来创造原始特征的线性组合。新创造出来的特征他们之间都是正交的，也就是没有关联性。具体来说，这些新特征是按它们本身变化程度的大小来进行排列的。第一个主成分代表了你的数据集中变化最为剧烈的特征，第二个主成分代表了变化程度排在第二位的特征，以此类推。

直线搜索方法,无约束优化方法,约束优化方法_常用的约束优化方法_无模型的策略搜索方法

因此，你可以通过限制使用主成分的个数来达到数据降维的目的。例如，你可以仅采用能使累积可解释方差为90%的主成分数量。

你需要在使用主成分分析之前，对数据进行归一化处理。否则，原始数据中特征值数量级最大的那个特征将会主导你新创造出来的主成分特征。

Python -

R -

5.2 线性判别分析

线性判别分析不是隐含狄利克雷分布，它同样用来构造原始特征集的线性组合。但与主成分分析不同，线性判别分析不会最大化可解释方差，而是最大化类别间的分离程度。

因此，线性判别分析是一种监督式学习方式，它必须使用有标记的数据集。那么，线性判别分析与主成分分析，到底哪种方法更好呢？这要视具体的情况而定，“没有免费的午餐”原理在这里同样适用。

线性判别分析同样依赖于特征值的数量级，你同样需要先对特征值做归一化处理。

Python - #sklearn.discriminant_analysis.LinearDiscriminantAnalysis

R -

5.3 自编码机

自编码机是一种人工神经网络，它是用来重新构建原始输入的。例如，图像自编码机是训练来重新表征原始数据的，而非用以区分图片里面的小猫、小狗。

但这有用吗？这里的关键，是在隐含层搭建比输入层和输出层更少数量的神经元。这样，隐含层就会不断学习如何用更少的特征来表征原始图像。

常用的约束优化方法_直线搜索方法,无约束优化方法,约束优化方法_无模型的策略搜索方法

因为是用输入图像来作为目标输出，自编码机被视为无监督学习。它们可被直接使用（如：图像压缩）或按顺序堆叠使用（如：深度学习）。

Python -

R -

小结

基于我们的经验，以下是一些有用的建议：

原文链接：

为保证发文质量、树立口碑，数据派现设立“错别字基金”，鼓励读者积极纠错。

若您在阅读文章过程中发现任何错误，请在文末留言，或到后台反馈，经小编确认后，数据派将向检举读者发8.8元红包。

同一位读者指出同一篇文章多处错误，奖金不变。不同读者指出同一处错误，奖励第一位读者。

感谢一直以来您的关注和支持，希望您能够监督数据派产出更加高质的内容。

公众号底部菜单有惊喜哦！

企业，个人加入组织请查看“联合会”

往期精彩内容请查看“号内搜”

加入志愿者或联系我们请查看“关于我们”

常用的约束优化方法_直线搜索方法,无约束优化方法,约束优化方法_无模型的策略搜索方法

无模型的策略搜索方法_常用的约束优化方法_直线搜索方法,无约束优化方法,约束优化方法

（编辑：云计算网_宿迁站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

可以处理用户问题的内	列表页面内容，每次都
如何设置网站标题连接	网站SEO优化该如何提高