5分钟学习用于数据科学的十大ML算法

作者 : IT 大叔 本文共2403个字,预计阅读时间需要7分钟 发布时间: 2020-10-14

机器学习是业界创新且重要的领域。我们为ML程序选择的算法类型会根据我们要完成的工作而变化。

那里有很多算法,因此对于初学者来说可能是不胜枚举的。今天,我们将简要介绍10种最受欢迎​​的学习算法,以便您熟悉令人兴奋的机器学习世界。

今天我们将介绍:

      • 线性回归
      • 逻辑回归
      • 决策树
      • 朴素贝叶斯
      • 支持向量机
      • K最近邻居
      • K均值
      • 随机森林
      • 降维
      • 人工神经网络

1.线性回归

线性回归可能最流行的ML算法。线性回归找到最适合图上分散数据点的线。

它试图通过将线的方程拟合到该数据来表示自变量(x值)和数值结果(y值)之间的关系。然后可以使用这条线来预测即将到来的值!

该算法最流行的技术是最小二乘。此方法计算最佳拟合线,以使距该线每个数据点的垂直距离最小。总距离是所有数据点的垂直距离(绿线)的平方和。这个想法是通过最小化平方误差或距离来拟合模型。

简单线性回归的示例,具有一个自变量(x轴)和因变量(y轴)

5分钟学习用于数据科学的十大ML算法插图

2. Logistic回归

Logistic回归与线性回归相似,但是在输出为二进制(即,结果只能有两个可能的值)时使用。最终输出的预测将是称为的非线性S形函数logistic function, g()

该逻辑函数将中间结果值映射到结果变量Y,其值的范围从0到1。然后可以将这些值解释为发生Y的概率。S形逻辑函数的属性使逻辑回归更好地用于分类任务。

Logistic回归曲线图,显示通过考试的概率与学习时数的关系

5分钟学习用于数据科学的十大ML算法插图(2)

3.决策树

决策树可用于回归和分类任务。

在该算法中,训练模型通过学习具有树表示的决策规则来学习预测目标变量的值。一棵树由具有相应属性的节点组成。

在每个节点上,我们根据可用功能询问有关数据的问题。左右分支代表可能的答案。最终节点(叶节点)对应于预测值。

通过自上而下的方法确定每个功能的重要性。节点越高,其属性越重要。

决策树的示例,它决定是否在餐厅等待。

5分钟学习用于数据科学的十大ML算法插图(4)

4.朴素贝叶斯

朴素贝叶斯基于贝叶斯定理。它测量每个类别的概率,并且每个类别的条件概率给出x的值。该算法用于分类问题,以达到二进制“是/否”结果。看一下下面的方程式。

P(c | x)= \ frac {P(x | c)* P(c)} {P(x)}

  • P(c | x)=给定预测变量x时,发生c类事件的概率,
  • P(x | c)=给定c时x的概率,
  • P(c)=类别的概率,
  • P(x)=预测变量的概率

朴素贝叶斯分类器是一种用于过滤垃圾邮件的流行统计技术!

5.支持向量机(SVM)

SVM是用于分类问题的监督算法。SVM尝试在数据点之间绘制两条线,并在它们之间留出最大的余量。为此,我们将数据项绘制为n维空间中的点,其中n是输入要素的数量。基于此,SVM找到一个最佳边界,称为超平面,该边界通过其类别标签将可能的输出最佳分离。

超平面和最近的类点之间的距离称为空白。该最优超平面有最大的余量进行分类点,最大限度地最近的数据点和两个类之间的距离。

H1不将两个类别分开的示例。H2可以,但是只有很小的余量。H3用最大边距将它们分开。

5分钟学习用于数据科学的十大ML算法插图(6)

6. K最近邻居(KNN)

KNN算法非常简单。KNN通过在整个训练集中搜索k个最相似的实例,k个邻居,并对所有k个实例分配一个公共输出变量来对对象进行分类。

k的选择很关键:较小的值会导致大量噪声和不准确的结果,而较大的值是不可行的。它最常用于分类,但对回归问题也很有用。

用于评估实例之间相似性的距离函数可以是欧几里得距离,曼哈顿距离或明可夫斯基距离。欧几里得距离是两点之间的一条普通直线距离。它实际上是点坐标之间的差的平方和的平方根。

k-NN分类示例

5分钟学习用于数据科学的十大ML算法插图(8)

7. K-均值

K-均值是通过对数据集进行分类来聚类的。例如,该算法可用于根据购买历史将用户划分为多个组。它在数据集中找到K个聚类。K均值用于无监督学习,因此我们仅使用训练数据X和要识别的聚类数K。

该算法根据其特征将每个数据点迭代地分配给K个组之一。它为每个K聚类(称为质心)选择k个点。基于相似性,新数据点将以最接近的质心添加到群集中。这个过程一直持续到质心停止变化为止。

5分钟学习用于数据科学的十大ML算法插图(10)

8.随机森林

随机森林是一种非常流行的集成ML算法。该算法的基本思想是,许多人的意见比个人的意见更准确。在随机森林中,我们使用决策树的集合(请参阅#3)。

为了对新对象进行分类,我们从每个决策树中进行表决,合并结果,然后根据多数表决做出最终决定。

(a)在训练过程中,每个决策树都是基于训练集的引导样本构建的。(b)在分类过程中,输入实例的决定基于多数票。

5分钟学习用于数据科学的十大ML算法插图(12)

9.降维

由于我们今天可以捕获的大量数据,机器学习问题变得更加复杂。这意味着培训非常缓慢,而且很难找到一个好的解决方案。这个问题通常被称为维数诅咒。

降维试图通过将特定功能组合到更高级别的功能中而不会丢失最重要的信息来解决此问题。主成分分析(PCA)是最流行的降维技术。

PCA通过将数据集压缩到低维线或超平面/子空间上来减小其尺寸。这将保留尽可能多的原始数据的显着特征。

通过将所有数据点近似为一条直线来实现降维的示例。

5分钟学习用于数据科学的十大ML算法插图(14)

10.人工神经网络(ANN)

ANN可以处理大型,复杂的ML任务。神经网络本质上是一组具有权重边缘和称为神经元的节点的互连层的集合。在输入和输出层之间,我们可以插入多个隐藏层。ANN使用两个隐藏层。除此之外,我们正在与深度学习打交道。

人工神经网络的工作类似于大脑的结构。为一组神经元分配了随机权重,这些权重确定了神经元如何处理输入数据。输入和输出之间的关系是通过在输入数据上训练神经网络来学习的。在培训阶段,系统可以访问正确答案。

如果网络无法准确识别输入,则系统会调整权重。经过充分培训后,它将始终如一地识别出正确的模式。

每个圆形节点代表一个人工神经元,箭头代表从一个人工神经元的输出到另一个神经元的输入的连接。

5分钟学习用于数据科学的十大ML算法插图(16)

接下来要学什么?

现在,您将对最流行的机器学习算法进行基础介绍。您已经准备好进入更复杂的概念,例如Kaggle挑战,评估模型,统计数据和概率。

免责声明:
1. 本站资源转自互联网,源码资源分享仅供交流学习,下载后切勿用于商业用途,否则开发者追究责任与本站无关!
2. 本站使用「署名 4.0 国际」创作协议,可自由转载、引用,但需署名原版权作者且注明文章出处
3. 未登录无法下载,登录使用金币下载所有资源。
IT小站 » 5分钟学习用于数据科学的十大ML算法

常见问题FAQ

没有金币/金币不足 怎么办?
本站已开通每日签到送金币,每日签到赠送五枚金币,金币可累积。
所有资源普通会员都能下载吗?
本站所有资源普通会员都可以下载,需要消耗金币下载的白金会员资源,通过每日签到,即可获取免费金币,金币可累积使用。

发表评论