机器学习常见知识点 2:决策树

2024-06-13 1783阅读

文章目录

  • 决策树算法
    • 1、决策树树状图
    • 2、选择最优决策条件
    • 3、决策树算法过程
      • →白话决策树原理
      • 决策树构建的基本步骤
      • 常见的决策树算法
      • 决策树的优缺点

        【五分钟机器学习】可视化的决策过程:决策树 Decision Tree

        关键词记忆:

        纯度、选择最优特征分裂、熵、基尼不准度、均方误差

        决策树算法

        1、决策树树状图

        机器学习常见知识点 2:决策树

        2、选择最优决策条件

        机器学习常见知识点 2:决策树

        3、决策树算法过程

        决策树是一种常用于分类和回归的监督学习算法。它模拟了人类决策过程的思维方式,通过构建一个树形结构,其中每个内部节点代表一个属性上的判断,每个分支代表该判断的结果,而每个叶节点代表一个预测结果。下面是关于决策树的详细解释,包括其构建过程和常见算法。

        →白话决策树原理

        1. 分类问题
        • 在分类问题上,首先整个数据集是根结点,然后选择最优特征进行分割数据集,即对数据集进行分类,这个选择的最优特征一般是使得分割后的不同子集纯度更高的特征子集,然后依次对每一个分裂后的节点递归分裂,直到每个叶节点达到一个标准,或者深度达到限制条件。
          • 根据说的,选择最优决策条件,我们可以知道,根据不同指标进行数据集划分,得到的树深度和性能是不一样的。决策树通过某种标准(如信息增益、信息增益比、基尼不纯度等)来评估每个特征的分割效果。这个标准通常旨在选择能最大化子集纯度的特征。
            • 信息增益:选择使得结果集熵减最大的特征。
            • 基尼不纯度:选择最小化分割后各节点基尼不纯度的特征。随机森林分类时使用
            • 在实际应用中,决策树的构建不仅是为了提高模型在训练数据上的性能,更重要的是要保证模型对未知数据的泛化能力。因此,常常需要通过剪枝技术来减少模型的过拟合风险。剪枝可以在树完全生成后进行(后剪枝),也可以在构建过程中进行(预剪枝)。
              1. 回归问题
              • 分类问题和回归问题不一样的是,选择最优决策条件上的指标不一样,回归问题一般采用均方误差或者平均绝对误差。在回归树中,选择特征和分割点的标准通常是最小化每个子节点内的数据方差(或标准误差的减少)

                决策树构建的基本步骤

                1. 选择最佳分割特征:

                  决策树通过选择最佳的特征来分割数据集。选择标准通常基于信息增益、信息增益比、基尼不纯度或均方误差等统计方法。

                • 普通决策树会在每个分裂点所有特征中选择出最佳特征来分割数据集
                • 随机森林是先随机选择特征的子集,然后再这个子集中进行最佳特征选择。即在决策树的分裂时特征空间的选择具有随机性。
                  1. 分割数据集:

                    一旦选择了一个特征,数据集会根据该特征的不同取值被分割成不同的子集。这个过程会递归地在每个子集上重复进行,直到满足停止条件。

                  2. 递归构建树:

                    对每个子集应用相同的方法,递归地构建决策树的每个分支,直到达到某个停止条件,例如设置的最大深度、节点中的最小样本数或节点的纯度(比如,所有样本都属于同一类别)。

                  3. 剪枝:

                    树构建完成后,为防止过拟合,通常需要对树进行剪枝。剪枝可以通过预剪枝(在构建过程中提前停止树的增长)或后剪枝(删除树的某些部分)来实现。

                  常见的决策树算法

                  1. ID3(Iterative Dichotomiser 3):

                    • 使用信息增益作为标准来选择分割的特征。
                    • 仅能用于分类任务,并且只处理离散特征。
                    • C4.5:

                      • 后续版本的ID3,使用信息增益比来选择特征。
                      • 能处理连续和离散特征,同时引入了树的剪枝过程。
                      • CART(Classification and Regression Trees):

                        • 用于分类和回归的决策树算法。
                        • 对于分类问题使用基尼不纯度作为标准,对于回归问题使用均方误差。
                        • 总是产生二叉树。
                        • 随机森林采用的方法

                  决策树的优缺点

                  优点:

                  • 易于理解和解释,决策树可以可视化。
                  • 能够同时处理数值型和类别型数据。
                  • 对中间值的缺失不敏感。

                    缺点:

                    • 易于过拟合,尤其是树较深或样本较少时。
                    • 对于那些各类别样本量差异较大的数据集,信息增益的偏见问题。
                    • 不稳定性,小的数据变化可能导致树的显著变化。

                      决策树是机器学习中非常基础且强大的模型,常作为许多先进算法(如随机森林、梯度提升树)的基石。理解其基本原理和操作是掌握更复杂模型的关键。

                      随机森林通常使用的决策树模型是 CART(Classification and Regression Trees)树。CART 是一种广泛使用的决策树学习技术,它可以用于分类和回归任务。CART 树使用基尼不纯度(Gini impurity)作为在单棵树中用于指导如何进行节点分裂从而构建决策树的默认标准,;均方误差(Mean Squared Error, MSE)或平均绝对误差(Mean Absolute Error, MAE)来处理回归问题。

VPS购买请点击我

免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们,邮箱:ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

目录[+]