当前位置：首页 > news >正文

网站建设业务培训wordpress 增加导航栏

news 2025/10/27 8:42:50

网站建设业务培训,wordpress 增加导航栏,个人做游戏下载网站侵权吗,变更网站怎么做1 支持向量机在现实世界的机器学习领域#xff0c; SVM涵盖了各个方面的知识#xff0c; 也是面试题目中常见的基础模型。 SVM的分类结果仅依赖于支持向量#xff0c;对于任意线性可分的两组点#xff0c;它们在SVM分类的超平面上的投影都是线性不可分的。 2逻辑回归 …1 支持向量机在现实世界的机器学习领域 SVM涵盖了各个方面的知识也是面试题目中常见的基础模型。 SVM的分类结果仅依赖于支持向量对于任意线性可分的两组点它们在SVM分类的超平面上的投影都是线性不可分的。 2逻辑回归 2.1逻辑回归与线性回归逻辑回归处理的是分类问题线性回归处理的是回归问题这是两者的最本质的区别。逻辑回归中给定自变量和超参数后得到因变量的期望并基于此期望来处理预测分类问题。逻辑回归与线性回归最大的区别即逻辑回归中的因变量为离散的而线性回归中的因变量是连续的。并且在自变量x与超参数θ确定的情况下逻辑回归可以看作广义线性模型Generalized Linear Models在因变量y服从二元分布时的一个特殊情况而使用最小二乘法求解线性回归时我们认为因变量y服从正态分布。逻辑回归和线性回归的相同之处二者都使用了极大似然估计来对训练样本进行建模另外二者在求解超参数的过程中都可以使用梯度下降的方法。 2.2 逻辑回归处理多标签的分类如果一个样本只对应于一个标签我们可以假设每个样本属于不同标签的概率服从于几何分布使用多项逻辑回归Softmax Regression来进行分类一般来说多项逻辑回归具有参数冗余的特点即同时加减一个向量后预测结果不变。特别地当类别数为2时利用参数冗余的特点我们将所有参数减去θ1 式子变为整理后的式子与逻辑回归一致。因此多项逻辑回归实际上是二分类逻辑回归在多标签分类下的一种拓展。当存在样本可能属于多个标签的情况时我们可以训练k个二分类的逻辑回归分类器。第i个分类器用以区分每个样本是否可以归为第i类训练该分类器时需要把标签重新整理为“第i类标签”与“非第i类标签”两类。 3决策树决策树的生成包含了特征选择、树的构造、树的剪枝三个过程。将决策树应用集成学习的思想可以得到随机森林、梯度提升决策树等模型。 3.1几种常用的决策树对比常用的决策树算法有ID3、 C4.5、 CART 3.1.1 ID3最大信息增益对于样本集合D 类别数为K 数据集D的经验熵表示为其中Ck是样本集合D中属于第k类的样本子集 |Ck|表示该子集的元素个数 |D|表示样本集合的元素个数。计算某个特征A对于数据集D的经验条件熵H(D|A)为 Di表示D中特征A取第i个值的样本子集 Dik表示Di中属于第k类的样本子集。信息增益g(D,A)可以表示为二者之差可得 3.1.2 C4.5最大信息增益比特征A对于数据集D的信息增益比定义为 3.1.3 CART最大基尼指数 Gini Gini描述的是数据的纯度与信息熵含义类似。 CART在每一次迭代中选择基尼指数最小的特征及其对应的切分点进行分类。但与ID3、 C4.5不同的是 CART是一颗二叉树采用二元切割法每一步将数据按特征A的取值切成两份分别进入左右子树。特征A的Gini指数定义为: 通过对比三种决策树的构造准则我们不难总结三者之间的差异。区别ID3C4.5CART评价标准信息增益信息增益比基尼指数样本类型离散型变量连续型变量连续型变量应用角度分类分类分类/回归缺失值对样本特征缺失值敏感对缺失值进行不同方式的处理对缺失值进行不同方式的处理实现在每个结点上产生出多叉分支每个特征在层级之间不会复用在每个结点上产生出多叉分支每个特征在层级之间不会复用每个结点只会产生两个分支且每个特征可以被重复使用优化过程通过剪枝来权衡树的准确性与泛化能力通过剪枝来权衡树的准确性与泛化能力直接利用全部数据发现所有可能的树结构进行对比 3.2不同剪枝方法的区别和联系一棵完全生长的决策树会面临一个很严重的问题即过拟合。需要对决策树进行剪枝剪掉一些枝叶提升模型的泛化能力。决策树的剪枝通常有两种方法预剪枝Pre-Pruning 和后剪枝PostPruning 3.2.1 预剪枝预剪枝即在生成决策树的过程中提前停止树的增长。预剪枝的核心思想是在树中结点进行扩展之前先计算当前的划分是否能带来模型泛化能力的提升如果不能则不再继续生长子树。预剪枝对于何时停止决策树的生长有以下几种方法。 3.2.2后剪枝后剪枝是在已生成的过拟合决策树上进行剪枝得到简化版的剪枝决策树。后剪枝的核心思想是让算法生成一棵完全生长的决策树然后从最底层向上计算是否剪枝。剪枝过程将子树删除用一个叶子结点替代该结点的类别同样按照多数投票的原则进行判断。常见的后剪枝方法包括错误率降低剪枝Reduced Error Pruning REP 、悲观剪枝Pessimistic Error Pruning PEP 、代价复杂度剪枝Cost Complexity Pruning CCP 、最小误差剪枝Minimum Error Pruning MEP 、 CVPCritical Value Pruning 、 OPPOptimal Pruning 等方法

查看全文

http://www.yingshimen.cn/news/32704/