决策树分析的计算公式有哪些_决策树分析计算公式一览

决策树分析是一种用于对决策进行建模和分析的强大技术,它利用决策树结构,其中每个节点代表一个决策,而每个叶节点代表一个可能的决策结果。为了有效地利用决策树分析,需要使用一系列计算公式来评估和优化决策树。...

决策树分析是一种用于对决策进行建模和分析的强大技术,它利用决策树结构,其中每个节点代表一个决策,而每个叶节点代表一个可能的决策结果。为了有效地利用决策树分析,需要使用一系列计算公式来评估和优化决策树。本文将提供决策树分析中常用的计算公式一览,重点介绍 12 个关键方面。

1. 信息增益

决策树分析的计算公式有哪些_决策树分析计算公式一览

信息增益衡量属性对目标变量的分类能力。它通过计算具有和不具有该属性的样本的熵之差来计算。公式为:

```

信息增益 = 信息熵(目标变量) - 条件熵(目标变量 | 属性)

```

2. 信息增益率

信息增益率是信息增益的归一化形式,可以避免属性具有过多值时信息增益过大的问题。公式为:

```

信息增益率 = 信息增益 / 分裂信息(属性)

```

3. 基尼不纯度

基尼不纯度衡量样本集中类标签的分布不均匀程度。它通过计算样本中不同类标签对的比例和之和来计算。公式为:

```

基尼不纯度 = 1 - ∑(p_i)^2

```

4. 基尼不纯度降低

基尼不纯度降低衡量属性对基尼不纯度的减少程度。它通过计算子节点中基尼不纯度的加权平均值与父节点的基尼不纯度的差值来计算。公式为:

```

基尼不纯度降低 = 基尼不纯度(父节点) - ∑(权重_i 基尼不纯度(子节点_i))

```

5. 交叉熵

交叉熵衡量两个概率分布之间的差异。它通过计算预测分布与真实分布之间的 KL 散度来计算。公式为:

```

交叉熵 = ∑(p_i log(q_i / p_i))

```

6. 熵

熵衡量数据集的不确定性或混乱度。它通过计算每个类标签的概率并取其和的对数的负值来计算。公式为:

```

熵 = - ∑(p_i log(p_i))

```

7. 节点纯度

节点纯度衡量决策树节点中类标签的一致程度。它通过计算节点中最大类标签的频率来计算。公式为:

```

节点纯度 = 最大类标签频率 / 总样本数

```

8. 误差率

误差率衡量决策树错误分类样本的比例。它通过将错误分类样本数除以总样本数来计算。公式为:

```

误差率 = 错误分类样本数 / 总样本数

```

9. 查准率

查准率衡量决策树正确分类为正例的样本中正例的比例。它通过将正确分类的正例数除以分类为正例的总样本数来计算。公式为:

```

查准率 = 正确分类的正例数 / 分类为正例的总样本数

```

10. 召回率

召回率衡量决策树正确分类为正例的样本中所有正例的比例。它通过将正确分类的正例数除以实际正例数来计算。公式为:

```

召回率 = 正确分类的正例数 / 实际正例数

```

11. F1 分数

F1 分数是查准率和召回率的加权平均值,用于衡量决策树的总体性能。它通过计算 2 (查准率 召回率) / (查准率 + 召回率) 来计算。公式为:

```

F1 分数 = 2 (查准率 召回率) / (查准率 + 召回率)

```

12. Gini 系数

Gini 系数衡量一个数据集的收入或财富分布不平等程度。它通过计算劳伦兹曲线和对角线之间的面积与对角线以下面积之比来计算。公式为:

```

Gini 系数 = 2 ((∑(i = 1 到 n) p_i ∑(j = 1 到 n) p_j) / n) - 1

```

上一篇:阿门阿前有颗葡萄树简谱
下一篇:什么鱼吃芭蕉树—芭蕉树的神秘美食家:究竟是哪种鱼?

为您推荐