决策树代码

2023-12-02 08:08:25 点击：73

决策树是一种常用的机器学习算法，常用于分类和回归任务。决策树算法基于离散的特征将数据集切分成多个部分，直到得到一个具有高纯度的子数据集。在本文中，我将介绍如何使用Python编写一个简单的决策树分类器。

首先，我们需要导入必要的库。我们将使用NumPy库进行数据处理，使用matplotlib库进行数据可视化。

```python import numpy as np import matplotlib.pyplot as plt ```

接下来，我们需要定义一个节点类来表示决策树中的每个节点。每个节点将包含以下属性：分裂特征索引（split_feature_index）、分裂特征值（split_feature_value）、左子树（left_child）和右子树（right_child）、子节点类别（class_label）。

```python class Node: def __init__(self): self.split_feature_index = -1 self.split_feature_value = None self.left_child = None self.right_child = None self.class_label = None ```

然后，我们需要定义一个决策树类。决策树类将包含以下属性：根节点（root_node）。

```python class DecisionTreeClassifier: def __init__(self): self.root_node = None ```

接下来，我们需要实现训练决策树的算法。首先，我们实现一个计算基尼指数的函数。

```python def gini_index(groups, class_labels): n_instances = float(sum([len(group) for group in groups])) gini = 0.0 for group in groups: size = float(len(group)) if size == 0: continue score = 0.0 for class_label in class_labels: p = [row[-1] for row in group].count(class_label) / size score += p * p gini += (1.0 - score) * (size / n_instances) return gini ```

然后，我们实现一个找到分割点的函数。

```python def get_best_split(data): class_labels = list(set(row[-1] for row in data)) best_gini = float('inf') best_index = -1 best_value = None best_groups = None for index in range(len(data[0])-1): for row in data: groups = split_data(data, index, row[index]) gini = gini_index(groups, class_labels) if gini < best_gini: best_gini = gini best_index = index best_value = row[index] best_groups = groups return {'split_feature_index': best_index, 'split_feature_value': best_value, 'groups': best_groups} ```

然后，我们实现一个递归构建决策树的函数。

```python def build_tree(node, max_depth, min_size, depth): left, right = node['groups'] del(node['groups']) if not left or not right: node['left'] = node['right'] = create_terminal_node(left + right) return if depth >= max_depth: node['left'] = create_terminal_node(left) node['right'] = create_terminal_node(right) return if len(left) <= min_size: node['left'] = create_terminal_node(left) else: node['left'] = get_best_split(left) build_tree(node['left'], max_depth, min_size, depth+1) if len(right) <= min_size: node['right'] = create_terminal_node(right) else: node['right'] = get_best_split(right) build_tree(node['right'], max_depth, min_size, depth+1) ```

最后，我们实现一个预测新数据的函数。

```python def predict(node, row): if row[node['split_feature_index']] < node['split_feature_value']: if isinstance(node['left'], dict): return predict(node['left'], row) else: return node['left'] else: if isinstance(node['right'], dict): return predict(node['right'], row) else: return node['right'] ```

使用上述函数，可以训练一个决策树分类器。首先，需要准备一个数据集。这里我使用了一个简单的二维数据集。

```python data = [[2.771244718,1.784783929,0], [1.728571309,1.169761413,0], [3.678319846,2.81281357,0], [3.961043357,2.61995032,0], [2.999208922,2.209014212,0], [7.497545867,3.162953546,1], [9.00220326,3.339047188,1], [7.444542326,0.476683375,1], [10.12493903,3.234550982,1], [6.642287351,3.319983761,1]] ```

然后，创建一个决策树分类器的实例，并训练它。

```python dt = DecisionTreeClassifier() dt.train(data) ```

最后，可以使用训练好的分类器对新数据进行预测。

```python new_data = [2.8, 1.9] label = dt.predict(new_data) print("预测结果:", label) ```

以上是一个简单的决策树分类器的代码实现。决策树是一个非常强大和灵活的机器学习算法，可用于解决各种问题。希望本文能帮助你理解决策树的基本原理和实现方式。

声明：免责声明：本文内容由互联网用户自发贡献自行上传，本网站不拥有所有权，也不承认相关法律责任。如果您发现本社区中有涉嫌抄袭的内容，请发送邮件至：dm@cn86.cn进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。本站原创内容未经允许不得转载。