机器学习实战之数回归，CART算法

发布时间：2024-11-20 19:59

学习机器学习基础知识，如线性回归 #生活技巧# #工作学习技巧# #数字技能学习#

最近在看机械学习实战，发现上面的代码较旧，在实际码代码的过程中，也发现了一些语法或者逻辑错误。所以把相关的代码放上来以供大家参考。python版本为3.6

CART算法：通过不停地对数据集进行数回归分类，降低数据集的总方差。

1. 首先需要载入数据:

这里需要做一下修改，把map的内容展开成list拼接到输出。

def loadDataSet(fileName):

dataMat = []

fr = open(fileName)

for line in fr.readlines():

curLine = line.strip().split('\t')

fltLine = map(float, curLine)

dataMat.append(list(fltLine))

return dataMat

2. 对数据进行拆分：

原文中截取了拆分后两部分的第一行值。而实际需要的是整个拆分集。故把原文代码中后面的[0]去掉。

def binSplitDataSet(dataSet, feature, value):

mat0 = dataSet[nonzero(dataSet[:, feature] > value)[0], :]

mat1 = dataSet[nonzero(dataSet[:, feature] <= value)[0], :]

return mat0, mat1

3. 实现选择最优拆分函数chooseBestSplit

def chooseBestSplit(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):

tolS = ops[0]

tolN = ops[1]

if len(set(dataSet[:, -1].T.tolist()[0])) == 1:

return None, leafType(dataSet)

m,n = shape(dataSet)

S = errType(dataSet)

bestS = inf

bestIndex = 0

bestValue = 0

for featIndex in range(n-1):

for splitVal in set(dataSet[:, featIndex].T.tolist()[0]):

mat0, mat1 = binSplitDataSet(dataSet, featIndex, splitVal)

if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN):

continue

newS = errType(mat0) + errType(mat1)

if newS < bestS:

bestIndex = featIndex

bestValue = splitVal

bestS = newS

if (S-bestS) < tolS:

return None, leafType(dataSet)

mat0, mat1 = binSplitDataSet(dataSet, bestIndex, bestValue)

if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN):

return None, leafType(dataSet)

return bestIndex, bestValue

网址：机器学习实战之数回归，CART算法 https://www.yuejiaxmz.com/news/view/160558

⬅️上一篇：二手书籍回收二手旧书回收案例

➡️下一篇：二手书本回收书籍收购

机器学习实战之数回归，CART算法

相关内容

随便看看

最新动态分享

热点动态分享

专题

推荐动态分享