机器学习实战之数回归,CART算法
学习机器学习基础知识,如线性回归 #生活技巧# #工作学习技巧# #数字技能学习#
最近在看机械学习实战,发现上面的代码较旧, 在实际码代码的过程中,也发现了一些语法或者逻辑错误。所以把相关的代码放上来以供大家参考。python版本为3.6
CART算法:通过不停地对数据集进行数回归分类,降低数据集的总方差。
1. 首先需要载入数据:
这里需要做一下修改,把map的内容展开成list拼接到输出。
def loadDataSet(fileName):
dataMat = []
fr = open(fileName)
for line in fr.readlines():
curLine = line.strip().split('\t')
fltLine = map(float, curLine)
dataMat.append(list(fltLine))
return dataMat
2. 对数据进行拆分:
原文中截取了拆分后两部分的第一行值。而实际需要的是整个拆分集。故把原文代码中后面的[0]去掉。
def binSplitDataSet(dataSet, feature, value):
mat0 = dataSet[nonzero(dataSet[:, feature] > value)[0], :]
mat1 = dataSet[nonzero(dataSet[:, feature] <= value)[0], :]
return mat0, mat1
3. 实现选择最优拆分函数chooseBestSplit
def chooseBestSplit(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):
tolS = ops[0]
tolN = ops[1]
if len(set(dataSet[:, -1].T.tolist()[0])) == 1:
return None, leafType(dataSet)
m,n = shape(dataSet)
S = errType(dataSet)
bestS = inf
bestIndex = 0
bestValue = 0
for featIndex in range(n-1):
for splitVal in set(dataSet[:, featIndex].T.tolist()[0]):
mat0, mat1 = binSplitDataSet(dataSet, featIndex, splitVal)
if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN):
continue
newS = errType(mat0) + errType(mat1)
if newS < bestS:
bestIndex = featIndex
bestValue = splitVal
bestS = newS
if (S-bestS) < tolS:
return None, leafType(dataSet)
mat0, mat1 = binSplitDataSet(dataSet, bestIndex, bestValue)
if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN):
return None, leafType(dataSet)
return bestIndex, bestValue
网址:机器学习实战之数回归,CART算法 https://www.yuejiaxmz.com/news/view/160558
相关内容
Python机器学习及实践——基础篇11(回归树)机器学习算法应用场景实例六十则
一文看懂机器学习「3 种学习方法 + 7 个实操步骤 + 15 种常见算法」
机器学习算法实战案例
机器学习(七):提升(boosting)方法
一文读懂!人工智能、机器学习、深度学习的区别与联系!
语音识别与语音助手:机器学习的生活实践
博弈论+机器学习=?
计算机维护实习日记(精选10篇)
算法在身边——学习算法从妈妈的菜谱开始