建模前的数据清洗/ETL(python)
发布时间:2024-12-05 17:10
数据分析:Python的Pandas库数据处理 #生活知识# #编程教程#
1. 读取数据data= open('e:/java_ws/scalademo/data/sample_naive_bayes_data.txt' , 'r') 2. 把数据随机分割为training集 和test集
def SplitData(data,max,ind,seed):
test=[]
train=[]
random.seed(seed)
for line in data:
if random.randint(0,max)==ind:
test.append(''.join(line))
else:
train.append(''.join(line))
return train,test
3. 按分割符拆分一个数据集def parseData(data,delimiter1,delimiter2):
x=[]
y=[]
for line in data:
parts = line.split(delimiter1)
x1 = [float(a) for a in parts[1].split(delimiter2)]
y1 = float(parts[0])
x.append(x1)
y.append(y1)
return x,y
posted on 2016-11-22 15:54 Suckseedeva 阅读( ...) 评论( ) 编辑 收藏
转载于:https://www.cnblogs.com/skyEva/p/6089658.html
网址:建模前的数据清洗/ETL(python) https://www.yuejiaxmz.com/news/view/386221
相关内容
从零开始:建立高效的数据清洗流程全球19个最佳 ETL工具列表以及选型建议
Python小白的数学建模课
最受欢迎的11个Python编程软件,工作效率直接起飞!
大数据清洗随手记(一)
Python中的生活数据分析与个人健康监测.pptx
数据清洗实战:工业生产数据的深入探讨
Python财务数据分析与金融风险评估
Python数据分析:对饮食与健康数据的分析与可视化
python基于大数据的食物推荐系统