建模前的数据清洗/ETL(python)

发布时间:2024-12-05 17:10

数据分析:Python的Pandas库数据处理 #生活知识# #编程教程#

1. 读取数据

data= open('e:/java_ws/scalademo/data/sample_naive_bayes_data.txt' , 'r') 2. 把数据随机分割为training集 和test集

def SplitData(data,max,ind,seed):

test=[]

train=[]

random.seed(seed)

for line in data:

if random.randint(0,max)==ind:

test.append(''.join(line))

else:

train.append(''.join(line))

return train,test

3. 按分割符拆分一个数据集

def parseData(data,delimiter1,delimiter2):

x=[]

y=[]

for line in data:

parts = line.split(delimiter1)

x1 = [float(a) for a in parts[1].split(delimiter2)]

y1 = float(parts[0])

x.append(x1)

y.append(y1)

return x,y

 

posted on 2016-11-22 15:54  Suckseedeva 阅读( ...) 评论( ) 编辑 收藏

转载于:https://www.cnblogs.com/skyEva/p/6089658.html

网址:建模前的数据清洗/ETL(python) https://www.yuejiaxmz.com/news/view/386221

相关内容

从零开始:建立高效的数据清洗流程
全球19个最佳 ETL工具列表以及选型建议
Python小白的数学建模课
最受欢迎的11个Python编程软件,工作效率直接起飞!
大数据清洗随手记(一)
Python中的生活数据分析与个人健康监测.pptx
数据清洗实战:工业生产数据的深入探讨
Python财务数据分析与金融风险评估
Python数据分析:对饮食与健康数据的分析与可视化
python基于大数据的食物推荐系统

随便看看