数据分析实战:利用python对心脏病数据集进行分析
学习数据分析,使用R或Python进行实战项目 #生活技巧# #工作学习技巧# #技能认证指南#
我们都很害怕生病,但感冒发烧这种从小到大的疾病我们已经麻木了,因为一星期他就会好,但是随着长大,各种发炎、三高、心脏病、冠心病响应而生。
心脏病作为一种发作起来让人看了就觉得恐怖的疾病,每年不知道夺走多少生命。而那些患病健在的人们也必须在自己后续的生命里割舍太多东西,以防止心脏病发作。
没有得病的时候,我们永远觉得它离自己很远。我对心脏病的认知就是这样,我不知道它患病的原因,也不知哪些原因会引起心脏病。而患病后如何保持正常生活等等,一概不知。
今天在kaggle上看到一个心脏病数据(数据集下载地址和源码见文末),那么借此深入分析一下。
数据集读取与简单描述
首先导入library和设置好超参数,方便后续分析。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
通过对数据集读取和描述可以得到这两个表格:
可以看到有303行14列数据,每列的标题是age、sex、cp、……、target。他们就像每次去医院的化验单,非专业人士很多都不认识。所以利用官方的解释翻译后含义如下:
age: 该朋友的年龄
sex: 该朋友的性别 (1 = 男性, 0 = 女性)
cp: 经历过的胸痛类型(值1:典型心绞痛,值2:非典型性心绞痛,值3:非心绞痛,值4:无症状)
trestbps: 该朋友的静息血压(入院时的毫米汞柱)
chol: 该朋友的胆固醇测量值,单位 :mg/dl
fbs: 人的空腹血糖(> 120 mg/dl,1=真;0=假)
restecg: 静息心电图测量(0=正常,1=患有ST-T波异常,2=根据Estes的标准显示可能或确定的左心室肥大)
thalach: 这朋友达到的最大心率
exang: 运动引起的心绞痛(1=有过;0=没有)
oldpeak: ST抑制,由运动引起的相对于休息引起的(“ ST”与ECG图上的位置有关。这块比较专业,可以点这个看一个解读)
slope: 最高运动ST段的斜率(值1:上坡,值2:平坦,值3:下坡)
ca: 萤光显色的主要血管数目(0-4)
thal: 一种称为地中海贫血的血液疾病(3=正常;6=固定缺陷;7=可逆缺陷)
target: 心脏病(0=否,1=是)
所以这些信息里都是患病或者健康者的一些身体指标,并没有和他是否抽烟、是否熬夜、是否遗传、是否作息规律那些东西,因此找不到指导现在我们生活的点,比如说明要戒烟戒酒那些东西。
顺手送上一篇知乎链接 此外上边只是我通过原版数据集给的解读翻译的,如有出错误,欢迎纠正
拿到一套数据首先是要看看这个数据大概面貌~
男女比例
先看看患病比率,男女比例这些常规的
countNoDisease = len(data[data.target == 0])
countHaveDisease = len(data[data.target == 1])
countfemale = len(data[data.sex == 0])
网址:数据分析实战:利用python对心脏病数据集进行分析 https://www.yuejiaxmz.com/news/view/162359
相关内容
利用Python进行数据分析——Pandas(2)python数据分析
python excel数据分析师职业技能
从零开始的游戏运营数据分析生活?如何构建数据分析的逻辑框架?
效率工具:数据分析中常见的Excel函数都在这里了
巨细!一文告诉你数据分析不得不知的秘密!
智慧社区健康大数据分析简述
一只数据分析狮的心路历程
我国老年人慢性病患病状况及健康生活方式分析——基于CLHLS 2018数据的实证分析
【数据分析】15组Excel函数,解决数据分析中80%的难题!