数据集ObesityDataSet_raw_and_data_sinthetic.csv怎么利用age和NObeyesdad来做推断统计
时间: 2023-11-12 16:08:28 浏览: 46
利用age和NObeyesdad来做推断统计可以探索不同年龄段和肥胖程度的人群中肥胖情况的分布情况,以下是一个基于Python的代码示例:
```python
import pandas as pd
import seaborn as sns
# 读取数据集
data = pd.read_csv('ObesityDataSet_raw_and_data_sinthetic.csv')
# 提取年龄和肥胖程度两个变量
age_obesity = data[['Age', 'NObeyesdad']]
# 按年龄和肥胖程度分组计算人数
age_obesity_count = age_obesity.groupby(['Age', 'NObeyesdad']).size().reset_index(name='count')
# 绘制年龄与肥胖程度人数的关系图
sns.lineplot(x='Age', y='count', hue='NObeyesdad', data=age_obesity_count)
```
结果是一张年龄与肥胖程度人数的关系图,可以看出不同年龄段和肥胖程度的人群中肥胖情况的分布情况,进而推断不同年龄段和肥胖程度的人群中肥胖情况的分布情况。
相关问题
数据集ObesityDataSet_raw_and_data_sinthetic.csv怎么利用age和NObeyesdad来做假设检验
利用age和NObeyesdad来做假设检验可以探索不同年龄段和肥胖程度的人群中肥胖情况的差异性,以下是一个基于Python的代码示例:
```python
import pandas as pd
import scipy.stats as stats
# 读取数据集
data = pd.read_csv('ObesityDataSet_raw_and_data_sinthetic.csv')
# 提取年龄和肥胖程度两个变量
age_obesity = data[['Age', 'NObeyesdad']]
# 按年龄和肥胖程度分组计算人数
age_obesity_count = age_obesity.groupby(['Age', 'NObeyesdad']).size().reset_index(name='count')
# 构造列联表
ct = pd.crosstab(age_obesity_count.Age, age_obesity_count.NObeyesdad)
# 进行卡方检验
chi2, p, dof, expected = stats.chi2_contingency(ct)
# 输出结果
print('卡方值为:', chi2)
print('p值为:', p)
```
结果是卡方值和p值,可以通过p值来判断不同年龄段和肥胖程度的人群中肥胖情况是否存在显著性差异。若p值小于0.05,则拒绝原假设,认为不同年龄段和肥胖程度的人群中肥胖情况存在显著性差异;若p值大于等于0.05,则接受原假设,认为不同年龄段和肥胖程度的人群中肥胖情况不存在显著性差异。
怎么只保留数据集ObesityDataSet_raw_and_data_sinthetic.csv中Gender和NObeyesdad这两列
你可以使用Pandas库来读取数据集,并使用drop函数删除不需要的列,然后使用to_csv函数将修改后的数据集保存到一个新的CSV文件中。以下是一个示例代码:
```python
import pandas as pd
# 读取数据集
data = pd.read_csv('ObesityDataSet_raw_and_data_sinthetic.csv')
# 保留 Gender 和 NObeyesdad 两列
data = data[['Gender', 'NObeyesdad']]
# 将修改后的数据集保存到新的CSV文件中
data.to_csv('ObesityDataSet_Gender_NObeyesdad.csv', index=False)
```
运行以上代码后,将会在当前目录下生成一个名为 ObesityDataSet_Gender_NObeyesdad.csv 的文件,其中只包含 Gender 和 NObeyesdad 两列。