Python使用Statsmodels计算数据的中心趋势、离散程度等
环境搭建及准备工作:
1. 安装Python:前往官方网站 https://www.python.org/downloads/ 下载并安装适合您操作系统的Python版本。
2. 安装Statsmodels库:打开命令行或终端窗口,运行以下命令进行安装:
pip install statsmodels
依赖的类库:
- NumPy:用于处理数值计算和数组操作。
- Pandas:用于数据处理和数据分析。
- Matplotlib:用于数据可视化。
- Statsmodels:用于统计分析和建模。
可下载的数据集:
我们将使用Statsmodels自带的数据集 - “iris” 数据集。这个数据集描述了三个不同种类的鸢尾花(Setosa,Versicolor和Virginica)的花萼和花瓣的尺寸。
样例数据:
iris数据集包含150个样本,每个样本有4个特征列(花萼长度、花萼宽度、花瓣长度和花瓣宽度)和1个目标列(鸢尾花的种类)。
完整样例代码如下:
python
import pandas as pd
import statsmodels.api as sm
from sklearn.datasets import load_iris
# 加载iris数据集
data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
# 计算数据的中心趋势
mean = df.mean()
median = df.median()
mode = df.mode().iloc[0]
# 计算数据的离散程度
std = df.std()
var = df.var()
range_val = df.max() - df.min()
# 打印计算结果
print("中心趋势:")
print("均值:")
print(mean)
print("
中位数:")
print(median)
print("
众数:")
print(mode)
print("
离散程度:")
print("标准差:")
print(std)
print("
方差:")
print(var)
print("
极差:")
print(range_val)
这段代码加载了iris数据集,并使用Statsmodels计算了数据的中心趋势(均值、中位数、众数)和离散程度(标准差、方差、极差)。最后,打印出了计算的结果。