「机器学习」学习笔记

2020-08-25

tec

python

数据理解

查看数据：df.head(int)\tail(int)
数据维度：df.shape
数据属性和类型：df.dtypes
描述性统计：df.describe()

数据记录数、平均值、标准方差、最小值、下四分位数、中位数、上四分位数、最大值
行列翻转：df.T
根据axis排序：df.sort_index(axis= ,ascending=False)
根据数值大小排序：df.sort_values(by='',ascending=False)
数据分组分布（适用于分类算法）：groupby()
- groupby('').sum()
- groupby('').size()
- groupby('')[''].sum()
属性之间的关联关系矩阵：df.corr()

皮尔逊相关系数，是度量两个变量间相关程度的方法，它是一个介于1和-1之间的值
- 1 表示变量完全正相关
- 0 表示无关
- -1 表示变量完全负相关
数据的高斯分布（正态分布）偏离情况：df.skew()

高斯分布的曲线呈钟形，两头低，中间高，左右对称
- 数据接近于0时，表示数据偏差非常少