「机器学习」学习笔记
相关工具
- pandas
- numpy
- matplotlib
- flask
- scikit_learn
数据理解
1. 数据导入
-
numpy
np.loadtxt()
-
pandas
pd.read_csv()
2. 数据理解
Viewing data
-
查看数据:
df.head(int)\tail(int)
-
数据维度:
df.shape
-
数据属性和类型:
df.dtypes
-
描述性统计:
df.describe()
数据记录数、平均值、标准方差、最小值、下四分位数、中位数、上四分位数、最大值
-
行列翻转:
df.T
-
根据axis排序:
df.sort_index(axis= ,ascending=False)
-
根据数值大小排序:
df.sort_values(by='',ascending=False)
-
数据分组分布(适用于分类算法):groupby()
-
groupby('').sum()
-
groupby('').size()
-
groupby('')[''].sum()
-
-
属性之间的关联关系矩阵:
df.corr()
皮尔逊相关系数,是度量两个变量间相关程度的方法,它是一个介于1和-1之间的值
- 1 表示变量完全正相关
- 0 表示无关
- -1 表示变量完全负相关
-
数据的高斯分布(正态分布)偏离情况:
df.skew()
高斯分布的曲线呈钟形,两头低,中间高,左右对称
- 数据接近于0时,表示数据偏差非常少
3.数据可视化(matplotlib)
- 直方图:
df.hist()
- 密度图:
df.plot(kind='density',subplots=True,layout=(3,3),sharex=False)
- 箱线图:
df.plot(kind='box',subplots=True,layout=(3,3),sharex=False)
- 相关矩阵图:
df.corr()
- 散点矩阵图:
scatter_matrix(df)
数据准备
1.数据预处理
- 处理缺失值:
- 忽略该条记录:
df.dropna()
- 手工填补
- 利用默认值填补:
df.replace()
- 利用均值填补
- 利用同类别均值填补
- 利用最可能的值填补
- 忽略该条记录:
- 处理噪声值:
- 分箱 -回归 -聚类
- 处理异常值:
- 识别异常值:箱线图
- 处理:删除、替换
- 调整数据尺度:
from sklearn.preprocessing import MinMaxScaler
- 正态化数据:
from sklearn.preprocessing import StandardScaler
- 标准化数据:
from sklearn.preprocessing import Normalizer
- 二值数据:
from sklearn.preprocessing import Binarizer