「机器学习」学习笔记

相关工具

  • pandas
  • numpy
  • matplotlib
  • flask
  • scikit_learn

数据理解

1. 数据导入

  1. numpy np.loadtxt()

  2. pandas pd.read_csv()

2. 数据理解

Viewing data

  • 查看数据:df.head(int)\tail(int)

  • 数据维度:df.shape

  • 数据属性和类型:df.dtypes

  • 描述性统计:df.describe()

    数据记录数、平均值、标准方差、最小值、下四分位数、中位数、上四分位数、最大值

  • 行列翻转:df.T

  • 根据axis排序:df.sort_index(axis= ,ascending=False)

  • 根据数值大小排序:df.sort_values(by='',ascending=False)

  • 数据分组分布(适用于分类算法):groupby()

    • groupby('').sum()

    • groupby('').size()

    • groupby('')[''].sum()

  • 属性之间的关联关系矩阵:df.corr()

    皮尔逊相关系数,是度量两个变量间相关程度的方法,它是一个介于1和-1之间的值

    • 1 表示变量完全正相关
    • 0 表示无关
    • -1 表示变量完全负相关
  • 数据的高斯分布(正态分布)偏离情况:df.skew()

    高斯分布的曲线呈钟形,两头低,中间高,左右对称

    • 数据接近于0时,表示数据偏差非常少

3.数据可视化(matplotlib)

  • 直方图:df.hist()
  • 密度图:df.plot(kind='density',subplots=True,layout=(3,3),sharex=False)
  • 箱线图:df.plot(kind='box',subplots=True,layout=(3,3),sharex=False)
  • 相关矩阵图:df.corr()
  • 散点矩阵图:scatter_matrix(df)

数据准备

1.数据预处理

  • 处理缺失值:
    • 忽略该条记录:df.dropna()
    • 手工填补
    • 利用默认值填补:df.replace()
    • 利用均值填补
    • 利用同类别均值填补
    • 利用最可能的值填补
  • 处理噪声值:
    • 分箱 -回归 -聚类
  • 处理异常值:
    • 识别异常值:箱线图
    • 处理:删除、替换
  • 调整数据尺度:from sklearn.preprocessing import MinMaxScaler
  • 正态化数据:from sklearn.preprocessing import StandardScaler
  • 标准化数据:from sklearn.preprocessing import Normalizer
  • 二值数据:from sklearn.preprocessing import Binarizer


780 字