6

数据清洗方法

 2 years ago
source link: https://www.guofei.site/2017/10/19/cleandata.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

数据清洗方法

2017年10月19日

Author: Guofei

文章归类: 1-3-特征工程 ,文章编号: 100


版权声明:本文作者是郭飞。转载随意,但需要标明原文链接,并通知本人
原文链接:https://www.guofei.site/2017/10/19/cleandata.html

Edit

缺失值

1. 直接使用

有些模型支持缺失值,如决策树

2. 删除特征

如果某个特征大多数都是缺失值,那么可以删除这个特征

3. 补全

  • 均值填充
    缺点是填充的值都一样
  • 插值法填充
  • 聚类,然后同类均值插补
  • 建模预测
    缺点是:如果缺失属性与其他属性无关,那么预测结果无意义。如果高度相关,那么可以删除特征。
  • 高维映射
    优点:最准确的做法,因为完全保留了信息,也不增加任何信息。
    确实按:非常稀疏,因此样本量非常大才好。
    做法类似One-hot Encode,前提是取值离散,缺失值也当做某类取值处理。

异常值

极端值指的是5 Sigma之外的值,离群值指的是3 Sigma之外的值

确认的方法

  • 画box图检查
  • 用5倍std检查

解决方法

  • 盖帽法
    把3sigma之外的数据定为sigma
  • 分类建模
    把干扰变量变成分类变量(异常为1,不异常为0)
  • 离散化
    例如做成 高、中、低,三种字段。

冗余值

drop_duplicates

模型反馈

  1. 数据清洗有没有问题
  2. 数据抽样有没有问题
  3. 数据理解有没有问题
    • 主成分分析看一下
    • 聚类看一下
  4. 模型选择有没有问题
  5. 参数调整有没有问题

您的支持将鼓励我继续创作!

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK