博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据预处理-机器学习
阅读量:5065 次
发布时间:2019-06-12

本文共 580 字,大约阅读时间需要 1 分钟。

参考文章:

常见的数据预处理流程: 去除唯一属性,处理缺失值,特征编码,数据标准化正则化,特征选择,主成分分析;

 

特征编码:

# 度热编码 (one-hot encoding) :

  用N位的状态寄存器对N个可能的值进行编码,每个状态由一位寄存器表示,每个时刻只有一位寄存器有效;

  独热编码的优点:能够处理非数值属性;在一定程度上扩充了特征;编码后的属性是稀疏的,存在大量的零元分量;

 

正则化:

 

标准化:

数据标准化是将样本的属性缩放到某个指定的范围。

数据标准化的原因:

某些算法要求样本具有零均值和单位方差;

需要消除样本不同属性具有不同量级时的影响:①数量级的差异将导致量级较大的属性占据主导地位;②数量级的差异将导致迭代收敛速度减慢;③依赖于样本距离的算法对于数据的数量级非常敏感。

 

归一化:

对数据的数值范围进行特定缩放,但不改变其数据分布的一种线性特征变换;

1.min-max 归一化:将数值范围缩放到(0,1),但没有改变数据分布;

 

2. z-score 归一化:将数值范围缩放到0附近, 但没有改变数据分布;

 

标准化:

对数据的分布的进行转换,使其符合某种分布(比如正态分布)的一种非线性特征变换;

比如:box-cox 标准化;

 

转载于:https://www.cnblogs.com/robin2ML/p/10841547.html

你可能感兴趣的文章
wpf首次项目开发技术总结wpf页面
查看>>
python numpy sum函数用法
查看>>
Linux中的SELinux详解--16
查看>>
php变量什么情况下加大括号{}
查看>>
less入门
查看>>
如何实现手游app瘦身?
查看>>
linux程序设计---序
查看>>
OpenGL 笔记<1> 固定管线实例 + 双缓存测试实例
查看>>
【字符串入门专题1】hdu3613 【一个悲伤的exkmp】
查看>>
C# Linq获取两个List或数组的差集交集
查看>>
Django-Json 数据返回
查看>>
团队冲刺第六天个人博客
查看>>
使用Nginx实现灰度发布
查看>>
linux网口驱动实现(待续)
查看>>
github报错failed to push some refs to 'git
查看>>
21.Longest Palindromic Substring(最长回文子串)
查看>>
POJ 3177 Redundant Paths
查看>>
HDU 4635 Strongly connected
查看>>
testuse备份
查看>>
K近邻分类算法
查看>>