本文讨论了数据特征处理中的数据标准化方案。与【数据特征处理的数值数据(normalization)】中介绍的由于自身缺点(工程性和数据量小的不稳定性)而受限于应用场景的归一化方案相比,数据标准化方案几乎克服了特征极值的影响,完全适用于大数据工程的场景。
虽然这篇文章的内容很基础,但为了更形象地理解知识,开头就给出了知识点的逻辑位置。
什么是特征处理?
通过特定的统计方法(数学方法)将待处理数据转换为算法所需数据的过程称为特征处理。
标准化的特征
不同特征维度的缩放变换使得不同度量的特征具有可比性。
在数据量大的场景中相对稳定(适合现代嘈杂的大数据场景)
上式中,X’为标准化数据,均值为特征的均值,σ为标准差。σ标准差的理论公式为:
其中,n为各特征的样本数,均值仍为各特征的平均值,var用于表示统计中的方差,其作用于各列(强调)。
借助机器学习中的sklearn模块,完成数据的标准化特征处理。
以上缩放结果是通过机器学习中的sklearn模块完成的,完整代码如下
# -*- coding:utf-8 -*-# @Author: 数据与编程之美# @File: standard_scaler.pyfrom sklearn.preprocessing import StandardScalerdef standard_scaler(): std = StandardScaler() data = std.fit_transform([[425, 42, 0.16], [544, 66, 1.28], [509, 75, 0.87], [496, 60, 0.99], [580, 23, 1.15]]) print(data)if __name__ == “__main__”: standard_scaler()
标准化数据的特征:
数据标准化后,每个特征的所有样本平均值为0,方差和标准差为1。
数据标准化后,数据的几何距离没有改变,即数据的分布(强调)没有改变。
以上内容是数据特征处理中的数据标准化理论和操作流程。由于其数据量大,标准化非常适合当今许多大数据量的场景。