数据科学中的数据清洗与预处理：以Python为例

04-02 65阅读

󦘖

免费快速起号（微信号）

QSUtG1U

添加微信

在数据科学领域，数据清洗和预处理是任何数据分析或机器学习项目中不可或缺的一部分。尽管模型设计和算法优化常常成为关注的焦点，但事实上，超过80%的时间通常都花在了数据准备阶段。本文将深入探讨数据清洗与预处理的基本步骤，并通过Python代码展示如何高效地完成这些任务。

数据清洗与预处理的重要性

1.1 数据质量问题

原始数据往往存在各种问题，例如缺失值、异常值、重复记录以及格式不一致等。这些问题如果未被妥善处理，可能导致分析结果偏差甚至完全错误。例如，在金融预测模型中，若忽略了一些关键变量中的缺失值，可能会导致预测准确率大幅下降。

1.2 提高模型性能

通过有效的数据清洗与预处理，可以显著提升机器学习模型的表现。清理后的数据更接近实际分布，减少了噪声对模型训练的影响，使得模型能够更好地捕捉到数据中的模式。

数据清洗的基本步骤

2.1 处理缺失值

理解缺失值

首先需要理解数据集中缺失值的类型及原因。缺失值可能是随机产生的，也可能是由于某些特定条件导致的系统性缺失。

缺失值处理方法

删除法：当数据集足够大且缺失值比例较小时，可以直接删除含有缺失值的行或列。填充法：使用均值、中位数、众数或其他统计量进行填充；也可以基于其他特征预测缺失值。

import pandas as pdimport numpy as np# 创建示例数据集data = {'A': [1, 2, np.nan, 4], 'B': [5, np.nan, np.nan, 8], 'C': [9, 10, 11, 12]}df = pd.DataFrame(data)# 删除含有缺失值的行df_dropped = df.dropna()# 使用均值填充缺失值df_filled = df.fillna(df.mean())print("Original DataFrame:")print(df)print("\nDataFrame after dropping rows with NaN:")print(df_dropped)print("\nDataFrame after filling NaN with mean:")print(df_filled)

2.2 去除重复记录

重复记录不仅浪费存储空间，还可能误导分析结果。因此，识别并移除重复项是非常必要的。

# 检查并删除重复行df_no_duplicates = df.drop_duplicates()print("\nDataFrame after removing duplicates:")print(df_no_duplicates)

2.3 异常值检测与处理

异常值是指那些偏离正常范围的数据点。它们可能是由测量误差引起，也可能是真实存在的极端情况。

常见检测方法

Z分数法：计算每个数据点的标准分数（z-score），通常认为绝对值大于3的数据为异常值。IQR方法：利用四分位距（Interquartile Range）来确定上下界。

from scipy import stats# Z分数法检测异常值z_scores = np.abs(stats.zscore(df_filled))df_no_outliers_z = df_filled[(z_scores < 3).all(axis=1)]# IQR方法检测异常值Q1 = df_filled.quantile(0.25)Q3 = df_filled.quantile(0.75)IQR = Q3 - Q1df_no_outliers_iqr = df_filled[~((df_filled < (Q1 - 1.5 * IQR)) |(df_filled > (Q3 + 1.5 * IQR))).any(axis=1)]print("\nDataFrame after removing outliers using Z-score:")print(df_no_outliers_z)print("\nDataFrame after removing outliers using IQR method:")print(df_no_outliers_iqr)

数据预处理技术

3.1 特征编码

对于分类变量，需要将其转换为数值形式以便于模型处理。常见的编码方式包括标签编码（Label Encoding）和独热编码（One-Hot Encoding）。

from sklearn.preprocessing import LabelEncoder, OneHotEncoder# 标签编码le = LabelEncoder()df['Category'] = le.fit_transform(['Red', 'Green', 'Blue', 'Red'])# 独热编码ohe = OneHotEncoder(sparse=False)category_encoded = ohe.fit_transform(df[['Category']])df_ohe = pd.DataFrame(category_encoded, columns=['Cat_Red', 'Cat_Green', 'Cat_Blue'])print("\nDataFrame after One-Hot Encoding:")print(pd.concat([df, df_ohe], axis=1))

3.2 特征缩放

不同特征可能具有不同的量纲和尺度，这会影响某些算法（如KNN、SVM）的效果。常用的方法有标准化（Standardization）和归一化（Normalization）。

from sklearn.preprocessing import StandardScaler, MinMaxScaler# 标准化scaler = StandardScaler()df_scaled = scaler.fit_transform(df_filled[['A', 'B', 'C']])# 归一化minmax_scaler = MinMaxScaler()df_normalized = minmax_scaler.fit_transform(df_filled[['A', 'B', 'C']])print("\nScaled DataFrame:")print(pd.DataFrame(df_scaled, columns=['A_scaled', 'B_scaled', 'C_scaled']))print("\nNormalized DataFrame:")print(pd.DataFrame(df_normalized, columns=['A_norm', 'B_norm', 'C_norm']))

3.3 特征选择

并非所有特征都对目标变量有贡献，过多无关特征反而会降低模型性能。可以通过相关性分析、递归特征消除等方法挑选重要特征。

from sklearn.feature_selection import SelectKBest, f_regression# 使用SelectKBest选择最佳特征selector = SelectKBest(score_func=f_regression, k=2)X_new = selector.fit_transform(df_filled[['A', 'B', 'C']], df_filled['A'])selected_features = df_filled.columns[selector.get_support()]print("\nSelected Features:", list(selected_features))

总结

数据清洗与预处理是构建高质量数据科学项目的基石。从处理缺失值、去除重复记录到检测异常值，再到特征编码、缩放与选择，每一个步骤都需要仔细考量。本文提供的Python代码实例展示了如何具体实施这些操作。希望读者能从中受益，并将其应用到自己的项目中去。记住，干净的数据是成功的一半！

免责声明：本文来自网站作者，不代表ixcun的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：aviv@vne.cc