数据分析中的数据清洗与预处理：Python实现

04-09 62阅读

󦘖

免费快速起号（微信号）

coolyzf

添加微信

在数据分析和机器学习项目中，数据清洗与预处理是一个至关重要的步骤。无论数据来源如何复杂或格式多么混乱，只有经过适当清理和转换的数据才能为后续的建模提供可靠的输入。本文将详细介绍数据清洗与预处理的技术要点，并通过Python代码展示具体实现方法。

1.

数据清洗（Data Cleaning）是指识别并修正或删除数据集中的错误、不完整、格式不一致或其他问题的过程。而数据预处理（Data Preprocessing）则是指将原始数据转化为适合分析或建模的形式。两者通常结合在一起进行，目的是提高数据质量，从而提升模型性能和分析结果的准确性。

在实际应用中，数据往往存在以下常见问题：

缺失值（Missing Values）异常值（Outliers）数据类型不一致（Inconsistent Data Types）文本数据需要标准化（Text Standardization）特征缩放（Feature Scaling）

接下来，我们将使用Python中的Pandas库来演示如何解决这些问题。

2. 数据清洗与预处理的基本流程

2.1 加载数据

首先，我们需要加载一个示例数据集。这里我们使用Pandas库中的read_csv函数加载CSV文件。

import pandas as pd# 加载数据data = pd.read_csv('example_data.csv')# 查看数据前几行print(data.head())

假设我们的数据集如下：

id	name	age	salary	department
1	Alice	25	50000	HR
2	Bob	NaN	60000	Engineering
3	Charlie	30	NaN	Marketing
4	David	28	55000	NaN
5	Eve	35	70000	Sales

2.2 处理缺失值

缺失值是数据分析中最常见的问题之一。我们可以选择填充、删除或忽略这些缺失值。

方法1：删除含有缺失值的行

# 删除任何包含缺失值的行cleaned_data = data.dropna()print(cleaned_data)

方法2：填充缺失值

对于数值型列（如age和salary），可以使用均值或中位数填充；对于分类列（如department），可以使用众数填充。

# 填充数值型列的缺失值data['age'].fillna(data['age'].mean(), inplace=True)data['salary'].fillna(data['salary'].median(), inplace=True)# 填充分类列的缺失值data['department'].fillna(data['department'].mode()[0], inplace=True)print(data)

2.3 处理异常值

异常值可能会对模型产生不良影响。我们可以使用统计方法或可视化工具检测并处理这些异常值。

方法1：基于标准差的方法

def remove_outliers(df, column):    mean = df[column].mean()    std = df[column].std()    lower_bound = mean - 3 * std    upper_bound = mean + 3 * std    return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]# 移除`salary`列中的异常值data = remove_outliers(data, 'salary')print(data)

方法2：基于箱线图的方法

import seaborn as snsimport matplotlib.pyplot as plt# 绘制箱线图sns.boxplot(x=data['salary'])plt.show()# 根据箱线图手动定义异常值范围Q1 = data['salary'].quantile(0.25)Q3 = data['salary'].quantile(0.75)IQR = Q3 - Q1lower_bound = Q1 - 1.5 * IQRupper_bound = Q3 + 1.5 * IQR# 移除异常值data = data[(data['salary'] >= lower_bound) & (data['salary'] <= upper_bound)]print(data)

2.4 数据类型转换

确保数据类型正确是数据清洗的重要部分。例如，某些数值可能被错误地存储为字符串。

# 将`age`列从字符串转换为浮点数data['age'] = pd.to_numeric(data['age'], errors='coerce')# 检查数据类型print(data.dtypes)

2.5 文本数据标准化

文本数据通常需要进行清理和标准化，例如去除多余的空格、转换为小写等。

# 去除多余空格并转换为小写data['name'] = data['name'].str.strip().str.lower()print(data)

2.6 特征缩放

特征缩放（Feature Scaling）是机器学习中的重要步骤，尤其是在使用距离度量的算法（如KNN或SVM）时。

方法1：标准化（Standardization）

from sklearn.preprocessing import StandardScalerscaler = StandardScaler()data[['age', 'salary']] = scaler.fit_transform(data[['age', 'salary']])print(data)

方法2：归一化（Normalization）

from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()data[['age', 'salary']] = scaler.fit_transform(data[['age', 'salary']])print(data)

3. 总结

通过上述步骤，我们可以完成数据清洗与预处理的主要任务。以下是完整的代码总结：

import pandas as pdfrom sklearn.preprocessing import StandardScaler, MinMaxScalerimport seaborn as snsimport matplotlib.pyplot as plt# 加载数据data = pd.read_csv('example_data.csv')# 1. 处理缺失值data['age'].fillna(data['age'].mean(), inplace=True)data['salary'].fillna(data['salary'].median(), inplace=True)data['department'].fillna(data['department'].mode()[0], inplace=True)# 2. 处理异常值def remove_outliers(df, column):    Q1 = df[column].quantile(0.25)    Q3 = df[column].quantile(0.75)    IQR = Q3 - Q1    lower_bound = Q1 - 1.5 * IQR    upper_bound = Q3 + 1.5 * IQR    return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]data = remove_outliers(data, 'salary')# 3. 数据类型转换data['age'] = pd.to_numeric(data['age'], errors='coerce')# 4. 文本数据标准化data['name'] = data['name'].str.strip().str.lower()# 5. 特征缩放scaler = StandardScaler()data[['age', 'salary']] = scaler.fit_transform(data[['age', 'salary']])# 可视化异常值sns.boxplot(x=data['salary'])plt.show()print(data)

4.

数据清洗与预处理是数据分析和机器学习项目的基础工作，直接影响最终结果的质量。本文通过Python代码详细展示了如何处理缺失值、异常值、数据类型不一致以及文本数据标准化等问题，并介绍了特征缩放的具体实现方法。希望这些技术能够帮助您更高效地完成数据准备工作！

免责声明：本文来自网站作者，不代表ixcun的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：aviv@vne.cc