利用Python进行数据清洗与预处理：Pandas的高级用法

52分钟前 693阅读

👽发现宝藏

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。

利用Python进行数据清洗与预处理：Pandas的高级用法

在数据科学和机器学习领域，数据清洗和预处理是至关重要的步骤。Pandas库作为Python中最受欢迎的数据处理工具之一，提供了强大的功能来处理各种数据格式。本文将介绍Pandas的一些高级用法，帮助你更有效地进行数据清洗和预处理。

1. 数据清洗

数据清洗是指处理缺失值、异常值和重复值等问题，使数据集变得更加干净和可靠。下面是一些Pandas的高级技术，可以用来进行数据清洗：

处理缺失值

import pandas as pd
# 创建示例数据
data = {'A': [1, 2, None, 4],
        'B': [5, None, 7, 8]}
df = pd.DataFrame(data)
# 填充缺失值
df.fillna(method='ffill', inplace=True)  # 使用前向填充
print(df)

处理异常值

# 删除异常值
threshold = 3
df = df[(df  
处理重复值 
# 删除重复值
df.drop_duplicates(inplace=True)
print(df)
 
2. 数据预处理 
数据预处理是为了使数据更适合模型训练，包括特征缩放、特征编码等。下面是一些Pandas的高级技术，可用于数据预处理： 
特征缩放 
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaled_features = scaler.fit_transform(df[['A', 'B']])
df[['A', 'B']] = scaled_features
print(df)
 
特征编码 
# 使用get_dummies进行独热编码
df = pd.get_dummies(df, columns=['Categorical_Column'])
print(df)
 
时间序列处理 
# 转换日期格式
df['Date'] = pd.to_datetime(df['Date'])
# 提取年份
df['Year'] = df['Date'].dt.year
print(df)
 
通过这些高级用法，你可以更轻松地进行数据清洗和预处理，为后续的数据分析和建模工作打下良好的基础。记得根据实际情况选择合适的方法，以保证数据质量和模型效果。 
3. 多列操作与函数应用 
Pandas提供了强大的方法来对多列进行操作，并能够轻松地应用自定义函数。下面是一些相关技术： 
多列操作 
# 添加新列
df['New_Column'] = df['A'] + df['B']
# 对多列进行统计计算
df['Sum'] = df[['A', 'B']].sum(axis=1)
print(df)
 
函数应用 
# 定义自定义函数
def custom_function(x):
    return x * 2
# 应用函数到某一列
df['New_Column'] = df['A'].apply(custom_function)
print(df)
 
4. 数据合并与拼接 
在处理多个数据集时，经常需要将它们合并或拼接起来。Pandas提供了便捷的方法来实现这一点： 
数据合并 
# 创建两个示例数据集
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3']})
df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})
# 合并数据集
merged_df = pd.merge(df1, df2, on='key')
print(merged_df)
 
数据拼接 
# 创建两个示例数据集
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7']})
# 拼接数据集
concatenated_df = pd.concat([df1, df2])
print(concatenated_df)
 
通过这些技术，你可以轻松地进行数据合并和拼接，实现更复杂的数据处理任务。 
5. 数据分组与聚合 
在数据分析中，常常需要对数据进行分组并进行聚合操作。Pandas提供了灵活的功能来实现这些操作： 
数据分组 
# 创建示例数据集
data = {'Category': ['A', 'B', 'A', 'B', 'A'],
        'Value': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
# 按照Category列进行分组
grouped = df.groupby('Category')
# 对分组后的数据进行聚合操作
print(grouped.sum())  # 对每个分组求和
print(grouped.mean())  # 对每个分组求平均值
 
自定义聚合函数 
# 定义自定义聚合函数
def custom_agg(x):
    return max(x) - min(x)
# 应用自定义聚合函数
print(grouped['Value'].agg(custom_agg))  # 对每个分组应用自定义聚合函数
 
6. 数据透视表与交叉表 
Pandas还提供了数据透视表和交叉表功能，可以方便地对数据进行汇总和分析： 
数据透视表 
# 创建示例数据集
data = {'A': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'],
        'B': ['one', 'one', 'two', 'two', 'one', 'one'],
        'C': ['small', 'large', 'large', 'small', 'small', 'large'],
        'D': [1, 2, 2, 3, 3, 4]}
df = pd.DataFrame(data)
# 创建数据透视表
pivot_table = pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'], aggfunc=np.sum)
print(pivot_table)
 
交叉表 
# 创建示例数据集
data = {'A': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'],
        'B': ['one', 'one', 'two', 'two', 'one', 'one'],
        'C': ['small', 'large', 'large', 'small', 'small', 'large']}
df = pd.DataFrame(data)
# 创建交叉表
cross_table = pd.crosstab(df['A'], df['B'])
print(cross_table)
 
通过这些功能，你可以轻松地对数据进行分组、聚合和分析，从而更深入地理解数据的特征和规律。 
7. 缺失值处理的高级技巧 
处理数据中的缺失值是数据清洗过程中的关键步骤之一。Pandas提供了一些高级技巧来处理缺失值： 
插值填充 
# 创建示例数据集
data = {'A': [1, 2, np.nan, 4],
        'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)
# 使用插值填充缺失值
df.interpolate(inplace=True)
print(df)
 
使用模型填充 
from sklearn.impute import KNNImputer
# 创建示例数据集
data = {'A': [1, 2, np.nan, 4],
        'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)
# 使用KNN模型填充缺失值
imputer = KNNImputer(n_neighbors=2)
df_filled = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
print(df_filled)
 
8. 文本数据处理 
Pandas还提供了处理文本数据的功能，可以进行字符串操作、正则表达式匹配等： 
字符串操作 
# 创建示例数据集
data = {'Text': ['foo', 'bar', 'baz']}
df = pd.DataFrame(data)
# 字符串方法操作
df['Text_Length'] = df['Text'].str.len()  # 计算字符串长度
df['Text_Upper'] = df['Text'].str.upper()  # 将字符串转换为大写
print(df)
 
正则表达式匹配 
# 创建示例数据集
data = {'Text': ['foo123', 'bar456', 'baz789']}
df = pd.DataFrame(data)
# 正则表达式匹配
df['Digits'] = df['Text'].str.extract('(\d+)', expand=False)  # 提取数字
print(df)
 
通过这些技巧，你可以更加灵活地处理文本数据，挖掘其中的信息。 
9. 数据可视化 
除了数据处理外，Pandas还提供了数据可视化的功能，可以帮助你更直观地理解数据： 
绘制折线图 
# 创建示例数据集
data = {'Date': pd.date_range(start='2022-01-01', periods=10),
        'Value': np.random.randn(10)}
df = pd.DataFrame(data)
# 绘制折线图
df.plot(x='Date', y='Value', title='Time Series Data', xlabel='Date', ylabel='Value')
plt.show()
 
绘制柱状图 
# 创建示例数据集
data = {'Category': ['A', 'B', 'C', 'D'],
        'Value': [10, 20, 30, 40]}
df = pd.DataFrame(data)
# 绘制柱状图
df.plot(kind='bar', x='Category', y='Value', title='Bar Chart', xlabel='Category', ylabel='Value')
plt.show()
 
绘制箱线图 
# 创建示例数据集
data = {'Group': ['A', 'A', 'B', 'B'],
        'Value': np.random.randn(100)}
df = pd.DataFrame(data)
# 绘制箱线图
df.boxplot(by='Group', column='Value')
plt.title('Boxplot by Group')
plt.show()
 
通过数据可视化，你可以更加直观地观察数据的分布和趋势，为进一步的分析和决策提供依据。 
10. 并行处理 
对于大规模数据集，Pandas提供了并行处理的功能，可以加速数据处理过程： 
# 创建示例数据集
data = {'A': np.random.randn(1000),
        'B': np.random.randn(1000),
        'C': np.random.randn(1000)}
df = pd.DataFrame(data)
# 并行处理
result = df.apply(lambda x: x**2, axis=1, raw=True)
print(result)
 
通过设置raw=True参数，可以启用并行处理，提高数据处理的效率。 
11. 时间序列处理 
Pandas提供了丰富的功能来处理时间序列数据，包括日期索引、时间重采样等： 
创建日期索引 
# 创建示例时间序列数据
dates = pd.date_range(start='2022-01-01', periods=5, freq='D')
data = {'Values': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data, index=dates)
print(df)
 
时间重采样 
# 按周重采样
weekly_resampled = df.resample('W').mean()
print(weekly_resampled)
 
移动窗口统计 
# 计算滚动平均值
rolling_mean = df['Values'].rolling(window=2).mean()
print(rolling_mean)
 
时间序列处理能够帮助你更好地分析和预测时间相关的数据，对于金融、气象等领域的数据分析尤为重要。 
12. 数据读写 
Pandas还提供了丰富的功能来读取和写入各种数据格式： 
读取CSV文件 
# 读取CSV文件
df = pd.read_csv('data.csv')
print(df)
 
写入CSV文件 
# 写入CSV文件
df.to_csv('output.csv', index=False)
 
Pandas支持读写多种数据格式，包括CSV、Excel、SQL数据库等，使得数据的导入和导出变得更加便捷。 
总结 
总的来说，本文介绍了Pandas库的一系列高级用法，涵盖了数据清洗与预处理、多列操作与函数应用、数据合并与拼接、数据分组与聚合、数据透视表与交叉表、缺失值处理的高级技巧、文本数据处理、数据可视化、并行处理、时间序列处理以及数据读写等方面。通过这些高级技巧和功能，读者可以更加灵活地处理和分析各种类型的数据，从而为数据科学和机器学习项目提供更加可靠的数据基础和支持。无论是初学者还是有经验的数据科学家，都可以从本文中获得启发和帮助，进一步提高数据处理和分析的效率。因此，掌握Pandas库的高级用法对于数据领域的从业者来说是非常重要的，希望本文对读者有所启发，激发大家对数据处理和分析的兴趣，欢迎继续深入学习和实践！

VPS购买请点击我

利用Python进行数据清洗与预处理：Pandas的高级用法

👽发现宝藏

利用Python进行数据清洗与预处理：Pandas的高级用法

1. 数据清洗

处理缺失值

处理异常值

相关阅读

华为OD机试C、D卷 - 数字涂色（Java & JS & Python & C & C++）

利用Python进行数据清洗与预处理：Pandas的高级用法

大数据可视化项目—基于Python豆瓣电影数据可视化分析系统的设计与实现（完整系统源码+数据库+详细文档+论文+PPT+部署教程）

华为OD机试C、D卷 - 快递员的烦恼（Java & JS & Python & C & C++）

目录[+]