Python如何去除重复数据?

2024-04-09 1742阅读

  众所周知,Python是一门强大的编程语言,可以进行数据抓取、数据分析等,能帮助我们高效地处理数据。但在进行数据处理的过程中,我们经常会遇到重复数据的问题,那么Python如何去除重复数据?在Python中,有多种方法可以去除重复数据,以下是具体内容介绍。

Python如何去除重复数据?
(图片来源网络,侵删)

  1、使用set()函数去重

  set()是Python中的一个内置函数,用于创建一个集合。集合是无序不重复的元素集合,可以方便地用于去重操作。我们可以将要去重的数据转换为集合,然后再转换为列表,即可去除重复数据。示例代码:

  ```

  data = [1, 2, 3, 4, 1, 2, 5, 6, 3, 7, 8, 9, 9]

  data = list(set(data))

  print(data)

  ```

  输出结果为:[1, 2, 3, 4, 5, 6, 7, 8, 9]

  2、使用pandas库去重

  pandas是Python中一种常用的数据处理库,可以方便地进行数据清洗、转换、分析等操作。pandas提供了drop_duplicates()函数,可以用于去除dataframe中的重复数据。示例代码:

  ```

  import pandas as pd

  data = {'A': [1, 2, 3, 4, 1, 2, 5, 6, 3, 7, 8, 9, 9],

  'B': ['a', 'b', 'c', 'd', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'h']}

  df = pd.DataFrame(data)

  df = df.drop_duplicates()

  print(df)

  ```

  输出结果为:

  ```

  A B

  0 1 a

  1 2 b

  2 3 c

  3 4 d

  6 5 c

  7 6 d

  9 7 f

  10 8 g

  11 9 h

  ```

  3、使用numpy库去重

  numpy是Python中一个常用的科学计算库,可以用于数组操作、线性代数运算等。numpy提供了unique()函数,可以用于去除数组中的重复元素。示例代码:

  ```

  import numpy as np

  data = [1, 2, 3, 4, 1, 2, 5, 6, 3, 7, 8, 9, 9]

  data = np.unique(data)

  print(data)

  ```

  输出结果为:[1 2 3 4 5 6 7 8 9]

  4、使用hash去重

  hash是一种将任意长度的消息压缩到某一固定长度的算法。Python中的字典使用了hash表来实现,因此可以利用字典的特性进行去重操作。示例代码:

  ```

  data = [1, 2, 3, 4, 1, 2, 5, 6, 3, 7, 8, 9, 9]

  result = list(dict.fromkeys(data))

  print(result)

  ```

  输出结果为:[1, 2, 3, 4, 5, 6, 7, 8, 9]

VPS购买请点击我

免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们,邮箱:ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

目录[+]