python去重函数是什么

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first’)返回boolean Series表示重复行

参数:

subset:列标签或标签序列,可选

仅考虑用于标识重复项的某些列,默认情况下使用所有列

keep:{‘first’,‘last’,False},默认’first’

first:标记重复,True除了第一次出现。

last:标记重复,True除了最后一次出现。

错误:将所有重复项标记为True。

相关推荐:《Python基础教程》

import numpy as npimport pandas as pdfrom pandas import Series, DataFramedf = pd.read_csv('./demo_duplicate.csv')print(df)print(df['Seqno'].unique()) # [0. 1.]# 使用duplicated 查看重复值# 参数 keep 可以标记重复值 {'first','last',False}print(df['Seqno'].duplicated())'''0    False1     True2     True3     True4    FalseName: Seqno, dtype: bool'''# 删除 series 重复数据print(df['Seqno'].drop_duplicates())'''0    0.04    1.0Name: Seqno, dtype: float64'''# 删除 dataframe 重复数据print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来去重'''   Price     Seqno   Symbol   time0  1623.0    0.0   APPL  14734119624  1649.0    1.0   APPL  1473411963'''# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、Falseprint(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个'''   Price     Seqno   Symbol   time3  1623.0    0.0   APPL  14734119634  1649.0    1.0   APPL  1473411963'''

以上就是python去重函数是什么的详细内容,更多请关注其它相关文章!

生活比你想象的要容易得多,只要学会接受那些不可接受的,

python去重函数是什么

相关文章:

你感兴趣的文章:

标签云: