重複を確認したい(pandas.DataFrame.duplicated
)
1data.duplicated()
2data.duplicated(subset=["カラム1", "カラム2"])
3data.duplicated(subset=["カラム1", "カラム2"], keep="last")
pandas.DataFrame.duplicatedで重複している行を確認できます。
デフォルトは、すべてのカラムの値が重複している行が対象です。
またkeep="first"
となっているため、2番目以降の重複データがTrue
(=重複している)と判定されます。
subset
でカラム名(のリスト)を指定して、範囲を絞ることができます。
1dupes = data.duplicated().sum()
2if dupes == 0:
3 logger.info("No dupes")
重複している行がTrue
となるため、その合計を計算して重複している数を確認できます。
重複したデータを削除したい(pandas.DataFrame.drop_duplicates
)
1data.drop_duplicates()
2data.drop_duplicated(subset=["カラム1", "カラム2"])
3data.drop_duplicated(subset=["カラム1", "カラム2"], keep="last")
pd.DataFrame.drop_duplicatesで重複したデータを削除できます。
pd.DataFrame.duplicate
でTrue
と判定されたデータが削除されます。
オプションもほぼ同じです。