重複を確認したい(pandas.DataFrame.duplicated

1data.duplicated()
2data.duplicated(subset=["カラム1", "カラム2"])
3data.duplicated(subset=["カラム1", "カラム2"], keep="last")

pandas.DataFrame.duplicatedで重複している行を確認できます。 デフォルトは、すべてのカラムの値が重複している行が対象です。 またkeep="first"となっているため、2番目以降の重複データがTrue(=重複している)と判定されます。

subsetでカラム名(のリスト)を指定して、範囲を絞ることができます。

1dupes = data.duplicated().sum()
2if dupes == 0:
3    logger.info("No dupes")

重複している行がTrueとなるため、その合計を計算して重複している数を確認できます。

重複したデータを削除したい(pandas.DataFrame.drop_duplicates

1data.drop_duplicates()
2data.drop_duplicated(subset=["カラム1", "カラム2"])
3data.drop_duplicated(subset=["カラム1", "カラム2"], keep="last")

pd.DataFrame.drop_duplicatesで重複したデータを削除できます。 pd.DataFrame.duplicateTrueと判定されたデータが削除されます。 オプションもほぼ同じです。