# 重複を確認したい(``pandas.DataFrame.duplicated``) ```python data.duplicated() data.duplicated(subset=["カラム1", "カラム2"]) data.duplicated(subset=["カラム1", "カラム2"], keep="last") ``` [pandas.DataFrame.duplicated](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html)で重複している行を確認できます。 デフォルトは、**すべてのカラムの値**が重複している行が対象です。 また``keep="first"``となっているため、2番目以降の重複データが``True``(=重複している)と判定されます。 ``subset``でカラム名(のリスト)を指定して、範囲を絞ることができます。 ```python dupes = data.duplicated().sum() if dupes == 0: logger.info("No dupes") ``` 重複している行が``True``となるため、その合計を計算して重複している数を確認できます。 ## 重複したデータを削除したい(``pandas.DataFrame.drop_duplicates``) ```python data.drop_duplicates() data.drop_duplicated(subset=["カラム1", "カラム2"]) data.drop_duplicated(subset=["カラム1", "カラム2"], keep="last") ``` [pd.DataFrame.drop_duplicates](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html)で重複したデータを削除できます。 ``pd.DataFrame.duplicate``で``True``と判定されたデータが削除されます。 オプションもほぼ同じです。