Pandasの使い方
1import pandas as pd
2import matplotlib.pyplot as plt
Pandasは、Pythonでデータ分析をするためのライブラリです。
データの読み込み、整形、変換、集計、可視化など、データ分析に必要な機能が豊富に用意されています。
データフレーム(pandas.DataFrame)を中心に、
データを操作するためのさまざまなメソッドが提供されています。
データ分析の目的に応じて、適切なメソッドを選択して使うことが重要です。
また、Pandasは内部でNumPyを利用しています。
NumPyは、Pythonでの数値計算の基盤となるライブラリです。
mathモジュールがスカラー値の計算に特化しているのに対して、
NumPyは多次元配列(numpy.ndarray)やベクトルの計算を効率的に行うことができます。
さらに、SciPyは、NumPyを基盤とした科学技術計算ライブラリです。
統計分析(scipy.stats)や
最適化(scipy.optimize)、
数値積分(scipy.integrate)、
信号処理(scipy.signal)など、
さまざまな分野に対応したモジュールが用意されています。
これらの計算を自分で実装することで理解を深めることもできますが、
SciPyの実装やAPIを活用することで効率的に高度な解析を行うことができます。
このドキュメントでは、Pandasを中心としたデータ分析の基本的な使い方を紹介します。
必要に応じて、NumPyやSciPyの機能も併せて紹介します。
データフレームを作成したい
データを読み込みたい
データを保存したい
データを確認したい
- 先頭行を確認したい(
pandas.DataFrame.head) - 末尾行を確認したい(
pandas.DataFrame.tail) - データフレームを確認したい(
pandas.DataFrame.info) - 統計情報を確認したい(
pandas.DataFrame.describe) - 形を確認したい(
pandas.DataFrame.shape) - カラム名を確認したい(
pandas.DataFrame.columns) - データ型を確認したい(
pandas.DataFrame.dtypes) - 欠損値を確認したい(
pandas.DataFrame.isna) - 重複を確認したい(
pandas.DataFrame.duplicated) - ユニーク値を確認したい(
pandas.DataFrame.unique)
データを選択したい
データを整形したい
- 空白を削除したい(
pandas.Series.str.replace) - データ型を変換したい(
pandas.DataFrame.astype) - カテゴリー型に変換したい(
pandas.CategoricalDtype) - 日付に変換したい(
pandas.to_datetime) - カラム名を変更したい(
pandas.DataFrame.rename) - データを削除したい(
pd.DataFrame.drop) - 欠損値を削除したい(
pandas.DataFrame.dropna) - 欠損値を補完したい(
pandas.DataFrame.fillna) - 重複を削除したい(
pandas.DataFrame.drop_duplicates)
データを変換したい
集計したい
度数分布したい
フィットしたい
可視化したい
データの可視化にはデフォルトでmatplotlibを使います。
pandas.DataFrameと連携できる可視化ツールもいろいろあります。
これまで使ったことがあるツールは、
Matplotlibの使い方、
Altairの使い方、
Plotlyの使い方、
hvPlotの使い方
にそれぞれ整理しました。