Pandasの使い方

1import pandas as pd
2import matplotlib.pyplot as plt

Pandasは、Pythonでデータ分析をするためのライブラリです。 データの読み込み、整形、変換、集計、可視化など、データ分析に必要な機能が豊富に用意されています。 データフレーム(pandas.DataFrame)を中心に、 データを操作するためのさまざまなメソッドが提供されています。 データ分析の目的に応じて、適切なメソッドを選択して使うことが重要です。

また、Pandasは内部でNumPyを利用しています。 NumPyは、Pythonでの数値計算の基盤となるライブラリです。 mathモジュールがスカラー値の計算に特化しているのに対して、 NumPyは多次元配列(numpy.ndarray)やベクトルの計算を効率的に行うことができます。

さらに、SciPyは、NumPyを基盤とした科学技術計算ライブラリです。 統計分析(scipy.stats)や 最適化(scipy.optimize)、 数値積分(scipy.integrate)、 信号処理(scipy.signal)など、 さまざまな分野に対応したモジュールが用意されています。 これらの計算を自分で実装することで理解を深めることもできますが、 SciPyの実装やAPIを活用することで効率的に高度な解析を行うことができます。

このドキュメントでは、Pandasを中心としたデータ分析の基本的な使い方を紹介します。 必要に応じて、NumPySciPyの機能も併せて紹介します。

データフレームを作成したい

データを読み込みたい

データを保存したい

データを確認したい

データを選択したい

データを整形したい

データを変換したい

集計したい

度数分布したい

フィットしたい

フィットにはSciPyNumPyを使います。

可視化したい

データの可視化にはデフォルトでmatplotlibを使います。

pandas.DataFrameと連携できる可視化ツールもいろいろあります。 これまで使ったことがあるツールは、 Matplotlibの使い方Altairの使い方Plotlyの使い方hvPlotの使い方 にそれぞれ整理しました。

リファレンス