グループ化したい（`pandas.DataFrame.groupby`）

g = ["グループ化したいカラム名"]
v = ["集計したいカラム名"]

data.groupby(g)[v].sum().reset_index()

groupbyで、データを指定したカラムの値でグループ化し、それぞれのグループに対して集計できます。 グループ化したいカラム名（のリスト）と 集計したいカラム名（のリスト）を指定して、データフレームを集計します。

groupbyの結果はDataFrameGroupBy型になっているため、 .sum()や.mean()などの集計関数を適用する必要があります。

また、集計結果はグループ化したカラムがインデックスになるため、 .reset_index()して通常のデータフレームに変換することが多いです。

パーセンテージを計算したい

g = "グループ化したいカラム名"
v = "集計したいカラム名"
grouped = data.groupby(g)[v].count().reset_index()

# 集計したカラムの総計を計算
n = grouped[v].sum()
grouped["percentage"] = grouped[v] / n

集計した値の割合を計算しています。集計したカラムの総計で、グループごとの集計値を割り算しています。

平均値と標準偏差したい（`pandas.DataFrame.agg`）

grouped = data.groupby(g)[v].agg(["mean", "std"]).reset_index()

pd.DataFrame.aggの引数にはリスト（や辞書）も設定できます。 meanとstdを与えると平均値と標準偏差をまとめて取得できます。

複数の方法で集計したい

# グループ化したいカラム
group: list[str] = ["グループ化したいカラム"]

# 集計項目
# ページビュー数, セッション数
v = ["pageview", "session"]
# ユニークビジター数（＝同一IPアドレスの数）
u = "uvisitor"

# あとのデータ処理のためカラム名を変更する
data.rename(columns={"ipaddress": u}, inplace=True)

# 1次集計
g = group + [u]
grouped = data.groupby(group)[v].sum().reset_index()

# 2次集計
_left = grouped.groupby(group)[v].sum().reset_index()
_right = grouped.groupby(group)[u].count().reset_index()
insight = pd.merge(_left, _right, on=group)

あるカラム（のリスト）は合計値、別のカラム（のリスト）はカウント値、のように、複数の方法で集計したい場合です。

1回の操作で完結させることができないので、まずグループ化したいカラム名ごとにgroupbyして集計したデータフレームを作成し、それから、グループ化したいカラム名を基準にしてマージ（pandas.merge）しています。

上のサンプルでは、pageviewとsessionのカラムは合計値（sum）、 uvisitorのカラムはカウント数（count）で集計しています。

注釈

このコードを書いたときは、pd.DataFrame.aggの引数に辞書を指定できることを認識していませんでした。もしかしたら、こんな回りくどいことをせずに計算できるかもしれません。

# グループ化したいカラム
group: list[str] = ["グループ化したいカラム"]

# あとのデータ処理のためカラム名を変更する
data.rename(columns={"ipaddress": "uvisitor"}, inplace=True)

# 集計方法を定義
aggregation_rules = {
    "pageview": "sum",
    "session": "sum",
    "uvisitor": "count",
}

# 集計
insight = data.groupby(group).agg(aggregation_rules).reset_index()

# カラム名をわかりやすく
columns = {
    "pageview": "total_pageview",
    "session": "total_session",
    "uvisitor": "unique_visitor",
}
insight.rename(columns=columns, inplace=True)

リファレンス

Group by: split-apply-combine

グループ化したい（pandas.DataFrame.groupby）

パーセンテージを計算したい

平均値と標準偏差したい（pandas.DataFrame.agg）

複数の方法で集計したい

リファレンス

グループ化したい（`pandas.DataFrame.groupby`）

平均値と標準偏差したい（`pandas.DataFrame.agg`）