統計量したい(RDataFrame::Stats

 1#include "ROOT/RDataFrame.hxx"
 2#include <iostream>
 3
 4// 統計情報をまとめて取得
 5auto stats = df.Stats("x");
 6auto result = stats.GetValue();
 7
 8std::cout << "Count: " << result.GetN() << std::endl;
 9std::cout << "Mean: " << result.GetMean() << std::endl;
10std::cout << "StdDev: " << result.GetStdDev() << std::endl;
11std::cout << "Min: " << result.GetMin() << std::endl;
12std::cout << "Max: " << result.GetMax() << std::endl;

Stats メソッドで、指定したカラムの平均、標準偏差、最大値、最小値などを一度に計算できます。

すべての統計メソッドは遅延実行されるため、 GetValue() メソッドを呼ぶまで計算が実行されません

Filter() と組み合わせて、条件に合ったデータのみに対して統計量を計算できます。

1# 統計情報をまとめて取得
2stats = df.Stats("x")
3result = stats.GetValue()
4
5print(f"Count: {result.GetN()}")
6print(f"Mean: {result.GetMean()}")
7print(f"StdDev: {result.GetStdDev()}")
8print(f"Min: {result.GetMin()}")
9print(f"Max: {result.GetMax()}")

平均値したい(RDataFrame::Mean

1// 平均値を計算
2auto mean_x = df.Mean("x");
3std::cout << mean_x.GetValue() << std::endl;
1# 平均値を計算
2mean_x = df.Mean("x")
3print(mean_x.GetValue())

最大値したい(RDataFrame::Max

1// 最大値
2auto max_x = df.Max("x");
3std::cout << max_x.GetValue() << std::endl;
1# 最大値
2max_x = df.Max("x")
3print(max_x.GetValue())

最小値したい(RDataFrame::Min

1// 最小値
2auto min_x = df.Min("x");
3std::cout << min_x.GetValue() << std::endl;
1# 最小値
2min_x = df.Min("x")
3print(min_x.GetValue())

合計したい(RDataFrame::Sum

1// 合計値
2auto sum_x = df.Sum("x");
3std::cout << sum_x.GetValue() << std::endl;

カラムのすべての値の合計を計算します。

1# 合計値
2sum_x = df.Sum("x")
3print(sum_x.GetValue())

エントリ数を数えたい(RDataFrame::Count

1// フィルタリング後のエントリ数
2auto count = df.Filter("x > 0").Count();
3std::cout << count.GetValue() << std::endl;

フィルタリング後のデータ件数を取得します。

1# フィルタリング後のエントリ数
2count = df.Filter("x > 0").Count()
3print(count.GetValue())

標準偏差したい(RDataFrame::StdDev

1// 標準偏差(不偏推定量)
2auto std_x = df.StdDev("x");
3std::cout << std_x.GetValue() << std::endl;

データのばらつきを表す標準偏差を計算します。

1# 標準偏差
2std_x = df.StdDev("x")
3print(std_x.GetValue())

統計量メソッド一覧

メソッド

説明

戻り値

Count()

エントリ数

uint64_t

Sum(col)

合計値

カラムと同じ型

Mean(col)

平均値

double

Max(col)

最大値

カラムと同じ型

Min(col)

最小値

カラムと同じ型

StdDev(col)

標準偏差(不偏推定量)

double

Stats(col)

複数統計情報

TStatistic オブジェクト

リファレンス