pandasは、データ分析や加工を行うための重要なライブラリです。pandasには、データを集計するためのgroupby関数があります。今回は、pandasのgroupby関数について解説していきます。

groupby関数とは

groupby関数は、データをグループ分けして、各グループに対して集計や加工を行うための関数です。この関数を使うことで、大量のデータを効率的に処理することができます。

groupby関数の基本的な使い方

groupby関数は、コードで以下のように記述します。

df.groupby(列名)

ここで、dfはpandasのDataFrameオブジェクトです。列名には、グループ化するための基準となる列名を指定します。groupby関数を実行することで、指定した列名の値ごとにデータがグループ分けされます。

次に、groupby関数の戻り値の使い方について説明します。groupby関数の戻り値は、グループごとに分けられたデータを扱うためのオブジェクトです。このオブジェクトに対して、各種の集計や加工を行うことができます。

グループごとの集計

グループごとに集計するためには、groupby関数の戻り値に対して、集計関数を適用します。以下は、平均値を算出する例です。

df.groupby(列名).mean()

このように記述することで、指定した列名の値ごとに平均値が算出されます。他にも、最大値や最小値を算出する関数などがあります。

複数の列でグループ化する

groupby関数を使って、複数の列をグループ化することもできます。以下は、複数の列をグループ化する例です。

df.groupby([列名1, 列名2]).mean()

このように記述することで、列名1と列名2の値ごとに平均値が算出されます。

まとめ

pandasのgroupby関数は、大量のデータを効率的に処理するための重要な関数です。グループごとに集計を行うことができるため、データ分析や加工を行う際には欠かせない機能です。是非、活用してみてください。

リンク

pandas groupby[EN]