Pandasとは、Pythonにおけるデータ分析ライブラリの一つであり、表形式のデータを扱うための高度なツールを提供しています。Pandasは、NumPyとMatplotlibライブラリをベースにしています。

Pandasでは、主にSeriesとDataFrameという2つのデータ構造を扱います。Seriesは、1次元のデータを扱うためのクラスであり、DataFrameは、2次元のデータを扱うためのクラスです。DataFrameは、行と列からなる表形式のデータを扱うことができます。

Pandasを使用することで、CSV、Excel、SQL、JSON、HTML、GZIP、ZIPなどの様々な形式のデータを読み込むことができます。また、データの加工や処理、グループ化、集計などの演算を行うこともできます。

以下は、Pandasを使用してCSVファイルを読み込み、データの加工と処理を行う例です。

import pandas as pd # CSVファイルの読み込み df = pd.read_csv('data.csv') # データの確認 print(df.head()) # データの加工と処理 df['total'] = df['math'] + df['english'] + df['science'] df['average'] = df['total'] / 3 # データの出力 print(df.head())

この例では、CSVファイルをPandasで読み込んでいます。次に、math、english、scienceの列の値を加算し、total列を追加します。そして、total列を3で割った値をaverage列に追加します。

最後に、加工したデータを出力します。このように、pandasを使用することで、データの取り込みから加工、処理、出力までを簡単に行うことができます。

以上が、Pandasの簡単な紹介と例です。pandasは、データの解析や処理において非常に便利なツールであり、Pythonを使用するデータサイエンスや機械学習の分野で広く活用されています。

リンク

Pandas[EN]