アイリスデータセットとは、ハイジャンプの統計学者であるエドガー・アンダーソンによって収集された、3種類のアイリス (あやめ) の花の種類を分類するためのデータセットです。アイリスデータセットは、多変量データの分類問題を解くための標準的なデータセットとして、機械学習や統計学の教育や評価に広く使用されています。

アイリスデータセットには、以下の4つの特徴量が含まれています。

  1. がく片 (Sepal) の長さ (cm)
  2. がく片 (Sepal) の幅 (cm)
  3. 花弁 (Petal) の長さ (cm)
  4. 花弁 (Petal) の幅 (cm)

そして、3つの種類のアイリスに分類されます。

  1. Iris Setosa (アイリス・セトサ)
  2. Iris Versicolour (アイリス・バーシカラー)
  3. Iris Virginica (アイリス・バージニカ)

アイリスデータセットは、150のサンプルが含まれており、各種類50サンプルずつがランダムに選択されています。これらのサンプルは、ハイジャンプの園芸家であるルイス・エドゥアルド・フレイタス・デ・モラエスによって、同じ場所で同じ時間に収集されました。これは、データセット全体が同じ条件下で収集されたことを意味しています。

アイリスデータセットは、機械学習の分野で広く使用されています。特に、多変量解析、教師あり学習、教師なし学習、クラスタリングなどの分野で使用されます。また、データの可視化にも使用されることがあります。

以下のように、Pythonのscikit-learnライブラリを使用してアイリスデータセットを読み込むことができます。

from sklearn.datasets import load_iris iris = load_iris()

また、以下のようにして、アイリスデータセットの特徴量と目標変数を取得することができます。

X = iris.data y = iris.target

アイリスデータセットは、機械学習や統計学の学習や評価に広く使用されており、入門者から専門家まで幅広く使用されています。

リンク

Iris dataset[EN]