アイリスデータセットとは、ハイジャンプの統計学者であるエドガー・アンダーソンによって収集された、3種類のアイリス (あやめ) の花の種類を分類するためのデータセットです。アイリスデータセットは、多変量データの分類問題を解くための標準的なデータセットとして、機械学習や統計学の教育や評価に広く使用されています。
アイリスデータセットには、以下の4つの特徴量が含まれています。
- がく片 (Sepal) の長さ (cm)
- がく片 (Sepal) の幅 (cm)
- 花弁 (Petal) の長さ (cm)
- 花弁 (Petal) の幅 (cm)
そして、3つの種類のアイリスに分類されます。
- Iris Setosa (アイリス・セトサ)
- Iris Versicolour (アイリス・バーシカラー)
- Iris Virginica (アイリス・バージニカ)
アイリスデータセットは、150のサンプルが含まれており、各種類50サンプルずつがランダムに選択されています。これらのサンプルは、ハイジャンプの園芸家であるルイス・エドゥアルド・フレイタス・デ・モラエスによって、同じ場所で同じ時間に収集されました。これは、データセット全体が同じ条件下で収集されたことを意味しています。
アイリスデータセットは、機械学習の分野で広く使用されています。特に、多変量解析、教師あり学習、教師なし学習、クラスタリングなどの分野で使用されます。また、データの可視化にも使用されることがあります。
以下のように、Pythonのscikit-learnライブラリを使用してアイリスデータセットを読み込むことができます。
from sklearn.datasets import load_iris iris = load_iris()
また、以下のようにして、アイリスデータセットの特徴量と目標変数を取得することができます。
X = iris.data y = iris.target
アイリスデータセットは、機械学習や統計学の学習や評価に広く使用されており、入門者から専門家まで幅広く使用されています。