数据集之鸢尾花数据集(Iris Dataset)
创作时间:
作者:
@小白创作中心
数据集之鸢尾花数据集(Iris Dataset)
引用
CSDN
1.
https://blog.csdn.net/dundunmm/article/details/144646405
鸢尾花数据集(Iris Dataset)是数据科学与机器学习领域中最著名的经典数据集之一,由统计学家 Ronald Fisher 在1936年首次提出,用于展示线性判别分析的应用。鸢尾花数据集因其简单性和易于理解的特性,常被用于教学和研究中。
数据集概览
数据结构
鸢尾花数据集共有150条记录,每条记录代表一朵鸢尾花的测量数据,包括以下五个属性:
属性名称 | 描述 | 数据类型 |
|---|---|---|
Sepal Length | 萼片长度(单位:厘米) | 数值型 |
Sepal Width | 萼片宽度(单位:厘米) | 数值型 |
Petal Length | 花瓣长度(单位:厘米) | 数值型 |
Petal Width | 花瓣宽度(单位:厘米) | 数值型 |
Species | 鸢尾花的种类(目标标签) | 分类型 |
分类标签
鸢尾花数据集包含三种鸢尾花的分类标签,每种类型各有50条记录:
- Setosa:山鸢尾
- Versicolor:杂色鸢尾
- Virginica:维吉尼亚鸢尾
数据特点
- 数据集是平衡的,每个类别包含的样本数相同。
- 特征数据具有一定的区分性,但不同类别之间存在一定程度的重叠。
- 它是一个典型的多分类问题数据集,适用于分类算法的研究和验证。
数据集用途
- 机器学习模型的实验与评估
- 适合用于分类模型(如决策树、SVM、k-NN、逻辑回归等)的测试。
- 可用于比较不同分类算法的性能。
- 数据可视化
- 通过散点图、箱线图等可视化手段,观察特征分布及类别之间的差异。
- 二维和三维投影展示类别的分布情况。
- 统计学习和特征分析
- 用于讲解线性判别分析(LDA)和主成分分析(PCA)。
- 适合学习如何进行特征工程和降维。
- 教学与入门实践
- 简单易懂,非常适合初学者学习数据处理、分析和建模的完整流程。
鸢尾花数据集的可视化
二维可视化
使用散点图展示萼片长度、花瓣长度等特征之间的关系。不同种类的鸢尾花可以用颜色区分。
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
import pandas as pd
iris = load_iris()
data = pd.DataFrame(data=iris.data, columns=iris.feature_names)
data['species'] = iris.target
data['species'] = data['species'].map({0: 'setosa', 1: 'versicolor', 2: 'virginica'})
sns.pairplot(data, hue='species')
plt.show()
三维可视化
使用特征(如 Petal Length, Petal Width, Sepal Length)绘制三维散点图,观察三类鸢尾花的分布差异。
获取鸢尾花数据集
鸢尾花数据集可以通过以下方式轻松获取:
- Scikit-learn提供的内置数据集:
from sklearn.datasets import load_iris
iris = load_iris()
print(iris.data) # 特征数据
print(iris.target) # 分类标签
- UCI 机器学习库:
- 可通过UCI Machine Learning Repository下载数据集文件。
鸢尾花数据集的优点
- 小而精:数据集小(150条记录),适合快速运行和学习。
- 易于可视化:只有4个特征,便于二维或三维可视化。
- 丰富的分类信息:多分类问题,适合入门分类任务。
鸢尾花数据集以其简单性和实用性,为数据科学与机器学习的学习和研究提供了重要帮助,是入门不可或缺的经典数据集。
热门推荐
乌镇东栅:穿越千年的文化之旅
乌镇东栅一日游,这份保姆级攻略值得收藏!
厄贝沙坦片的功效与副作用
青春心向党,携手迎国庆|明德“一站式”学生社区携手庆祝新中国成立75周年
血脂高的人,应该做哪些检查?高血脂人群要做3类检查
【低胆固醇饮食攻略】胆固醇过高怎么办?3步法教你远离高胆固醇!
陈醋泡枸杞,作用真厉害,帮助众多中老年人,省钱又实用
迷你世界官司终审:未侵犯整体画面著作权,但需删除230个侵权元素并赔偿5500万
7万预算可以买到的6款车
购车预算如何合理分配?这些分配策略有哪些优缺点?
泰坦尼克号的致命设计缺陷揭秘
“泰坦尼克2”号:复刻经典,重塑未来
《孔子故事系列》之夹谷会齐
夹谷会盟:孔子的智慧与齐景公的恐惧
猫咪疫苗接种攻略:妙三多 vs 狂犬病
社区狂犬疫苗接种,守护"毛孩子"健康
猫咪狂犬疫苗接种全攻略:从准备到护理
瑞比克狂犬疫苗,猫咪接种的最佳时机揭秘
生理盐水敷脸攻略:敷完要不要洗?日常护理知道
用盐洗脸有什么效果
金超群VS周杰:谁才是你心中的包青天?
什么叫做干眼症,有什么症状
云闪付可以扫微信收款码了,条码支付互联互通又进一步!
防冻液红色跟绿色有什么区别?能混合一起用吗?
汽车冷却液防冻剂主要的化学成分配方剖析及应用
人大代表进校园,思政课火了
迷你世界:沙盒游戏新纪元,科技与创意的完美结合
网易再诉迷你世界侵权,这场持续多年的版权纠纷将何去何从?
《我的世界》和《迷你世界》究竟是谁抄袭谁?
如何科学饲养棉花面纱犬?(从日常护理到饲料搭配,详解棉花面纱犬养成秘籍)