AI训练数据处理和读取
创作时间:
作者:
@小白创作中心
AI训练数据处理和读取
引用
CSDN
1.
https://blog.csdn.net/skywalk8163/article/details/136574088
AI训练数据处理是机器学习流程中的关键步骤,其质量直接影响到模型的性能。本文将介绍AI数据处理的关键技术,并通过飞桨框架的代码示例展示如何加载和读取内置数据集。
AI数据处理
AI数据处理概述
AI数据处理是指对原始数据进行一系列的操作,以便机器学习算法能够从中提取有用的信息,进而进行模型的训练、验证和部署。数据处理是机器学习流程中的关键步骤,其质量直接影响到模型的性能。
AI数据处理的关键技术
1 数据清洗
- 缺失值处理:填充、删除或插值。
- 异常值检测与处理:使用统计方法、箱线图等检测异常值,并进行适当的处理。
- 重复值处理:识别并删除重复的数据。
2 数据转换
- 数据标准化:将数据转换为均值为0,标准差为1的分布。
- 数据归一化:将数据缩放到指定的范围,如[0,1]。
- 独热编码:将分类变量转换为二进制向量。
3 特征提取与选择
- 特征提取:通过统计方法、变换等从原始数据中提取有用的特征。
- 特征选择:选择对模型性能影响最大的特征,减少计算量,提高模型泛化能力。
4 数据分割
- 将数据分为训练集、验证集和测试集,分别用于模型训练、模型选择和性能评估。
5 数据增强
- 对于图像数据,可以通过旋转、平移、裁剪等方式生成新的数据,增加模型的泛化能力。
- 对于音频数据,可以通过调整音高、速度等方式生成新的数据。
飞桨代码示例
飞桨框架在 paddle.vision.datasets 和 paddle.text 目录下内置了一些经典数据集可直接调用,通过以下代码可查看飞桨框架中的内置数据集。
import paddle
print('计算机视觉(CV)相关数据集:', paddle.vision.datasets.__all__)
print('自然语言处理(NLP)相关数据集:', paddle.text.__all__)
输出:
计算机视觉(CV)相关数据集: ['DatasetFolder', 'ImageFolder', 'MNIST', 'FashionMNIST', 'Flowers', 'Cifar10', 'Cifar100', 'VOC2012']
自然语言处理(NLP)相关数据集: ['Conll05st', 'Imdb', 'Imikolov', 'Movielens', 'UCIHousing', 'WMT14', 'WMT16', 'ViterbiDecoder', 'viterbi_decode']
以 MNIST 数据集为例,加载内置数据集的代码示例如下所示。
from paddle.vision.transforms import Normalize
# 定义图像归一化处理方法,这里的CHW指图像格式需为 [C通道数,H图像高度,W图像宽度]
transform = Normalize(mean=[127.5], std=[127.5], data_format='CHW')
# 下载数据集并初始化 DataSet
train_dataset = paddle.vision.datasets.MNIST(mode='train', transform=transform)
test_dataset = paddle.vision.datasets.MNIST(mode='test', transform=transform)
print('train images: ',len(train_dataset),', test images: ',len(test_dataset))
输出:
train images: 60000 , test images: 10000
读取数据
可以使用下面的代码直接对数据集进行迭代读取。
from matplotlib import pyplot as plt
for data in train_dataset:
image, label = data
print('shape of image: ',image.shape)
plt.title(str(label))
plt.imshow(image[0])
break
本文原文来自CSDN
热门推荐
百变糖醋鱼,既简单又好吃,摆上“它”,年夜饭才有灵魂!
徐州周边六城旅游攻略:海滨、古城、湿地一网打尽
王者荣耀凯玩法攻略:技能解析与出装推荐
新型无创筛查技术问世,结直肠癌早诊率有望大幅提升
卫健委发布结直肠癌筛查新方案,结肠镜检查每5年一次
Nature:反式异油酸增强免疫细胞抗癌能力
广州召开第二十二届大肠癌学术会议,聚焦筛查与精准治疗
《大医精诚》:古代医学智慧在现代医学中的传承与创新
中医名篇:药王孙思邈之《大医精诚》(原文+译文)
2024年完成可研,宜常高铁2025年开工在即
广西火龙果夜间补光:农民增收的秘密武器
广西南宁隆安火龙果:夜间补光技术背后的农业革命
石雕牌坊对联文化及其赏析
华为手机手写输入功能:会议记录、绘图创作一“手”掌握
每个家庭都经历的初二危险期,进成学霸,退变学渣,孩子怎么办?
全球十大顶级游乐场大盘点:从迪士尼到富士急乐园
中医针灸治疗耳鸣:专家叶海平分享临床成功案例
“别把机长当作超人”:面对飞行险情,民航从业者在做些什么?
极端恶性事件之下,普通人如何自处
广西到四川自驾攻略:三省四地的文化与自然盛宴
8个无痛减塑方法、好处,生活妙招大公开
全球知名的 10 个亲子乐园,收藏起来带孩子慢慢去
幸福龙抱抱龙你get了吗?甘肃省博文创别young出圈
充电方式揭秘:先插手机还是充电器?科学的充电攻略在这里!
广东居民阶梯电价调整,这些省电误区你中招了吗?
一文详解腰围测量:5步法+3大注意事项
海地帮派暴力升级,平民生存堪忧
海地粮食危机:500万人亟需援助,帮派暴力成最大障碍
从油炸到高盐:7种常见食物让你越吃越胖
痔疮:定义、种类、成因及高危人群