【机器学习】带你迅速了解什么是机器学习
【机器学习】带你迅速了解什么是机器学习
机器学习是一门研究计算机如何模拟或实现人类学习行为的学科,它能够从数据中发掘知识,是当今科技领域的重要研究方向之一。本文将带你了解机器学习的基本概念、基于规则的学习与基于模型的学习的区别,以及机器学习数据集的相关知识。
机器学习引入
试想这样一个场景:傍晚时分,小街路面上沁出微雨后的湿润,和煦的细风吹过,抬头看看天边的晚霞。你心里想着,明天又是一个好天气。
走到水果摊旁,你挑了一个色泽青绿、敲起来声音浊响的西瓜,一边期待着西瓜皮薄肉厚瓤甜的爽落感。
回想刚刚的场景,你会发现这里涉及很多基于经验做出的预判:
为什么看到微湿的路面、感到和煦的细风、看到天边的晚霞,就能认为明天是好天气呢?答案是因为在我们的生活经验中,已经遇见过很多类似的情况,前一天观察到上述特征后,第二天天气通常会很好。
为什么色泽青绿、敲声浊响就能判断出是正熟的好西瓜呢?这是因为我们吃过、看过很多西瓜,所以基于色泽、敲声这几个特征,就可以做出相当好的判断。
简言之,我们可以把这些经验交给计算机,由计算机给出预测。
机器学习基本概念
机器学习专门研究计算机怎样模拟或实现人类的学习行为,使之不断改善自身性能。它是一门能够发掘数据价值的算法和应用。我们生活在一个数据资源非常丰富的年代,通过机器学习中的自学习算法,可以将这些数据转换为知识。
借助于近些年发展起来的诸多强大的开源库,现在是进入机器学习领域的最佳时机。
机器学习模型 = 数据 + 机器学习算法
但是在没有机器学习之前,都是基于规则学习的方式。
基于规则的学习
在机器学习出现之前,我们进行预测,需要先有一个明确的可解释的规则。例如,基于规则的分类器是使用一组 "if…else…" 规则来对样本进行分类的技术。
但是,有很多问题无法明确地写下规则,此时我们无法使用规则学习的方式来解决这一类问题,比如:
- 图像和语音识别
- 自然语言处理
举例来说,我们尝试通过基于规则的学习方式让计算机识别大象。下图中的大象千差万别,有的是实物,有的是雕塑,有的是画,我们无法通过创建一套规则的方式让计算机准确识别每一头大象。此时,我们需要一种新的方法来解决这类问题。
基于模型学习
基于模型的学习就是通过编写机器学习程序,让机器自己学习从历史数据中获得经验、训练模型。
例如,房价预测。数据如下图:
- 我们可以使用一条直线尽可能多地通过这些点,不通过的点尽量分布在直线的两侧。利用这条直线所表示的线性关系,我们就可以预测房价。
- 直线可以写成y=ax+b,若a,b已知,我们就能够预测房价。在机器学习中,a,b称为参数,y=ax+b称为模型。通常a,b未知,是我们需要求解的量。
机器学习数据集描述
数据集如下:
通过电商购买数据集了解机器学习数据集的构成:其中每一个用户都由age年龄、income收入、student是否为学生、credit_rating信用级别和buy_computer是否购买电脑组成。
数据集描述如下
案例实操:
西瓜数据集,可以通过西瓜的色泽、根蒂、敲声确定一个西瓜是好瓜或坏瓜,可以做详细分析:
鸢尾花数据集
鸢尾花Iris Dataset数据集是机器学习领域经典数据集,该数据集可以从加州大学欧文分校(UCI)的机器学习库中得到。鸢尾花数据集包含了150条鸢尾花信息,每50条取自三个鸢尾花中之一:Versicolour、Setosa和Virginica
每个花的特征用下面5种属性描述:
小结
- 基于规则的分类器是使用一组 "if…else…" 规则来对样本进行分类的技术
- 基于模型的学习是从数据集中学习知识来获取模型,通过模型来对样本进行分类的技术
- 机器学习的数据集:样本,特征,目标,训练集,测试集