计算机视觉的大飞跃:从 20 世纪 90 年代到 AlexNet
计算机视觉的大飞跃:从 20 世纪 90 年代到 AlexNet
计算机视觉(CV)是人工智能领域中一个令人着迷的研究方向,致力于赋予机器“看见”和理解图像与视频中世界的能力。虽然它的起源可以追溯到几十年前,1990年代和早期2010年代是一个特别令人兴奋的时期,奠定了如今深度学习在计算机视觉中革命性发展的基础。
在1990年为题为《90年代的机器视觉:应用及实现途径》的小组讨论准备的报告中,作者们强调了机器视觉领域的几项主要关注点:
1.基础理解:我们对视觉信息如何被处理的理解存在显著差距,无论是对人类还是机器。这一差距使得构建有效的机器视觉系统变得具有挑战性,通常需要为每个新应用从头开始。
2.建模和预测困难:难以预测机器视觉系统的性能,这限制了纯理论研究的潜力,并且需要进行昂贵的实验。
3.技术与算法进展的差距:虽然在传感器和处理能力相关技术方面取得了重大进展,但在机器视觉使用的算法方面并没有相应的进展。
4.向实际应用的转移缓慢:从研究到实际商业应用的过渡速度缓慢,影响了该领域的商业可行性和就业前景。
5.市场与经济挑战:许多机器视觉领域的公司都在苦苦挣扎,行业内的自动化也在整体上缩减。
虽然上述所有问题都存在,但算法进步的一个最具体的问题是缺乏标准化的数据集。
改变图像识别的数据集:Yann LeCun等人和MNIST
在机器学习的早期,研究人员依赖于小型、定制的数据集,这使得算法之间的公平比较变得困难。当时,杨立昆(Yann LeCun)正深入参与卷积神经网络(CNN)的开发。80年代结束时,杨立昆在1989年贝尔实验室展示了反向传播在CNN中的实际应用,开创了手写数字识别的先河,并证明了神经网络在实际应用中的有效性。这些专门设计的神经网络旨在擅长图像识别任务。然而,杨立昆需要一个大型、干净的数据集来训练并充分展示他的CNN的威力。来自国家标准与技术研究所(NIST)的现有数据集虽然广泛,但充满了混乱的手写变体和成像缺陷。
这时杨立昆的聪明才智显现出来了。他和他的团队对原始的NIST数据集进行了细致的改造。他们仔细地规范化和居中这些手写数字,并手工挑选了一组最清晰的样本。最终成果就是MNIST:一个包含60000张训练图像和10000张测试图像的数据库,成为当时的金标准。
MNIST的影响是深远的。其标准化格式和相对简单性使得全球研究人员能够轻松地比较他们的算法,专注于模型本身,而不是费时的数据清理。MNIST至今仍在需求中!其可管理的规模和相对易用性使其成为刚开始学习机器学习和早期深度学习实验的学生和研究人员的首选工具。该数据集在Kaggle等网站上经常被下载和研究。
从MNIST到LeNet-5
回顾MNIST手写数字数据库,它的创建标志着深度学习的一个转折点。这个精心策划的数据集使得杨立昆能够专注于他的CNN模型——特别是LeNet-5,并展示了这些架构在图像识别方面的巨大潜力。
LeNet-5在1998年的论文《基于梯度学习的文档识别》中由杨立昆、Leon Bottou、约书亚·本吉奥(Yoshua Bengio)和Patrick Haffner介绍。它是最古老的CNN模型之一,至今仍在使用。
LeNet-5概览
MNIST中独立的测试集帮助杨立昆对抗过拟合,指导架构选择,以创建能够推广到新样本的模型。此外,MNIST专注于一个具有挑战性的现实世界问题——准确读取手写数字——引导研究朝着实际方向发展。
- 概念验证:LeNet-5 在 MNIST 上取得的成功有力地证明了 CNN 在图像识别任务中的强大能力。这促进了该领域的进一步研究和投资。
- 为进一步研究奠定基础:LeNet-5 的架构为现代 CNN 奠定了基础。尽管随着时间的推移不断完善,但其许多核心原则至今仍然存在。
- 现实世界的影响:LeNet-5 被部署在用于读取支票和邮政编码的商业系统中,展示了深度学习超越理论并进入实际应用的能力。
超越感知的极限:David Lowe的SIFT发展
虽然LeNet-5在识别单个数字方面表现出色,但我们周围的世界充满了各种不同场景中的复杂对象。然而,机器在不同尺度、视角和光照条件下可靠地识别对象时仍然很困难。传统的特征检测方法在这些现实场景中举步维艰。对此感到非常不满的加拿大计算机科学家David Lowe决定尝试一种新方法。结果是尺度不变特征变换(SIFT)。SIFT精确定位图像中的独特关键点,如角落或显著边缘。围绕每个关键点,计算出一个独特的描述符,捕捉局部图像模式,同时对尺度、旋转或照明变化具有极强的抵抗力。
尽管最初遭到怀疑和拒绝:
我确实向ICCV和CVPR提交了SIFT的早期版本论文(大约在1997/98年),但都被拒绝了。然后我增加了更多系统方面的内容,并在1999年以海报形式在ICCV上发表。当时我认为计算机视觉社区对这不感兴趣,所以申请了专利,并打算仅用于工业应用推广。
David Lowe(摘自杨立昆的网站)
Lowe坚持不懈地改进和展示SIFT的能力。他在1999年(《尺度不变特征变换》)和2004年(《从尺度不变关键点提取独特图像特征》)的开创性出版物催化了计算机视觉社区的转变,确立了SIFT作为标志性算法的地位。
SIFT的影响是深远的。它在极不相同的图像中匹配特征的能力促进了图像拼接、三维重建和物体识别的进步。计算机视觉终于能够走出受控实验室环境,进入复杂的现实世界。
实时人脸检测的诞生:Viola-Jones算法
在探讨计算机视觉的演变时,我们看到了LeNet-5在图像识别中展示了CNN的能力,而SIFT在不同条件下的强大对象识别中表现出色。在这些进展的基础上,Viola-Jones算法引入了一种针对实时人脸检测的解决方案。与计算量庞大的LeNet-5和多功能的SIFT不同,Viola-Jones强调速度和准确性,通过其对快速特征评估的积分图像的创新使用,变革了人脸检测技术。
Paul Viola和Michael Jones在2001年提出了他们的论文《使用提升的简单特征级联进行快速物体检测》。
这个算法的核心是一些巧妙的想法。
- 首先,该算法使用“Haar-like特征”而不是分析原始像素。这些特征充当微小的模式检测器,类似于图像上不同位置的矩形。通过计算这些矩形之间亮度的差异,它们可以迅速识别基本的面部结构(例如,眼睛比脸颊暗)。
- 另一个关键创新是“积分图像”,这是一种计算技巧,可以近乎即时地计算任何大小的Haar-like特征。这是一个性能的游戏规则改变者。
- Viola和Jones然后使用AdaBoost,一种机器学习技术,从大量特征池中仔细选择最重要的Haar-like特征,构建一个强大的分类器。
- 他们最后的高明之处是“级联分类器”。这意味着不是对图像的每个部分应用一个复杂的分类器,而是使用一系列越来越复杂的分类器。简单的分类器迅速淘汰大多数非人脸区域,只留下最有可能的区域供更复杂的分类器进一步处理。这使得实时性能成为可能。
Jitendra Malik与视觉信息的解释
自90年代开始,Jitendra Malik在研究和教育方面都是一个极其高产的研究人员。
他从一开始就专注于计算机如何解释视觉信息。图像的基本构建块——边缘、纹理和轮廓——成为他的研究领域。几种标志性技术和算法由此诞生,并且至今仍被广泛使用:
- 各向异性扩散:一种在平滑图像的同时保留重要细节和边缘的方法。对于图像处理和降噪至关重要。
- 归一化割:一种强大的图像分割方法,将像素分组为连贯的区域。现已成为许多计算机视觉应用的基础。
- 形状上下文:一种描述形状的方法,使计算机更容易比较和匹配形状,适用于物体识别。
- 高动态范围成像(HDR):捕捉更广泛光强度的计算技术,生成更接近人眼所见的图像。
他的研究方法为物体识别、场景理解和许多依赖计算机理解所见内容的应用铺平了道路。这推动了图像搜索、三维建模和机器人技术的发展,其中识别和操作物体的能力至关重要。
2000年代:特征工程与模型
2000年代的第一个十年见证了基于特征的技术和物体检测的持续进步:
- Pedro Felzenszwalb的可变形部分模型(DPM):该模型将物体视为部件的集合,建模它们的几何关系,在需要精确定位图像中物体的任务中表现出色。
参考视频:https://youtu.be/_J_clwqQ4gI
这个时期还见证了对后续进展至关重要的数据集的创建。Pascal VOC项目提供了用于物体识别的标准化数据集和评估指标,并且从2005年到2012年进行了对象类别识别的性能评估挑战。
但是,真正推动许多深度学习和AI成就的催化剂是由李飞飞建立的ImageNet数据集。其庞大的规模、多样的物体类别以及在ImageNet大规模视觉识别挑战赛(ILSVRC)中的角色,为推动机器感知的界限提供了必要的数据和竞争框架。
在2012年,亚历克斯-克里切夫斯基(Alex Krizhevsky)与伊尔亚·苏茨克维(Ilya Sutskever)和杰弗里·辛顿(Geoffrey Hinton)合作引入的AlexNet在2012年ILSVRC中横扫了竞争对手。
AlexNet明确显示,更大的神经网络,在庞大数据集上训练,能够取得更好的结果。深度学习的革命开始了,但我们将在下一集中深入探讨ImageNet、AlexNet以及随后的令人难以置信的进步。