AIGC 发展历程:从感知到理解世界的奠基阶段
AIGC 发展历程:从感知到理解世界的奠基阶段
近年来,AIGC(人工智能生成内容)迅速发展,已成为人工智能领域的重要分支。从最初的简单数据生成到如今的多模态智能创作,AIGC的发展离不开计算机视觉、自然语言处理、深度学习等技术的突破。其中,感知与理解世界的能力构成了AIGC发展的奠基阶段。
一、感知理解世界的奠基阶段
1、达特茅斯会议:人工智能的破晓之光
20世纪50年代初,关于“思考机器”的研究被赋予了多种不同的名称,如控制论(Cybernetics)、自动机理论(Automata Theory)和复杂信息处理(Complex Information Processing)。不同的名称反映了当时不同的研究取向。1955年,年轻的数学助理教授约翰·麦卡锡决定组织一次学术会议,以澄清和发展关于“思考机器”的概念,并正式提出了“人工智能”(Artificial Intelligence,AI)这一术语。这就是1956年的达特茅斯会议,无疑是人工智能发展史上的一个关键起点。
会议的组织者——约翰·麦卡锡(John McCarthy)、马文·明斯基(Marvin Minsky)、纳撒尼尔·罗切斯特(Nathaniel Rochester)和克劳德·香农(Claude Shannon)——后来被公认为人工智能领域的奠基人。当时的一群极具前瞻性的科学家们汇聚在美国新罕布什尔州的达特茅斯学院。他们怀揣着对未知的探索热情,共同探讨着用机器模拟人类智能的可能性。在会议上,科学家们正式提出了“人工智能”这一概念,旨在让机器能够像人类一样思考、学习和解决问题。
2、控制论:早期 AI 发展的理论基石
控制论的诞生为 AI 的发展提供了重要的理论支撑。控制论由美国数学家诺伯特・维纳在 20 世纪 40 年代提出,它主要研究动物和机器内部的控制与通信机制。控制论强调通过反馈机制来调节系统的行为,使系统能够在复杂多变的环境中保持稳定和优化。
在 AI 领域,控制论的思想被广泛应用于机器人的运动控制和自动化系统的设计中。例如,早期的工业机器人通过安装传感器来感知周围环境,然后根据反馈信息调整自身的动作,以完成精确的操作任务。在航空航天领域,飞行器的自动驾驶系统也借鉴了控制论的原理,通过不断监测飞行状态并进行调整,确保飞行器能够安全、稳定地飞行。控制论的应用使得机器能够更好地感知和响应外部环境,为 AI 从理论走向实践提供了关键的桥梁。
3、自然语言处理:让机器读懂人类语言
自然语言处理(Natural Language Processing,NLP)作为 AI 领域的重要研究方向之一,致力于让计算机能够理解、处理和生成人类语言。NLP 的发展历程充满了挑战,因为人类语言具有高度的复杂性和灵活性,包含了语法、语义、语境等多个层面的信息。
早期的 NLP 研究主要集中在文本处理方面,如文本分类、信息检索等。随着技术的不断进步,研究人员开始尝试让计算机理解句子的语义和意图。例如,基于规则的方法通过编写大量的语法规则和语义模板,让计算机能够对文本进行分析和理解。但这种方法存在局限性,难以应对复杂多变的语言现象。
后来,统计机器学习方法被引入 NLP 领域,通过对大量文本数据的学习,让计算机能够自动提取语言特征和模式。例如,基于神经网络的语言模型,如循环神经网络(RNN)和长短时记忆网络(LSTM),能够处理序列数据,在语言理解和生成方面取得了显著的进展。如今,NLP 技术已经广泛应用于智能客服、机器翻译、文本生成等多个领域。例如,智能客服系统能够根据用户的提问,快速准确地提供答案,大大提高了客户服务的效率和质量。
符号主义 NLP 和统计 NLP 在自然语言处理领域各有特色。符号主义 NLP 基于理性主义,源于逻辑学和哲学,对大规模数据依赖低,主要依靠专家总结的语言知识构建规则和知识库来处理自然语言,采用基于规则的处理方式,模型由人工手动搭建,虽在处理简单明确语言现象时能快速得准确结果且可解释性强,但规则构建和维护困难,还易出现冲突 ;而统计 NLP 基于经验主义,以统计学为基础,高度依赖大规模语料库,将处理任务转化为机器学习问题,运用统计模型和算法从数据中学习语言规律,模型通过数据驱动构建,便于扩展和优化,不过缺乏对语言深层结构和语义的理解,结果可解释性差。
符号主义 NLP(1950 年代 – 1990 年代初)
1950 年代: 1950 年,艾伦·图灵(Alan Turing)在论文《计算机器与智能》中提出了图灵测试,这是衡量人工智能的重要标准,其中涉及自然语言的自动生成和理解。
1954 年的乔治城实验(Georgetown Experiment)展示了机器翻译的潜力,成功地将 60 多个俄语句子自动翻译成英语。然而,由于实际进展缓慢,1966 年的 ALPAC 报告指出机器翻译研究未达到预期目标,美国的相关研究经费因此被大幅削减。
1960 年代: 这一时期开发了一些早期的 NLP 系统,如 SHRDLU(一个能够处理有限“积木世界”语境的自然语言系统)和 ELIZA(由约瑟夫·魏岑鲍姆开发的心理治疗聊天机器人)。
1970 年代: 研究者们开始构建“概念本体论”(Conceptual Ontology),即将现实世界信息结构化为计算机可理解的数据。例如 MARGIE(1975 年)、SAM(1978 年)、PAM(1978 年)等项目。
1980 年代: 符号主义 NLP 进入鼎盛时期,主要研究基于规则的解析、形态学、语义学等。其中包括 Lesk 算法(用于词义消歧)和 HPSG 语法(用于句法解析)。
统计 NLP(1990 年代 – 现在)
1990 年代: 统计 NLP 的发展得益于计算能力的提升和计算语言学领域的变革。IBM 研究团队的工作推动了统计机器翻译的发展。与此同时,基于大规模文本语料库的统计方法开始流行,如 IBM 对齐模型等。
2000 年代: 随着互联网的普及,大量未标注的语言数据可供利用,研究开始关注无监督和半监督学习。
2010 年代: 2010 年,托马斯·米科洛夫(Tomáš Mikolov)提出了 Word2Vec 词向量模型,极大地提升了 NLP 在语义表示方面的能力。深度学习技术,尤其是基于神经网络的方法,开始在 NLP 任务中占据主导地位。
2020 年代: 基于大规模预训练语言模型(LLM,如 GPT、BERT)的方法逐步取代了传统规则系统和统计方法,成为 NLP 的主流
4、计算机视觉:赋予机器 “视觉” 能力
计算机视觉(Computer vision,CV)就是让计算机学会“看”和“理解”图像。它涉及获取、处理、分析和理解数字图像,并从现实世界中提取高维数据,以生成数值或符号化的信息,比如做出决策。这里的“理解”,可以理解为把视觉图像(眼睛看到的画面)转换成对世界的描述,让计算机能像人一样思考和行动。要做到这一点,就需要借助几何、物理、统计和学习理论等工具,把图像中的信息“拆解”出来。
计算机视觉的科学研究,关注的是如何让计算机从图像中提取信息。这些图像数据的形式很多,比如视频、多台摄像机的视角、3D扫描仪生成的多维数据、LiDAR 传感器的 3D 点云,甚至是医学影像。计算机视觉的技术研究,则是要把这些理论和模型应用到实际的视觉系统里,让计算机真正能“看懂”世界。计算机视觉的子领域有很多,包括场景重建、目标检测、事件检测、行为识别、视频跟踪、物体识别、3D 姿态估计、机器学习、图像索引、运动估计、视觉伺服、3D 场景建模、图像修复等。从科学研究的角度来看,计算机视觉关心的是人工系统如何从图像中提取信息。这些图像数据可以是视频、多视角的照片,甚至是医学扫描图像。而从技术的角度来看,计算机视觉则是研究如何把这些理论和模型应用到实际的视觉系统里。机器视觉(Machine Vision)是计算机视觉的一个分支,主要用于工业自动化,比如工厂里的质量检测和机器人视觉等。近年来,计算机视觉和机器视觉的界限越来越模糊,两者的应用逐渐融合。
计算机视觉的发展历程
计算机视觉的研究可以追溯到上世纪 60 年代,当时一些大学正在探索人工智能,目标是模仿人类视觉系统,让机器人能“看懂”世界。1966 年,研究人员甚至认为,这项任务可以让本科生用一个暑假的时间完成——只要给计算机接上摄像头,让它“描述”自己看到的画面。
现在的计算机视觉和当时的数字图像处理研究不同,后者主要是对图像做各种滤镜和增强,而计算机视觉更关注从图像中提取 3D 结构,以便理解整个场景。上世纪 70 年代,研究人员开发了很多基础算法,比如边缘检测、线条标注、物体建模、光流分析和运动估计,这些技术一直沿用至今。到了 80 年代,计算机视觉开始引入更严格的数学方法,比如尺度空间(scale-space)理论、基于阴影、纹理和焦点的形状推理,以及“蛇”轮廓模型(snakes)。研究人员还发现,很多数学模型可以用同一个优化框架来处理,比如正则化(regularization)和马尔可夫随机场(Markov random fields)。
90 年代,研究重点开始倾向于 3D 视觉。投影 3D 重建(projective 3D reconstruction)的研究推动了相机校准技术的发展。研究人员发现,摄影测量学(photogrammetry)里已经有很多类似的方法,比如光束调整(bundle adjustment)。这促进了从多张图片中重建 3D 场景的研究,也带来了更精准的密集立体匹配(dense stereo correspondence)和多视角立体(multi-view stereo)技术。同时,图像分割问题也开始用图割(graph cut)方法来求解。这个阶段还有一个重要突破——统计学习技术的引入,特别是在人脸识别(Eigenface)领域取得了实用成果。
到了 90 年代末,计算机视觉和计算机图形学的结合越来越紧密,催生了基于图像的渲染(image-based rendering)、图像变形(image morphing)、视图插值(view interpolation)、全景拼接(panoramic image stitching)等技术。最近几年,计算机视觉迎来了新的突破。研究人员重新探索基于特征的方法,并结合机器学习和复杂优化框架。
计算机视觉与固态物理学
固态物理学是与计算机视觉密切相关的一个领域。大多数计算机视觉系统依赖于图像传感器,这些传感器用于检测电磁辐射,通常是可见光、红外光或紫外光。传感器的设计基于量子物理学,光与表面的相互作用过程也由物理学解释。光学器件是大多数成像系统的核心部分,其工作原理由物理学研究。复杂的图像传感器甚至需要借助量子力学来完整地解释图像形成的过程。此外,计算机视觉也可用于解决物理学中的各种测量问题,例如流体运动分析。
计算机视觉与神经生物学
神经生物学在计算机视觉算法的发展中起到了重要作用。在过去的一个世纪里,研究人员对人类和动物的视觉系统进行了广泛研究,探讨眼睛、神经元和大脑结构如何处理视觉刺激。这些研究为计算机视觉的某些子领域提供了灵感,使得人工系统能够模拟生物视觉系统的处理方式。许多基于学习的方法,如神经网络和深度学习的图像分析与分类技术,都来源于神经生物学。例如,1970 年代由福岛邦彦(Kunihiko Fukushima)开发的 Neocognitron 神经网络,便是受生物视觉系统的启发,尤其是人类初级视觉皮层。
计算机视觉的某些研究方向与生物视觉研究紧密相关,类似于人工智能研究如何借鉴人类智能以进行信息处理。生物视觉研究的是人类及动物视觉感知的生理过程,而计算机视觉则专注于人工系统如何利用软件和硬件实现视觉功能。生物视觉与计算机视觉的相互交流,为两个领域的发展都带来了积极影响。
计算机视觉与信号处理
信号处理也是计算机视觉的重要相关领域。许多用于一维信号(如时间序列信号)处理的方法,可以自然地扩展到二维或多维信号的计算机视觉处理中。然而,由于图像的特定特性,计算机视觉发展出了许多独特的方法,这些方法在一维信号处理中并无直接对应。这些特性使得计算机视觉成为信号处理的一个子领域。
计算机视觉与视觉计算
视觉计算(Visual computing)是一个涵盖多个计算机科学学科的总称,涉及 3D 建模、计算机图形学、图像处理、计算机视觉、增强现实和视频处理等多个子领域。视觉计算的核心挑战包括视觉信息的获取、处理、分析和渲染,其应用领域包括工业质量控制、医学图像处理与可视化、测绘、多媒体系统、虚拟遗产保护、电影与电视特效、计算机游戏等。
除了上述计算机视觉的相关领域,许多研究课题也可以从数学角度进行分析。例如,计算机视觉的许多方法都基于统计学、优化理论或几何学。此外,该领域的一个重要方面是其工程实现,即如何将现有方法结合软件和硬件进行高效实现,以提升处理速度,同时保持良好的性能。计算机视觉还广泛应用于时尚电商、库存管理、专利检索、家居装饰和美容行业,
计算机视觉的应用非常广泛,包括但不限于:
- 自动检测(如制造业中的质量检测)
- 身份识别(如物种识别系统)
- 过程控制(如工业机器人控制)
- 事件检测(如视频监控、人流统计)
- 人机交互(如手势识别、增强现实)
- 农业监测(如利用计算机视觉检测草莓病害)
- 医学影像分析(如肿瘤检测、血流测量)
- 导航(如自动驾驶、无人机导航)
- 信息组织(如图像数据库索引)
- 增强现实(如 3D 平面跟踪)