问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

多模态大模型遇瓶颈,LLM成AI应用新选择

创作时间:
2025-01-21 19:47:08
作者:
@小白创作中心

多模态大模型遇瓶颈,LLM成AI应用新选择

在AI技术快速发展的今天,大模型正在以前所未有的方式改变着我们的生活和工作。从多模态大模型到大型语言模型(LLM),这些创新技术不仅提升了机器的认知和感知能力,还在各个行业中展现出巨大的应用潜力。然而,随之而来的安全和伦理挑战也不容忽视。本文将通过一个实际案例,探讨大模型如何引领AI技术的新趋势,并分析其面临的挑战和未来发展方向。

01

从AR到LLM:一家小公司的AI应用创新之路

AskMona是一家专注于为博物馆等文化机构提供AI解决方案的小型公司。一次,一家博物馆提出了一个特殊需求:开发一个应用,能够将展览墙上汽车插画的照片与相关的内容(标识、图片和更多信息的链接)进行匹配。由于预算有限,博物馆希望解决方案能够在基础设施和维护方面实现最大效率。

最初,AskMona的产品团队计划通过Web AR技术实现这一功能。然而,当CTO加入团队并仔细分析了提供的图像后,他发现这些图像存在以下问题:

  • 图像都是从6-7个错落有致的行中打印出来的数字原件
  • 只有几张实际墙面的照片
  • 游客拍摄的照片可能会出现扭曲、光线和颜色变化以及阴影

经过初步的概念验证,团队发现AR技术存在以下局限性:

  • 无法同时处理350个检测标记
  • 依赖文件的大小会使得应用的用户体验变得笨重
  • 非常相似的图像可能会混淆系统
02

多模态大模型:AI应用的新趋势

面对这些挑战,AskMona团队开始尝试不同的技术方案。他们首先选择了MobileNet,一个轻量级的图像分类模型。然而,由于每类图像只有1张,团队采用了数据增强技术,通过修改颜色、添加噪声、应用扭曲或旋转图像等方法,为每辆汽车生成了600张增强图像。尽管早期测试结果令人鼓舞,但更广泛的测试显示结果不一致,同一辆汽车的多张照片往往产生不同的匹配结果。

与此同时,团队正在改进其主要产品的图像识别管道。AWS Titan多模态模型的发布带来了转机。该模型通过图像嵌入端点提供服务,能够映射图像的更精细特征。团队将主要管道迁移到使用AWS Titan后,效果显著提升。

然而,对于汽车项目,虽然一些汽车在不同角度和光照条件下都能正确匹配,但仍有一些汽车始终无法正确匹配。

03

LLM作为工具:创新的应用方式

团队发现,当检测失败时,正确的匹配通常位于第二或第三行,距离第一行很近。基于这一发现,团队提出向用户提供两到三个选项,让用户在AI的基础上运用自然智能进行识别。然而,这一方案最终被客户否决。

在尝试了多种方法后,团队决定利用最先进的多模态LLM,如gpt-4o,来完成最后一步识别。具体方法是为每张图像创建一个用户消息,包含图像数据和一些标识文本,然后通过一个指令消息指导模型进行匹配。输出是图像标识或一个特定代码(如果未找到匹配项)。

这一解决方案取得了显著效果。虽然在某些情况下软件仍然会混淆(例如,车身上有“4”的双胞胎汽车),但在大多数情况下,结果令人惊叹。

最终的解决方案结合了基于图像嵌入的KNN搜索和LLM的检查机制。这种设置类似于团队基于KNN搜索和LLM的重新排序/过滤步骤的聊天产品中的文本检索。

04

AI技术应用面临的挑战

尽管大模型在实际应用中展现出了巨大潜力,但仍面临一些挑战:

  1. 数据隐私与安全:AI技术的发展离不开大量的数据支持。然而,随着数据的不断收集和分析,数据隐私和安全问题日益突出。黑客可能会利用漏洞窃取数据,而政府机构或企业也可能滥用数据侵犯个人隐私。此外,数据泄露还可能对国家安全构成威胁。

  2. 算法偏见与伦理:AI算法在训练过程中可能会受到训练数据的影响,从而产生偏见。例如,如果训练数据中的性别、种族或年龄等特征存在不平衡,那么算法可能会在某些情况下产生歧视性结果。此外,AI技术的广泛应用也引发了诸多伦理问题,如自动驾驶汽车在遇到紧急情况时如何做出决策等。

  3. 技术失业与社会适应:随着AI技术的普及,许多传统职业可能会受到影响,甚至消失。这将导致大量劳动力失业,给社会带来不稳定因素。同时,AI技术的发展也将催生新的职业和产业,但人们需要时间来适应这些变化。

05

未来展望

这个小冒险展示了大语言模型如何改变工程、产品和AI之间的动态。正如云计算和商品化工具将复杂的流程从专业团队转移到通用产品工程师手中一样,使用AI不再需要专门的工程师,而是让团队能够专注于定义领域问题、理解用户和构建产品。

从这个角度来看,LLM和驱动它们的平台正在成为所有与ML相关的任务的一站式解决方案。在AskMona公司,虽然在某些产品中提供了基于聊天的体验,但最有趣的是使用LLM的方式类似于本文所述的示例:小型、幕后工具使用,简单的代理工作流程。例如,文本分类、OCR、文档分析和提取、搜索结果重新排序、推荐、图像匹配等。

作为结束语,CTO表示,他真正兴奋的是未来的发展,不是那些越来越大的模型和AGI的神话魅力,而是正在进行的优化阶段,模型在保持相同质量的同时变得越来越小。在常规服务器级CPU甚至用户设备上访问这种工具开辟了构建产品的全新领域。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号