资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

AskMona案例展现AI应用创新，专家热议AI成经济增长新动力

创作时间:

2025-01-21 23:37:06

作者:

@小白创作中心

AskMona案例展现AI应用创新，专家热议AI成经济增长新动力

在2024年世界互联网大会乌镇峰会上，AI技术创新应用成为焦点议题。会议深入探讨了AI技术如何通过提升算力、推动产业升级和赋能各行各业，成为经济增长的重要驱动力。中兴通讯、阿里巴巴、快手等企业展示了各自在AI领域的最新成果和应用案例，展现了AI技术在不同行业中的广泛应用前景。专家们一致认为，AI技术将继续引领新一轮科技革命和产业变革，为全球经济注入新的活力。

AI应用：从概念到落地的创新之路

AskMona是一家专注于为博物馆等文化机构提供AI解决方案的小型公司。一次，一家博物馆提出了一个特殊需求：开发一个应用，能够将展览墙上汽车插画的照片与相关的内容（标识、图片和更多信息的链接）进行匹配。由于预算有限，博物馆希望解决方案能够在基础设施和维护方面实现最大效率。

最初，AskMona的产品团队计划通过Web AR技术实现这一功能。然而，当CTO加入团队并仔细分析了提供的图像后，他发现这些图像存在以下问题：

图像都是从6-7个错落有致的行中打印出来的数字原件
只有几张实际墙面的照片
游客拍摄的照片可能会出现扭曲、光线和颜色变化以及阴影

更糟糕的是，博物馆无法提供额外的现场照片，而且博物馆位于千里之外的另一个国家。经过初步的概念验证，团队发现AR技术存在以下局限性：

无法同时处理350个检测标记
依赖文件的大小会使得应用的用户体验变得笨重
非常相似的图像可能会混淆系统

第一次尝试：基于MobileNet的图像分类

团队决定尝试训练一个在设备上运行的图像分类模型，选择了MobileNet作为候选模型。MobileNet是一个轻量级的图像分类模型，预训练于大型数据集，易于在浏览器的JavaScript中加载和运行，符合项目对轻量级基础设施和维护的要求。

然而，由于每类图像只有1张，团队采用了数据增强技术，通过修改颜色、添加噪声、应用扭曲或旋转图像等方法，为每辆汽车生成了600张增强图像。尽管早期测试结果令人鼓舞，但更广泛的测试显示结果不一致，同一辆汽车的多张照片往往产生不同的匹配结果。

第二次尝试：基于AWS Titan的图像嵌入

与此同时，团队正在改进其主要产品的图像识别管道。AWS Titan多模态模型的发布带来了转机。该模型通过图像嵌入端点提供服务，能够映射图像的更精细特征。团队将主要管道迁移到使用AWS Titan后，效果显著提升。

然而，对于汽车项目，虽然一些汽车在不同角度和光照条件下都能正确匹配，但仍有一些汽车始终无法正确匹配。

最终解决方案：结合KNN搜索和LLM

团队发现，当检测失败时，正确的匹配通常位于第二或第三行，距离第一行很近。基于这一发现，团队提出向用户提供两到三个选项，让用户在AI的基础上运用自然智能进行识别。然而，这一方案最终被客户否决。

在尝试了多种方法后，团队决定利用最先进的多模态LLM，如gpt-4o，来完成最后一步识别。具体方法是为每张图像创建一个用户消息，包含图像数据和一些标识文本，然后通过一个指令消息指导模型进行匹配。输出是图像标识或一个特定代码（如果未找到匹配项）。

这一解决方案取得了显著效果。虽然在某些情况下软件仍然会混淆（例如，车身上有“4”的双胞胎汽车），但在大多数情况下，结果令人惊叹。

技术方案总结

最终的解决方案结合了基于图像嵌入的KNN搜索和LLM的检查机制。这种设置类似于团队基于KNN搜索和LLM的重新排序/过滤步骤的聊天产品中的文本检索。

尽管这种实现比之前的KNN-only设置稍慢，但结果异常出色。团队尚未尝试更快、更小的模型。成本方面，使用gpt-4o进行一次图像匹配的完整提示大约需要0.0001美元。

总结与展望

这个小冒险展示了大语言模型如何改变工程、产品和AI之间的动态。正如云计算和商品化工具将复杂的流程从专业团队转移到通用产品工程师手中一样，使用AI不再需要专门的工程师，而是让团队能够专注于定义领域问题、理解用户和构建产品。

从这个角度来看，LLM和驱动它们的平台正在成为所有与ML相关的任务的一站式解决方案。在AskMona公司，虽然在某些产品中提供了基于聊天的体验，但最有趣的是使用LLM的方式类似于本文所述的示例：小型、幕后工具使用，简单的代理工作流程。例如，文本分类、OCR、文档分析和提取、搜索结果重新排序、推荐、图像匹配等。

作为结束语，CTO表示，他真正兴奋的是未来的发展，不是那些越来越大的模型和AGI的神话魅力，而是正在进行的优化阶段，模型在保持相同质量的同时变得越来越小。在常规服务器级CPU甚至用户设备上访问这种工具开辟了构建产品的全新领域。

AI成为经济增长新引擎

在2024世界人工智能大会上，多位专家和企业领袖强调了AI应用落地的重要性。中国电信董事长柯瑞文认为，“AI发展既要重视大模型技术研发，更要重视推动大模型应用”。百度创始人李彦宏更是直言：“没有应用，基础模型将一文不值！”

数据显示，2023年我国数字经济总量超50万亿元，占GDP比重超40％，体现了经济社会民生各领域广泛应用AI、5G、云计算等信息通信技术的重要性。有咨询机构预测，至2030年，AI将显著推动中国GDP增长26％、北美GDP增长14.5％，预计为全球贡献约10.7万亿美元的经济增长。

AI技术的普惠性：让中小企业也能享受AI红利

AI技术的普惠性是本次大会的另一个重要议题。蚂蚁集团董事长兼首席执行官井贤栋表示：“要让AI像扫码支付一样便利每个人的生活。”华为常务董事、华为云首席执行官张平安则认为，“C端、B端的创新不够，下一个创新方向应该是更快速地开放行业场景，让AI能在行业应用上构建起领先优势”。

在“互联网之光”博览会上，来自华为、腾讯等企业的人工智能技术已经深入工业生产与日常生活的方方面面。深圳的新兴技术成为博览会中的靓丽风景线。

工业生产实现智能化跃升：华为的全自动AI具身智能生产线将华为云、边缘计算小站CloudPond、人工智能、机器人、传感器以及PLC控制等技术有机融合在一起，使其拥有学习和推理能力，助力生产线‘云边端’一体化智能化运行。
AI技术为生活增光添彩：腾讯的AI照相馆基于腾讯优图实验室自研图生图算法，能够将参观者拍摄的照片转化成动漫、水彩、插画、黏土、玉石等多样风格，仅需5秒钟，照片即可自动生成打印。
智算技术为AI发展筑牢底座：AI应用与生产生活，在提升效率的同时带来丰富的使用体验，在这背后，离不开大模型业态的快速发展。腾讯的混元大模型与华为的盘古大模型均成为观众们关注的焦点。

AI治理：智能向善，以人为本

在把握人工智能带来的重大机遇的同时，人类也需肩负起相应责任。小米集团董事长兼首席执行官雷军认为，发展人工智能要坚持智能向实、智能向善，将满足人们对美好科技生活的向往作为主要创新动力。

在蚂蚁集团董事长兼首席执行官井贤栋看来，AI治理离不开协同治理和科技创新。“以善治促善智，推动AI向善而行需要政府、企业和社会共同参与，协同治理。”他说，政府方面制定政策法规、完善监督体系、推动全球合作。企业要恪守科技伦理，保护好数据安全和用户隐私，负责任地推进技术创新。他还呼吁通过公众教育提升全民AI素养，全社会共同参与，形成对AI向善而行的共识。

善治之外，也需要“善技”的力量。井贤栋介绍，以新技术新理念解决技术带来的问题，行业已有很多探索，比如数据隐私问题可以通过政策法规和密态计算技术解决；算法偏见问题可以依靠监督微调和强化学习来实现价值对齐；大模型幻觉问题有了检索增强生成和知识增强生成来有效应对。

“只有坚持以人为本的原则，积极促进全球对话与合作，充分了解全球各方需求与观点，才能有效发挥人工智能的巨大潜力。”联合国副秘书长李军华强调。

站在新的历史起点，面对方兴未艾的人工智能时代，如何最大化释放创新红利，同时尽可能规避潜在风险，成为关系产业命运的重要课题。正如国家网信办主任、世界互联网大会理事长庄荣文所说，本次峰会主题就是聚焦人工智能发展的安全，加强对话交流、深化务实合作，共同建设更加美好的数字未来。