通义开源视觉理解模型Qwen2.5-VL可操控手机、视频通话
创作时间:
作者:
@小白创作中心
通义开源视觉理解模型Qwen2.5-VL可操控手机、视频通话
引用
腾讯
1.
https://new.qq.com/rain/a/20250128A06H0800?media_id=&openApp=false&suid=&web_channel=wap
1月28日,阿里云通义千问开源全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本,并已在魔搭社区、HuggingFace等平台开源。
其中,旗舰版Qwen2.5-VL-72B在13项权威评测中的得分领先GPT-4o与Claude3.5。新的Qwen2.5-VL能够更准确地解析图像内容,支持超1小时的视频理解,无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。
Qwen2.5-VL识别和定位马路上骑摩托车未戴头盔的人。官方供图
通义团队此前曾开源Qwen-VL及Qwen2-VL两代模型,而新的Qwen2.5-VL视觉知识解析能力实现了飞跃,如准确识别和定位马路上骑摩托车未戴头盔的人,或是以多种格式提取发票中的核心信息并做结构化的推理输出。其视频理解能力也得到了增强,可以在视频中搜索具体事件,并对视频的不同时间段进行要点总结,打开摄像头,用户就能与Qwen2.5-VL实时对话。
开发者基于Qwen2.5-VL也能开发属于自己的AI智能体,如自动核验快递单地址与照片中的门牌号是否对应,根据家庭摄像头判断猫咪状况进行自动喂食,自动进行火灾报警等。
热门推荐
股票中RSV指标的含义及其在股票市场中的应用
2025年腊八节时间及各地腊八习俗大盘点
维护管理是什么?详解新能源汽车的维护要点
如何规范处理股票涨停时的交易行为?这种交易行为对市场秩序有何影响?
如何通过图像分割提高缺陷检测精度
改户口流程复杂吗?如何简化改户口手续?
【论文解读系列】深度学习的缺陷检测
诺如病毒的快消除方法小孩的方法
佛珠手串:最佳颗数全解析,选对才能更添福缘!
宠物狗接种疫苗的时间表(详解狗狗接种疫苗的时间和注意事项)
栩栩如生的糖人是怎么吹出来的?
保险合同争议解决机制的法律适用与实务操作
让经典在流行中焕发生机活力 ——法语音乐剧带来的启示
古代皇帝知道权臣有野心 皇帝为什么还会委曲求全
Excel表格合并单元格怎么排序
丙肝最有效的治疗方法
违章后多久收到短信?详解交通违章处理全流程,车主必看!
小儿腹痛是什么原因导致的
阿克苏老街夜市:品美酒、尝美食,感受城市的热情与活力
买到假鸡蛋吃了怎么办赔偿
K线图如何进行准确显示?这种显示方法有哪些实际应用?
网上如何申请离婚起诉需要啥材料
嵌入音视频兼容性指南:3步确保在PPT中的顺利播放
视功能检查包括哪几个方面?眼压+眼底+眼位+融合视检查等多角度评估视觉功能!
远视眼恢复视力6个步骤
餐饮店生意火爆之道:麻辣烫店的经营秘籍
6种特色婚礼策划方案:从传统到现代,打造难忘的婚礼仪式
断掌为什么打人疼?女性断掌如何科学看待?
如何礼貌拒绝别人的表白
USB压枪芯片会被封号吗?原理、风险与影响全解析