问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

329篇图像、视频生成论文,今年CVPR最火的研究主题是这些

创作时间:
作者:
@小白创作中心

329篇图像、视频生成论文,今年CVPR最火的研究主题是这些

引用
澎湃
1.
https://m.thepaper.cn/newsDetail_forward_27675070

计算机视觉和模式识别会议(CVPR)一直是CV领域的前沿研究灯塔。2024年CVPR共录用2719篇论文,乔治亚理工学院对这些论文进行了统计分析,揭示了当前计算机视觉领域的研究热点分布情况。

图表显示,论文主题涵盖36个主题领域。从主题分布来看,论文数量最多的是图像和视频合成与生成(Image and video synthesis and generation)主题,一共329篇。

其次是三维视觉(3D from multi-view and sensors),一共276篇,依旧延续去年顶会的热度。

事实上,上面两个方向也是目前计算机视觉研究的重点。

接下来,人体行为识别(Humans: Face, body, pose, gesture, movement)一共202篇。该领域研究在人机交互、机器人、监控等领域有着广泛应用。

视觉、语言与语言推理(Vision, language, and reasoning)一共有152篇。这是一个交叉研究方向,旨在帮助计算机像人一样理解、关联视觉和语言信息,完成推理、问答、决策等高层认知任务。

数据表明,这个领域正受到学界高度关注。

比如,视觉推理,让机器具备基于视觉的逻辑推理、常识推理能力,对于智能教育、智慧法庭、辅助决策等高端应用意义重大;
视觉语言导航,可用于室内外机器人导航、头显设备的导航、无人机巡检;
多模态信息融合 (Multimodal Fusion)实现全面、准确的场景理解;
视觉语言预训练模型 (Vision-Language Pretraining),试图实现更高层次的语义理解和任务处理能力,为人工智能技术的发展和应用拓展了新的边界。

底层视觉(Low-level vision)一共131篇。传统的识别检测、分割等基础任务论文数量相对减少,但仍是研究重点。

值得一提的是,一些研究也在探索新型视觉传感器出现后,与之相适应的新视觉数据处理和建模方法。

正如接收论文“State Space Models for Event Cameras”讨论的,事件相机等技术的发展表明,机器人感知周围环境的方式得到了显著增强。这些创新将有助于机器人、自动驾驶在复杂、动态环境中实现更好的导航和交互。

鉴于上半年人形机器人大热,我们也看了看机器人+AI。

数据显示,自动驾驶有87篇。自动驾驶是机器人领域最热门的应用方向之一,需要视觉感知、决策规划、控制等多项AI技术的支持。

机器人(Robotics)主题一共29篇,涉及机器人视觉、导航、操纵等研究,视觉感知是机器人实现智能化的关键。

比如,“DifFlow3D:Towards Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based Refinement”探讨了提高3D场景理解可靠性的方法,这对于机器人在不可预测环境中的安全操作至关重要。

Embodied vision: Active agents, simulation一共27篇。看来,通过视觉、动作等多模态交互,让机器人在仿真或真实环境中学习,是一个新兴的研究范式。

正如我们在不少视频中刚看到的,机器人也越来越多地具备同时处理多项任务的能力。

“ManipLLM:Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation”等论文也呈现出一种转变——集成各种数据类型(文本、视觉、传感器数据)、在环境中执行复杂操作和交互的模型。

“Smart Help: Strategic Opponent Modeling for Proactive and Adaptive Robot Assistance in Households”直接聚焦于家庭服务机器人中的对抗建模问题,旨在实现更加主动、适应性强的机器人助手。

Video: Action and event understanding,一共78篇。对于机器人而言,理解视频中的动作、事件语义,对实现智能人机交互非常关键,仍然是一个核心研究主题。

“Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives”展示了从多个角度理解人类行为的努力(以人为本的交互),增强了机器人学习和适应人类行为的能力。

Vision + graphics一共56篇。3D重建、渲染等技术在机器人仿真、VR/AR等方面有重要应用。

Vision applications and systems一共44篇,机器人是视觉技术的主要应用方向之一。

CVPR 2024对AI和机器人技术的关注,凸显了先进计算模型、感知增强技术以及对人类场景深度理解等方面与机器人系统的逐步整合。这种整合正在为开发更加直觉化、功能更强、适应性更高的机器人铺平道路。

本文原文来自机器之心

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号