问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

清华团队推出首个生成式城市世界模型 UrbanWorld|大模型论文日报

创作时间:
作者:
@小白创作中心

清华团队推出首个生成式城市世界模型 UrbanWorld|大模型论文日报

引用
澎湃
1.
https://www.thepaper.cn/newsDetail_forward_28109276

2024年7月,中国科研团队在人工智能领域取得了一系列重要突破,推出了多个具有创新性的研究项目。这些项目涵盖了生成式城市世界模型、扩散Transformer扩展、LLM长上下文评估框架、大规模多模态联合表征模型以及视频扩散模型训练后量化策略等多个前沿领域。

清华团队推出首个生成式城市世界模型 UrbanWorld

城市作为人类最基本的生活环境,包含各种物理元素,如建筑物、道路和植被,它们之间有着复杂的相互联系。制作逼真的交互式3D城市环境,对于构建能够在真实世界环境中像人类一样感知、决策和行动的AI智能体至关重要。

然而,创建高保真3D城市环境通常需要设计师付出大量的手工劳动,涉及复杂的细节处理和复杂城市特征的准确呈现。因此,如何以自动化的方式实现这一目标仍然是一个长期的挑战。

针对这一问题,来自清华大学的研究团队及其合作者提出了首个生成式城市世界模型UrbanWorld,其可以在灵活的控制条件下自动创建一个定制的、逼真的和交互式的3D城市世界。UrbanWorld包含了自动制作流程中的四个关键阶段:从可公开访问的OSM数据中生成3D布局、使用UrbanMLLM进行城市场景规划和设计、使用3D扩散技术进行可控的城市资产渲染,以及最后的MLLM辅助场景完善。

高保真3D城市环境可以为模拟中的通用人工智能(AGI)和机器感知系统提供逼真的反馈和交互。研究团队表示,他们致力于将UrbanWorld作为一个开源的多功能平台,用于评估和改进人工智能在现实城市环境中的感知、决策和交互能力。

DiT-MoE:将扩散Transformer扩展至160亿参数

在这项工作中,来自昆仑万维的研究团队提出了扩散Transformer(DiT)的稀疏版本——DiT-MoE,其具有可扩展性,与稠密网络相比具有竞争力,同时表现出高度优化的推理能力。

DiT-MoE包括两个简单的设计:共享专家路由和专家级平衡损失,从而捕捉共同知识并减少不同路由专家之间的冗余。当应用于条件图像生成时,对专家专业化的深入分析获得了一些有趣的观察结果:(1)专家选择表现出对空间位置和去噪时间步长的偏好,而对不同类别的条件信息不敏感;(2)随着MoE层的深入,专家选择逐渐从特定空间位置转向分散和平衡。(3)专家专业化在早期时间步趋于集中,而在一半之后则逐渐趋于均匀。研究团队将其归因于先对低频空间信息建模,再对高频复杂信息建模的扩散过程。

基于上述指导,一系列DiT-MoE在实验中取得了与稠密网络相当的性能,但在推理过程中所需的计算负荷却小得多。更令人鼓舞的是,他们利用合成图像数据证明了DiT-MoE的潜力,在512×512分辨率设置下,以16.5B参数缩放扩散模型的SoTAFID-50K得分为1.80。

上海AI Lab提出LLM长上下文评估框架

在评估大语言模型(LLM)的长上下文能力时,从原始长文档中识别与用户查询相关的内容是任何LLM回答基于长文本的问题的重要前提。

来自上海AI Lab的研究团队提出了NeedleBench框架,其由一系列挑战性逐渐增加的任务组成,用于评估双语长文本能力,跨越4k、8k、32k、128k、200k、1000k等多个长度区间和不同深度范围,允许在不同文本深度区域策略性地插入关键数据点,从而严格测试模型在不同上下文背景下的检索和推理能力。他们使用NeedleBench框架来评估领先的开源模型在双语长文本中识别与问题相关的关键信息并应用这些信息进行推理的能力。此外,为模拟现实世界长上下文任务中可能出现的逻辑推理挑战的复杂性,他们还提出了AncestralTraceChallenge(ATC),从而为评估LLM处理复杂长上下文情况提供了一种简单的方法。

研究结果表明,当前的LLM难以应对现实世界中长上下文任务中可能出现的复杂逻辑推理挑战,在实际长上下文应用中还有很大的改进空间。

浙大团队推出大规模多模态联合表征模型

最近,各种模态的人机交互已经显示出良好的应用前景,如GPT-4o和Gemini。鉴于多模态联合表征在理解和生成pipeline中的基础性作用,高质量的全方位联合表征将是向协同处理更多样化的多模态信息迈出的一步。

在这项工作中,来自浙江大学和香港大学的研究团队推出了大规模多模态联合表征模型OmniBind,其参数范围从70亿到300亿,支持3D、音频、图像和语言输入。由于所有模态数据对的稀缺性,他们建议重新映射并绑定各种预训练专业模型的空间,而不是从头开始训练大型模型。这种方法通过间接增加模型参数和所见数据量来实现“扩展”。为了有效整合各种空间,他们通过学习路由动态地为不同空间分配权重,其目标有两个:跨模态整体对齐和语言表征解耦。值得注意的是,由于绑定和路由空间都只需要轻量级网络,因此OmniBind的训练效率极高。学习最大的30B模型只需要未配对的单模态数据,并在单个8-4090节点上学习约3天。

广泛的实验证明了OmniBind作为全方位表示模型的多功能性和优越性,凸显了它在各种应用中的巨大潜力,如任意查询和可组合的多模态理解。

北航、美团团队推出首个视频扩散模型训练后量化策略

最近,视频扩散模型(VDM)因其在生成连贯逼真的视频内容方面的显著进步而备受关注。然而,同时处理多个帧特征,再加上模型体积庞大,会导致高延迟和大量内存消耗,阻碍了其更广泛的应用。

训练后量化(PTQ)是减少内存占用和提高计算效率的有效技术。与图像扩散不同,来自北京航空航天大学和美团的研究团队观察到,整合到所有帧特征中的时间特征表现出明显的偏斜性。此外,他们还研究了视频扩散模型激活过程中通道间的显著差异和不对称,这导致单个通道的量化水平覆盖率较低,增加了量化的难度。

为解决这些问题,他们推出了首个为视频扩散模型量身定制的PTQ策略——QVD。具体来说,他们提出了专为时间特征设计的高时间可辨别性量化(HTDQ)方法,该方法保留了量化特征的高可辨别性,为所有视频帧提供精确的时间指导。此外,他们还提出了散射信道范围整合(SCRI)方法,旨在提高各个信道量化水平的覆盖率。各种模型、数据集的实验验证证明了QVD在各种指标方面的有效性。特别是,QVD在W8A8上实现了近乎无损的性能降低,在FVD方面比现有方法高出205.12。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号