问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

MatchTime | 当LLM开始做足球解说:关于多模态模型在体育领域的应用

创作时间:
作者:
@小白创作中心

MatchTime | 当LLM开始做足球解说:关于多模态模型在体育领域的应用

引用
CSDN
1.
https://blog.csdn.net/qq_27590277/article/details/142502085

MatchTime项目致力于解决足球领域视频理解的两大问题:时间戳对齐和比赛期间的解说生成。通过构建精准的足球比赛解说生成基准测试集SN-Caption-test-align,以及提出多模态时序对齐流水线,该项目成功生成了高质量的足球解说数据集MatchTime。基于此数据集,研究团队开发了多模态足球解说模型MatchVoice,实现了对足球比赛的精准解说生成,达到了该领域的最新技术水平。

主题

当LLM开始做足球解说:关于多模态模型在体育领域的应用

时间

2024.9.28 20:00-21:00 周六

入群

论文:MatchTime: Towards Automatic Soccer Game Commentary Generation (EMNLP 2024)
地址https://arxiv.org/pdf/2406.18530

所有代码、数据集均已开源
代码链接:https://github.com/jyrao/MatchTime/
项目网页:https://haoningwu3639.github.io/MatchTime/
数据集:https://huggingface.co/datasets/Homie0609/MatchTime/
演示视频:https://www.bilibili.com/video/BV1L4421U76m

大纲

  1. 关于多模态视频理解(简要介绍视频方面的跨模态应用)
  2. 体育领域的人工智能(数据集、分类任务、足球理解)
  3. 论文分享:"MatchTime: Towards Automatic Soccer Game Commentary Generation"
  4. 当前工作与未来规划(足球项目进展、通用模型概想)

引言

本文围绕MatchTime英文的两种释义解决目前足球领域视频理解的两方面问题,从而实现更好的足球解说:

- 对齐时间戳
大量视频与文本的精确对应是多模态模型学习理解视频的基础。然而,观察到现有足球解说数据集中普遍存在视频文本时序不对齐问题,远无法达到训练所需的精准水平。此研究首先对部分比赛的解说时间戳进行手动标注,构建了一个精准的的足球比赛解说生成基准测试集SN-Caption-test-align。并在此基础上,提出了一个多模态时序对齐流水线,实现对现有数据集自动校正和过滤,生成高质量的足球解说数据集 MatchTime。

- 比赛期间解说
此研究提出了多模态足球解说模型 MatchVoice,在MatchTime优质数据的加持下,讲视频数据进行编码,在对部分编码器和多模态嫁接部分进行训练后,利用冻结的LLM作为解码器,实现了对足球比赛的精准解说生成。该模型利用LLM的推理能力进行轻量化模型训练,结合该研究生成的优质数据,提出了新的足球解说评述基准并实现了足球解说的state-of-the-art效果。

此研究对体育数据集构建提供了新的思路,也展现了AI体育理解领域的发展潜力。

嘉宾介绍

饶珈源,直博二年级@上海交通大学&上海人工智能实验室,导师:谢伟迪。
研究方向为计算机视觉、多模态学习,内容主要聚焦于人工智能在体育领域应用。当前所开展运动项目为足球。个人主页:http://jyrao.github.io

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号