大模型新突破:从教学视频中提炼高质量多模态教科书
创作时间:
作者:
@小白创作中心
大模型新突破:从教学视频中提炼高质量多模态教科书
引用
AIbase
1.
https://www.aibase.com/zh/news/14863
近日,浙江大学与阿里巴巴达摩院联合发布了一项引人瞩目的研究,旨在通过教学视频创建高质量的多模态教科书。这一创新的研究成果不仅为大规模语言模型(VLMs)的训练提供了新的思路,也可能改变教育资源的利用方式。
随着人工智能技术的迅猛发展,VLMs 的预训练语料主要依赖图文对数据与图文交织语料。然而,当前的这些数据多来自网页,文本与图像的关联性较弱,知识密度也相对较低,无法有效支持复杂的视觉推理。
为了应对这一挑战,研究团队决定从互联网上海量的教学视频中提炼高质量的知识语料。他们收集了超过15.9万个教学视频,经过精细的过滤和处理,最终保留了75,000个高质量视频,涵盖数学、物理、化学等多个学科,总时长超过22,000小时。
研究者们设计了一条复杂的 “视频到教科书” 处理管道。首先,使用自动语音识别(ASR)技术将视频中的讲解内容转录为文本,接着通过图像分析和文字匹配,筛选出与知识点高度相关的片段。最终,这些处理过的关键帧、OCR 文本和转录文本被交错组织,形成了一个内容丰富、结构严谨的多模态教科书。
这一研究的初步结果显示,与以往的网页中心数据集相比,新生成的教科书数据集在知识密度和图像关联性上显著提升,为 VLMs 的学习提供了更为坚实的基础。此外,研究还引起了学术界的广泛关注,相关数据集在 Hugging Face 平台上迅速攀升至热门榜单,短短两周内下载量便超过7000次。
通过这一创新的尝试,研究者们希望不仅能推动 VLMs 的发展,更能在教育资源的整合与应用上开启新的可能性。
热门推荐
像海明威一样写作。 11种模仿方法
完美世界手游境界等级划分详解:从下界到仙界的完整攻略
如何监督和评估行车安全操作规程的执行情况?
世界卫生组织发文:长期吃味精,对身体没有伤害
揭秘味精的真相:主要成分与健康影响全解析
银行柜面业务系统优化能带来哪些显著变化?
对联贴法顺序左右:详解传统习俗与现代规范
书圣集字对联,吉星高照、财源滚滚
澳大利亚理科专业大学排名及热门专业推荐
头两边白发多怎样调理
白头发怎么可以改善小妙招
吴三桂是天生的叛将?还是识时务的俊杰?还是乱世之中的墙头草?
2025在职考研复试流程全攻略,一篇通吃,惊呆了吧!
插座开关距离地面多高:家居安全与便捷的平衡点
心脏部位出现黑痣是什么原因
口腔里爱搞事的智慧之齿,拔了就会变笨?听牙医说真相
钾在人体的作用有哪些
土地使用权出让类型:法律规定与实践分析
春分祭先师 礼乐颂传承——郑州文庙举办春分祭孔活动
火山图:生物信息学中的数据可视化利器
防火墙的主要功能是什么?防火墙是用来防什么的?
集成电路制造中的划片工艺介绍
心理资讯:我国飞行员选拔重视心理素质调查
那个滞留太空的女宇航员就要回来了
汤圆的“前世今生”:一颗糯米的千年奇幻漂流
利用Openwrt实现4G/5G共享上网
激战3年零32天,朝鲜战争:中美伤亡多少人?各回国多少人?
如何保存用户登录状态
怎样有效预防汽车自燃?预防汽车自燃有哪些措施?
适合北京种的爬藤植物