大模型新突破:从教学视频中提炼高质量多模态教科书
创作时间:
作者:
@小白创作中心
大模型新突破:从教学视频中提炼高质量多模态教科书
引用
AIbase
1.
https://www.aibase.com/zh/news/14863
近日,浙江大学与阿里巴巴达摩院联合发布了一项引人瞩目的研究,旨在通过教学视频创建高质量的多模态教科书。这一创新的研究成果不仅为大规模语言模型(VLMs)的训练提供了新的思路,也可能改变教育资源的利用方式。
随着人工智能技术的迅猛发展,VLMs 的预训练语料主要依赖图文对数据与图文交织语料。然而,当前的这些数据多来自网页,文本与图像的关联性较弱,知识密度也相对较低,无法有效支持复杂的视觉推理。
为了应对这一挑战,研究团队决定从互联网上海量的教学视频中提炼高质量的知识语料。他们收集了超过15.9万个教学视频,经过精细的过滤和处理,最终保留了75,000个高质量视频,涵盖数学、物理、化学等多个学科,总时长超过22,000小时。
研究者们设计了一条复杂的 “视频到教科书” 处理管道。首先,使用自动语音识别(ASR)技术将视频中的讲解内容转录为文本,接着通过图像分析和文字匹配,筛选出与知识点高度相关的片段。最终,这些处理过的关键帧、OCR 文本和转录文本被交错组织,形成了一个内容丰富、结构严谨的多模态教科书。
这一研究的初步结果显示,与以往的网页中心数据集相比,新生成的教科书数据集在知识密度和图像关联性上显著提升,为 VLMs 的学习提供了更为坚实的基础。此外,研究还引起了学术界的广泛关注,相关数据集在 Hugging Face 平台上迅速攀升至热门榜单,短短两周内下载量便超过7000次。
通过这一创新的尝试,研究者们希望不仅能推动 VLMs 的发展,更能在教育资源的整合与应用上开启新的可能性。
热门推荐
工伤事故赔偿责任认定指南
遭遇威胁怎么办?立案流程与应对指南
心理自卑与犯罪行为的关系研究
计算机网络:网络层 —— IP 多播技术
计算机网络:网络层 —— IP 多播技术
豆蔻的10大健康益处
学会拒绝的艺术,坚守自我边界,不让无理要求成为生活的常态
职业与业余的区别
驾驶证的处罚有哪些
肌本百颜:维生素C真的能美白抗衰老吗?
被辞退员工要开离职证明?HR必知的合规操作指南
合理安排复习时间六部曲
《易经》解卦:六种方法助你摆脱困境
2024年组织拍卖会有哪些要求?
终身禁驾有哪些情况?
深入了解香港公司审计的流程与要求
不发胖的5个饮食习惯,让饮食控制绝对不只是吃鸡胸肉和水煮餐!
农业病虫害监测预警系统:如何助力农业高质量发展?
软件测试如何设置参数
生物法壳聚糖市场需求与消费特点分析
东南大学廖望副教授课题组:揭秘壳聚糖如何成为降脂新宠儿
《大奉打更人》:七位主要女性角色,只有临安公主“可有可无”
中药饮用,是否可与茶同饮
中药饮用,是否可与茶同饮?
硬盘坏道如何检测和修复?

如何辨别副业诈骗案件:防止上当受骗
快速进入深度睡眠:专家建议六步改善睡眠质量
NBA前瞻:太阳vs火箭关键战,谁能笑到最后?
民族团结|关于民族团结,你知道多少
保护呼吸道的第一线:鼻腔的防御机制与日常护理