大模型新突破:从教学视频中提炼高质量多模态教科书
创作时间:
作者:
@小白创作中心
大模型新突破:从教学视频中提炼高质量多模态教科书
引用
AIbase
1.
https://www.aibase.com/zh/news/14863
近日,浙江大学与阿里巴巴达摩院联合发布了一项引人瞩目的研究,旨在通过教学视频创建高质量的多模态教科书。这一创新的研究成果不仅为大规模语言模型(VLMs)的训练提供了新的思路,也可能改变教育资源的利用方式。
随着人工智能技术的迅猛发展,VLMs 的预训练语料主要依赖图文对数据与图文交织语料。然而,当前的这些数据多来自网页,文本与图像的关联性较弱,知识密度也相对较低,无法有效支持复杂的视觉推理。
为了应对这一挑战,研究团队决定从互联网上海量的教学视频中提炼高质量的知识语料。他们收集了超过15.9万个教学视频,经过精细的过滤和处理,最终保留了75,000个高质量视频,涵盖数学、物理、化学等多个学科,总时长超过22,000小时。
研究者们设计了一条复杂的 “视频到教科书” 处理管道。首先,使用自动语音识别(ASR)技术将视频中的讲解内容转录为文本,接着通过图像分析和文字匹配,筛选出与知识点高度相关的片段。最终,这些处理过的关键帧、OCR 文本和转录文本被交错组织,形成了一个内容丰富、结构严谨的多模态教科书。
这一研究的初步结果显示,与以往的网页中心数据集相比,新生成的教科书数据集在知识密度和图像关联性上显著提升,为 VLMs 的学习提供了更为坚实的基础。此外,研究还引起了学术界的广泛关注,相关数据集在 Hugging Face 平台上迅速攀升至热门榜单,短短两周内下载量便超过7000次。
通过这一创新的尝试,研究者们希望不仅能推动 VLMs 的发展,更能在教育资源的整合与应用上开启新的可能性。
热门推荐
投影仪投射效果不佳怎么办?如何调整投影在墙布上的效果?
电厂特殊工种的职场生活与发展前景探究
柠檬鸡脚烹饪技巧解析
故尧、禹有九年之水,汤有七年之旱,而国亡捐瘠者,以畜积多而备先具也。
磁控溅射技术:薄膜制备的精密工艺
2024上半年Steam市场观察:恐怖、SOC类型最受欢迎,游戏首月表现决定成败
电脑散热扇不挡内存怎么办?如何优化散热?
江、河、湖、海、潭、渊、沟、池、溪、涧有什么区别?答案来了
《巫师3狂猎》隐藏彩蛋攻略:10个游戏彩蛋触发方法详解
见证最极端的动物生存适应能力
中欧班列相较于传统海运的优势有哪些?(国际物流干货知识分享)
Type-C耳机插上手机没反应怎么办?一文详解故障排查方法
冬天室内花卉养护指南:从选择到养护的全方位技巧
人社部公布储能电站运维管理员等19个新职业 年轻人正在占领绿色职业高地
圆形黑色十字星纹身图案的深层含义
爆仓是什么?如何避免爆仓?
单招都有什么流程 具体步骤是怎样的
电脑打开后显示器不亮怎么解决?详细解决方案教程
如何开发一个探测周边Airtag的Antitag设备
玛丽:含义,起源和文化意义
浏览器中意外删除的历史记录如何快速恢复?
有一种疼痛叫“妈妈手”,按摩这几个穴位能缓解!
如何构建电商运营团队的组织架构及明确各岗位分工?
如何正确给萨摩耶洗澡:15个步骤与注意事项
周易火天大有卦详解
异地二手车过户换本地牌照流程及配偶过世车辆过户指南
赣鄱师韵:领略这些江西籍大师的风采!向他们致敬!
跨年度暂估成本多估怎么处理
“我总是用食物来安慰自己的悲伤”:情绪化进食如何解?
迟春花教授:推动慢性呼吸系统疾病的早筛早诊,加速提升基层慢性呼吸系统疾病防治水平