资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

AI视频制作实战：6步打造1分钟奥运主题短片

创作时间:

2025-01-21 21:49:07

作者:

@小白创作中心

AI视频制作实战：6步打造1分钟奥运主题短片

2024年是多模态人工智能AI技术爆发飞跃的一年，尤其是AI视频迎来了快速发展的阶段。随着今年年初Open AI 突然发布的首个文生视频大模型——Sora，AI视频在极短时间内受到了公众的广泛关注。尽管目前AI视频技术仍处于成长阶段，但国内外众多品牌和媒体已经开始积极探索AI视频的商业潜力。

我们团队自2023年下半年起便开始研究AI视频技术，认为有必要提前掌握AI视频的工作流程。因此，我们在4月初正式启动了AI视频制作计划，旨在全面梳理和实践AI视频的制作流程，积累相关经验。

本次视频以即将举行的"2024年法国巴黎奥运会"为创作主题，团队内部组建了两个视频小组，每个小组制作一支1分钟左右的AI视频短片。以下是两部视频的最终成片效果：

重点步骤详解

为了提升制作效率，我们对AI视频短片的创作流程进行了细致的梳理。经过内部反复测试以及结合AI现有的技术能力，我们认为，利用图片生视频的创作流程是目前可控性最高、效率最高，也是最切实可行的方法。整个流程可以划分为六个关键环节：撰写剧本、分镜脚本、AI生成图片、图片生成视频、后期剪辑制作以及音效处理。

1. 写脚本

首先需要围绕主题撰写剧本大纲。我们的第一支视频《巴黎奥运新视界》以呈现浪漫巴黎和奥运选手的激烈角逐，共同描绘巴黎的城市魅力与奥运的热烈氛围。第二支视频《圆梦奥运》则以国宝大熊猫为主角，同世界各地的动物们一起参赛，在奥运会上各展所长迎接盛事。

剧本是整个视频制作环节的灵魂，确立了剧本，我们就能围绕其核心思想，有序推进后续的创作工作。如果大家对于写脚本没有太大的概念，也可以通过观看优秀的电影或短片，吸收灵感，积累经验，从而提升自己的创作能力。

2. 分镜脚本

剧本大纲确立后，接下来就是围绕剧本大纲做视频的分镜脚本制作，这一阶段要求我们对脚本进行深入的解析和细化，明确每一个镜头的具体画面内容、拍摄视角以及镜头运用技巧等。为了提升专业性，我们建议大家可以储备一定的视频拍摄术语、画面与镜头感、分镜等相关技能。

分镜脚本的核心在于用文字精确描述视频中的关键视觉元素，包括人物、动作、场景等。在拍摄视角和镜头运用技巧上，我们可以通过记忆口诀“远全中近特，推拉摇移跟”来把握景别和镜头运动方式。将抽象的文字描述转化为具体的视觉图像，从而更准确地掌控画面效果。在完成分镜脚本初稿后，建议大家多做几次审阅，确保脚本的逻辑连贯性，以及画面转场的流畅性。

3. AI生图

依据分镜脚本的内容，接下来我们就可以利用AI生成所需要的图片。在图片生成工具选择上，我们依然还是使用Midjourney（以下简称MJ）。在开始前，我们首先需要明确视频的视觉风格、色调、画面构图、光影效果、景别以及画幅比例等关键要素，确认这些后，我们就可以根据分镜脚本中的描述，提炼出关键词，通过AI生成想要的图片。

当然AI生成的图像并不总是完全符合预期，我们在生成图片过程中也出现了不少问题，并且有些问题是AI多次生成都难以避免的。那么针对这一点，我们可以通过PS或者借助其他修图软件来灵活处理，以下是我们针对AI图片生成中常见问题的三种处理方法：

做加法：当AI无法精准地在图片添加所需的物体或元素时，我们可以利用PS的后期处理能力，手动添加这些缺失的元素。比如，在生成熊猫坐在看台上看比赛的图片中，AI生成不出彩屑元素，但为了增强比赛的热烈氛围，我们可以后期手动添加一些彩屑效果。
做减法：当AI生成的图片中出现多余物体或元素时，我们可以利用PS的后期处理能力，手动去除不必要的元素。比如，这张小狗打乒乓球的图片为例，可以看到图片上有多个乒乓球，我们选择想保留的一个，去除掉多余球即可。
做乘法：当AI无法精准地生成特定物体或元素时，我们可以利用后期替换上对应元素。比如，两只小猫踢足球的图片，可以发现AI生成的足球和常规足球不相符，我们就找了足球照片进行替换。

以及下图我们想生成的是中国乒乓球运动员，但中国国旗生成不出来，所以最终我们还是采用国旗图片来替代AI生成的图片，优先确保国旗以正确无误的形态呈现，我们在追求创意与技术融合的同时，也要保证对标准和细节的尊重。

通过以上这些方法，我们就能避免在AI生图过程中，因为某张图片有局部问题，导致反复生成，浪费太多时间，我们希望能用最少的时间，最小的成本，达到我们预期想要的效果。

4. 图生视频

接下来就是本次的核心环节：将图片转换成为视频。文生视频时，AI对文本的理解可能与用户预期不符，导致生成的视频内容偏离我们预期，在稳定性和质量一致性方面存在较大挑战。而图生视频则在视觉一致性和生成质量稳定性方面表现较好，技术也比较稳定。我们之所以采用先AI生成图片，再用图片生成视频的策略，核心目的是为了提高工作效率，并尽可能降低制作过程中的各种不确定性因素。具体操作上，先利用MJ生成静态画面，确认这些画面达到理想效果后，再通过图片转视频的AI技术完成视频的生成；所以想直接寻求一步到位的解决方案目前是不现实的。所以通过目前这种分步骤的方法来逐步接近想要的效果，确保画面的可控性及高质量的输出。

在图片生视频的AI工具选择上，我们经过细致考量，最终选用了3款工具：Runway、Dreamina和Pixverse，这3款工具各有特色，相比较而言Runway无论是在画面稳定性、细节表现力、运镜等方面都表现得比较好，更能满足细节镜头、特定镜头运动的精准控制需求。Dreamina擅长生成大幅度的运动效果，以及还可以通过上传首尾帧图片，让AI智能补全中间的运动轨迹。Pixverse则支持免费生成4K视频，尤其适合用在大全景、空镜等不需要精准控制的场景上，可以达到自然微动的动态效果。具体实际应用中，大家可以根据自己生成的效果灵活选用AI工具。在图片生视频的生成方式上，我们主要采用了两种方式：

通过上传一张图片直接生成视频：如下面的示例所示，通过上传一张图片就能直接生成视频，这种方法因其操作简便、效率高效，是我们最常采用的生成视频的方式。这里主要使用的工具是Runway和Pixverse。
通过上传首帧图片和尾帧图片生成视频：通过控制首尾帧图片，让AI工具来智能补全中间的运动轨迹，从而生成一段流畅的视频。这里使用的AI视频工具是Dreamina，比如下图当我们希望展示巴黎铁塔从白天到傍晚的转变时，就可以利用Dreamina来生成想要的视频效果，实现从白天到黄昏的自然过渡。

5. 剪辑制作

在视频生成阶段完成后，我们就进入了剪辑制作环节，把生成的视频素材按照分镜脚本内容通过AE软件进行剪辑制作，当然，想更轻量化完成剪辑环节也可以使用剪映，这个环节也是整个制作流程中人工参与度最多的部分，尽管每个视频的原始时长大约在3到4秒之间，但实际能够完全使用的片段仅占到总视频的24%。由此可见，AI生成的视频并非整段都能直接使用，有时由于生成中的某些问题，我们只能从中提取1到2秒的可用内容，如果单个视频的时长不足以满足剪辑需求，我们可以通过生成具有相似画面或延长画面的额外视频来补充，不过大多数情况下，现有的视频素材能够应对剪辑工作。

6. 音效

由于时间紧迫，本次视频我们使用了现成的音乐素材，没能实现AI生成音乐素材创作。尽管如此，我们依然推荐在时间充裕的情况下大家探索下AI音乐素材生成。这里也给大家推荐一款好用的AI生成音乐工具Suno，它能够根据用户对音乐的具体描述，快速生成符合预期的音乐作品。这不仅能够为我们的视频增添独特的音乐元素，也能进一步提升视频作品的艺术性和观赏性。

制作成本

目前，尽管AI技术取得了显著进步，但在视频制作领域AI的独立运作能力仍有限，还需要人工的大量参与和协作。这两个视频是我们团队利用工作的碎片时间制作完成的成果，从最初写脚本到剪辑制作六个环节到最终成片，每个视频平均花费了60多个小时。在创作过程中，我们通过MJ共生成了7600多张图片，并经过严格筛选，最终选用了97张图片，这些图片生成了450多个视频，再经过进一步的筛选，我们最终选用了86个视频用于最终的视频呈现。虽然整个制作过程比预期的要长，但考虑到这是我们的首次尝试，团队需要时间来磨合和适应。

尽管AI视频在生成方面取得了显著进步，但在处理复杂动作和达到完美效果方面，仍有很大的提升空间，再加上当下AI生成的视频时长仅有4秒钟，AI视频目前还无法完全满足我们的更多的诉求和期望，虽然这次的视频制作还未完全达到我们心目中的理想效果，还有很多优化空间。但我们仍然坚信，AI视频无论是在技术突破上，还是应用拓展和其他技术的融合等方面在未来都会有很大的发展前景，在更先进的AI视频新技术到来之前，提前掌握AI视频的工作流程是十分有必要的。

作为我们团队制作的首个AI视频，通过这次实践，我们已经走通并掌握了整个AI视频的制作流程，并积累了宝贵的经验，提前储备了AI视频的制作能力，能为之后AI视频实践奠定基础。我们坚信，随着AI视频技术的不断进步和我们团队经验的持续积累，我们能够制作出更高质量的AI视频，满足更广泛的商业需求，推动团队业务的持续发展。

本文原文来自站酷