用工具链从到制作，创作小白必看|图片用AI一键生成MV_蒸汽拖拉机

本文作者：郭小新，腾讯IEG产品经理

大家好，我是郭小新，是一个爱动手的大厂AI产品经理，也是一个怀揣导演梦的影视创作小白。是否你也曾想过，用自己独特的视角讲述一个故事，却止步于复杂的影视制作门槛？

如果你心中也有想讲述的故事，本篇文章为你分享一个全新的影视创作工作流：即使你没有专业的影视制作技能和经验，你也能通过AI工具链从0到1实现影视作品的创作。

作品展示

并意外地在社交媒体上获得了不错的反响，在没有任何推广的情况下，短短7天内就在抖音上获得185个赞，播放量更是突破了20000次！

制作流程

一. 工作流总览

影视MV制作的工作流具体如下，整体制作耗时约12个小时。

简单来说就是从有一个想法开始，到通过AI制作歌词，到使用AI创作音乐歌曲，最后使用AI制作视频，其中制作视频包括了：分镜脚本设计、虚拟歌手制作、MV动画制作，以及视频剪辑。

二. 歌词制作

1. 搭歌词框架

一首好听的歌曲是需要歌词框架，它分为很多不同层次的，例如前奏、副歌、主歌等。我通过与GPT协作，输出歌词制作的框架（具体如下），这样在后续的歌词及歌曲的生成质量更容易符合预期。

上图左侧是GPT提供的歌词撰写组件，右侧是我根据自己需要组合成的歌词生成框架

2. AI 生成歌词

这里我调试了几个prompt版本，最终引用了如下提示词进行歌词创作，其歌词生成的质量会更加符合预期，有需要的小伙伴欢迎自取。

## Role

你是一个专业的歌曲作词人

## Background

## Goals

改编一首儿歌《两只老虎》的歌词

## Skills

- 擅长歌词改编，不但可以保留原歌词的场景，还能进一步升华歌词，使其具有文学气质和波澜壮阔的意境

- 擅长说唱风格，具备扎实的说唱歌词的撰写技巧，例如二押、三押、连韵等技巧

## Output Format

请按以下的歌词结构输出创作内容

[instrumental intro][Verse 1]<歌词>[Chorus]<歌词>[Verse 2]<歌词>[Chorus]<歌词>[Bridge]<歌词>[Guitar solo][Chorus]<歌词>[Outro][End]

## Workflow

作为一个专业的歌曲作词人，请使用你的[Skills]并按照[Output Format]完成[Goals]

即使调优了提示词，GPT输出的第一个版本的歌词也只是更接近自己预期，关于如何进一步打磨提升歌词的质感，这里我参考了吴恩达老师的分享《AI Agent 四大设计模式》，并借鉴了四种范式中的反思机制。

即大模型生成的第一个版本，然后让大模型去分析给出优化意见，再让大模型修改一个版本，如此循环往复、迭代多轮，几轮过去输出的歌词就可以非常接近自己预期，最后人工可以做一些微调（如下图）。

三. 歌曲制作

1. AI音乐工具

我先对目前市场上3个比较火的AI音乐生成工具进行评测对比，最终选择使用Suno来生成歌曲。

评测结果：以下评测仅针对中文歌曲生成，通过提供相同歌词、相同曲风的设定，对这3个工具生成的音乐进行评测对比，其中Suno在中文的发音准确性远高于Udio、同时在音乐生成的创意和质量高于天工音乐。

Udio

Udio严重存在中文歌词吐字不准，歌词丢失情况

推荐系数：1颗星

天工Skymusic

天工在曲风设定上比较特殊，需要用户提供一首音乐进行参考，在音乐生成相对缺乏创意，同时存在篡改歌词的情况，但作为国产AI其中文发音是最清晰准确

推荐系数：3颗星

Suno

Suno 中文歌词吐字相对准确，虽电音较强，但歌曲情感也比较丰富细腻

推荐系数：4颗星

2. AI音乐生成

Suno的创作界面非常简单，具体如下

这里补充下关于如何撰写歌曲的曲风prompt，这里推荐使用的提示词结构模板如下，有需要的话欢迎自取。

<音乐流派（如Kpop、Heavy Metal）>、<音乐风格（如Slow、Broadway）>、<情绪（如悲伤、愤怒）>、<乐器（如钢琴、吉他）>、<主题或场景>、<人声描述（如愤怒的男声、忧伤的女声）>

最后一步生成音乐，Suno每次会生成3首音乐，如果不满意就调整曲风的提示词或者直接重新生成，Suno单次生成的音乐最长是2分钟左右，已经非常接近一首完整的歌曲。

四. 视频制作

1.分镜脚本设计

在开始进行MV制作之前，我依据歌词内容先对MV进行分镜设计，分镜脚本设计我认为这是一个非常重要的环节，它主要起到了3个作用：

1）提前规划内容：分镜脚本有助于提前规划MV的内容和结构，帮助思考如何更好地传达信息，确保MV可以具有清晰的叙述线索和流畅的视觉效果；

2）节省时间和资源：通过设计分镜脚本，可以事先决定哪些场景需要虚拟歌手，哪些场景需要AI生成画面及动画，从而在实际制作过程中大大节省时间和资源（毕竟AI制作的单位内容都是有成本的）；

3）发挥灵感和创意：在设计分镜脚本的过程中，可以尝试不同的讲述方式来呈现MV内容，这个阶段由于主要是花时间找参考、寻灵感、反复构思、不断梳理，并没有实际的制作限制，所以可以自由的想象场景和效果；

上图是我制作MV所设计的分镜脚本

我坚信，未来使用AI进行影视创作的艺术家，只需专注于分镜脚本设计去提供1%的灵感，剩下99%的汗水让AI来做。

2.虚拟歌手生成

目前市场上有3个口碑比较不错的AI工具，即通过人物照片来生成对口型的视频（目前主要用于演说场景），我尝试在演唱场景下对比其生成效果，最终我选择使用Heygen。

评测结果：以下评测仅针对演唱场景的生成效果，通过提供相同歌词、相同照片的设定，对这3个工具生成的视频进行评测对比，其中Heygen在口型匹配度上相对准确些，同时生成的人物动画效果也更加自然一些。

Heygen

口型匹配度：中偏上

动画效果：中

免费体验额度：2min

推荐系数：4颗星

奇妙元

口型匹配度：中

动画效果：中偏下

免费体验额度：1min

推荐系数：3颗星

DID

口型匹配度：下

动画效果：中

免费体验额度：2min

推荐系数：2颗星

如上都是收费工具，但均有一定的免费体验额度，另外也有一些对口型的开源工具，其中SadTalker（基于Stable Difffusion）生成的对口型视频效果应该是目前开源最强的（如下图）。

3. AI生图

MV的歌手形象以及场景画面的生成，我选择使用Midjourney。

原因比较简单：我想要的MV质感和审美，只有Midjourney可以做出来。

1）与GPT协同撰写

将对应的歌词丢入到GPT中，让GPT先理解歌词，然后让他去想象歌词所描绘的画面，并给出具体的文字描述及Midjourney的提示词，最后通过Midjourney去生成图片。（如下图案例）

2）小红书找灵感

我寻找提示词的灵感一般是在小红书，当然也有垂直社区专门分享AIGC的图片和提示词，如：ArtStation、CivitAI、Liblib。

有时遇到喜欢的图片风格，博主却没有分享提示词，一般这个时候我会把图片保存下来，然后通过chatgpt分析图片获得图片描述信息，再结合Midjourney的Sref指令，如下图案例，基本可以还原自己喜欢的图片风格。（具体如何使用，详细可见网友的MJ V6 Sref的使用技巧）

一般生成视频的场景图片，除了需要风格一致性，有时还需保持角色一致性，这里推荐使用Midjourney的Cref的指令，如下图案例，我生成了一个橘色长发、身穿水手服的女孩，然后使用Cref指令生成后续的图片，可以发现女孩无论是外表还是服装基本可以和原图保持一致。（具体如何使用，详细可见网友的MJ V6 Cref的使用技巧）

4. AI图生动画

这是整个制作中最为耗时的环节，整个MV制作耗时约12个小时，其中AI图生动画的环节耗时占50%。

为保证视频画面的风格一致性，此环节主要是采用了图生动画的方式，由于现有图生动画的时长短、可控性弱，需要较强依赖不断的抽卡，因此非常耗时！

在Sora没出来之前，我们能玩的只能是4s。在4s时代，我目前用的最多的是Runway，其次是Dreamina、Pika、Pixverse，4个工具中Runway在本MV视频制作占比达到80%。

1）可控性：工具提供的功能和选项，允许用户对视频内容进行精细调整；

2）细节保留度：在视频生成过程中，对原始素材细节的保持能力；

3）运动处理能力：工具处理视频运动和过渡时的流畅性和自然度；

Runway在如上的评估标准，表现出色的主要是在可控性以及细节保留度：

1）可控性：用户通过镜头控制和运动笔刷功能，能够实现对视频的细节进行较简单的调整；

2）细节保留度：在视频生成过程中，Runway对原始图片的细节能进行较出色的保留，从而保证图片到动画的还原；

3）运动处理：Runway在做一些小幅度的特定运动轨迹以及运镜，可以较好的处理运动的流畅性和自然度，但是在大幅度运动，Runway明显存在局限；

例如，这只抬头望向阳光的老虎，只需使用Runway的运动笔刷就能很快刷出来。而使用其他工具，无论如何调整提示词，都无法达到这样的效果，相比之下，Runway的可控性确实更强！

其他像一些小幅度的运镜、多对象的不同运动路径，其生成效果也是非常不错的

一张图片想要生成比较不错的动画效果，目前是少不了人工不断修改提示词、修改笔刷路径，反复不断的Roll，基本每张图片至少需要Roll个7-8次，这也是这个环节为啥非常耗时的原因。

Runway在生成小幅度的运动确实不错，但是让它生成一个物体大幅度的运动动画，它现在只能直接躺平。

例如，两只老虎在雪林奔跑的场景，我Roll了至少10次以上，无论怎么修改提示词和笔刷的运动轨迹，都是出不来效果。

而字节的Dreamina在大运动幅度这块，确实让我有些惊讶，同样在Dreamina去Roll上面这个画面，只是Roll了2次就能出来比较不错的效果。

当然Dreamina也有2个局限：

1）运动幅度过大，导致极难控制；

2）对特定风格的原始素材在细节保留还存在一定局限（尤其是动漫风格）；

例如，一只身上带着蓝色火焰的老虎在河道行走，无论我如何调整提示词，在Dreamina生成的视频很难保留原始素材的白虎形象及火焰特效；

5. 视频剪辑

这是最后一个环节，在音效和剪辑上，这里都是人工操作。

但是胜在剪映是个好工具，所以这个环节完成的特别快，基本只需要1个小时左右。

以上，就是我使用AI工具链从0到1制作影视MV的全流程，希望能对你有所启发。

总结

写到最后，我坚信，AI始终只是工具，它可以大大降低人类创作的门槛，但无法替代你在创作过程中涌现的灵感与创造力！

另外无论你是哪种形式的创作，无论使用的是AI还是非AI的工具，工具的本质都是为了方便人类更高效的创作。因此，不用拘泥于特定的工具包括AI，而是在成本与效益间去寻找最优解。

THE END

用工具链从到制作，创作小白必看

视频生成的场景痛点及产品功能设想（字）eanai工作流

首发imi首个多模态功能体验，一键为音乐生成，月之暗面不再只卷长文本mv歌曲周传雄kimi

ai海报智能生成工具选哪一个

用工具链从到制作，创作小白必看

制作时间从“年”缩为“周”如何重塑视频业态

大量生成音乐诞生，音乐行业正在一夜变天钛媒体

自动剪辑与文案同步生成：打造高效视频批量制作指南

视频生成

ai拍照pp排行榜华为手机ai拍照app推荐

视界

快歌app下载安装快歌写歌软件免费版官方正版下载v

又一款应用开源了，让你的绘画作品动起来！腾讯云开发者社区

作画，快来为你喜欢你的音乐制作专属吧！mv梵高小编绘画