Adobe团队:如何实现长视频生成?
这项由Adobe Research联合全球32个顶尖研究机构共同完成的重磅研究,发表于2025年7月的arXiv预印本平台,论文编号为arXiv:2507.07202v1。研究团队汇集了来自Adobe Research、沙特阿拉伯科技大学(KAUST)、俄勒冈大学、南加州大学、弗吉尼亚理工学院、德克萨斯农工大学、马里兰大学、奥本大学、北卡罗来纳大学教堂山分校等众多知名机构的顶尖学者。有兴趣深入了解的读者可以通过论文标题"A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality"在arXiv平台搜索获取完整论文。
当你打开手机刷短视频时,有没有想过为什么那些AI生成的视频总是只有短短几秒钟?为什么不能像电影那样讲述一个完整的故事?这个看似简单的问题,实际上触及了当前人工智能领域最前沿的技术挑战。
目前市面上最先进的AI视频生成技术,即使是被誉为"神器"的那些模型,也只能生成5到16秒的短片段。更让人头疼的是,一旦视频时长超过16秒,就会出现各种"翻车"现象:主角的脸突然变了,场景莫名其妙地切换,或者整个画面开始"抽风"。这就像是一个讲故事的人,讲着讲着突然失忆了,前后情节完全对不上号。
面对这个技术难题,Adobe Research领导的国际研究团队决定来一次"大起底"。他们花费了大量时间,深入研究了32篇相关论文,试图找出破解长视频生成难题的关键所在。这不是一次普通的文献回顾,而是一次真正的"技术考古"——他们要挖掘出那些隐藏在复杂算法背后的核心秘密。
研究团队发现,长视频生成面临的挑战就像是在玩一个极其复杂的拼图游戏。每一帧画面都是一块拼图,而AI需要确保这些拼图不仅单独看起来完美,拼接在一起后还要构成一个连贯的故事。问题在于,当拼图块数量从几十块增加到几千块时,整个游戏的难度呈指数级上升。
更有趣的是,研究团队还发现了一个令人意外的现象:那些声称能生成150秒长视频的模型,虽然在时长上实现了突破,但生成的内容往往存在大量重复帧,就像是一台卡顿的录像机,同一个画面反复播放。这种"虚假繁荣"让人们意识到,真正的长视频生成不仅仅是时间的延长,更是质量的保证。
在商业数据集方面,研究团队揭示了一个鲜为人知的现状:几乎所有可商用的高质量视频数据集都需要昂贵的商业许可证。像MovieBench、Koala-36M、CelebV-HQ这样的顶级数据集,普通研究者根本无法获取,这就像是想学做菜,但最好的食材都被锁在高级会员制的超市里。
这项研究的价值不仅在于全面梳理了当前技术现状,更重要的是为未来的发展指明了方向。研究团队构建了一个全新的分类体系,将现有的长视频生成方法分为六大类:关键帧到视频、离散时间块、高压缩、扁平化3D时空、令牌流自回归,以及闭源方案。每种方法都有其独特的优势和局限性,就像不同的烹饪方法适合制作不同类型的菜肴。
一、技术路线大揭秘:六种流派各显神通
在深入研究了众多技术方案后,研究团队发现当前的长视频生成技术可以分为六大流派,每个流派都有自己独特的"武功秘籍"。
关键帧到视频流派采用的是"分而治之"的策略。这种方法就像制作动画片一样,先画出关键的几个画面,然后让AI来填补中间的过渡动画。StoryDiffusion这样的代表性模型会首先将用户的文本描述分解成若干个子情节,为每个子情节生成一张关键帧图片,然后使用专门的运动预测模块来生成这些关键帧之间的过渡动画。这种方法的好处是可以确保整个视频在语义上保持连贯,但缺点是需要两个独立的模型协作,增加了系统的复杂性和延迟。
离散时间块流派则像是在组装乐高积木。MAGI-1等模型将长视频切分成固定长度的小段(比如24帧一段),每段独立生成,最后拼接成完整视频。这种方法的优势在于能够显著降低GPU内存需求,支持并行处理多个片段,但挑战在于如何处理片段边界处的衔接问题,避免出现明显的"拼接痕迹"。
高压缩流派走的是"以空间换时间"的路线。LTX-Video等模型使用了一种名为VideoVAE的压缩技术,能将视频压缩192倍,大幅减少需要处理的数据量。这就像是将一部高清电影压缩成几兆的文件,虽然处理速度大大提升,但不可避免地会损失一些细节信息,特别是在快速运动的场景中可能出现模糊或伪影。
扁平化3D时空流派是目前最主流的技术路线。这类方法将整个视频看作一个巨大的3D数据块,在一次前向传播中生成完整视频。HunyuanVideo、WAN2.1等知名模型都采用这种架构。虽然这种方法能确保最佳的帧间连贯性,但对计算资源的需求极其巨大,限制了能生成的视频长度和分辨率。
在扁平化3D时空流派内部,又进一步细分为四个子类别。基础型模型专注于建立核心的时空建模能力,单主体个性化模型能够根据用户提供的参考图像生成特定角色的视频,多主体个性化模型可以在同一个视频中处理多个不同的角色,而多镜头叙事规划模型则能够像电影导演一样,自动规划不同镜头之间的转换。
令牌流自回归流派采用了类似语言模型的技术思路。VideoPoet和Loong等模型将视频转换成一串"视频单词",然后像写文章一样逐个预测下一个"单词"。这种方法的灵活性很高,但在长序列生成时容易出现误差累积,导致视频质量逐渐下降。
最后一个流派是闭源方案,包括谷歌的Veo3、OpenAI的Sora、字节跳动的Seedance等商业产品。这些模型在性能上往往领先开源方案,但具体的技术细节对外保密,就像是武林中的绝世秘籍,只有少数人能够掌握。
二、架构组件深度解析:构建视频生成的"工具箱"
就像建造一栋大楼需要各种不同的建筑材料和工具一样,构建一个优秀的长视频生成模型也需要精心选择和组合各种技术组件。研究团队通过对比分析,为每个关键组件提供了选择建议。
在文本视觉编码器的选择上,传统做法是将CLIP和T5两个模型组合使用,就像是让两个翻译官同时工作,一个负责理解图像,另一个负责理解文本。但最新的研究表明,使用多模态大语言模型(MLLM)可以获得更好的效果。HunyuanVideo等先进模型已经开始采用这种方案,因为MLLM能够同时处理文本和图像信息,实现更好的跨模态理解。
在训练目标的选择上,扩散模型经历了从DDPM、DDIM到流匹配(Flow Matching)的演进过程。研究团队特别推荐了一种名为MeanFlow的新方法,这种方法就像是学习一个"平均运动规律",而不是试图精确预测每一个瞬间的变化。实验结果显示,MeanFlow在Kinetics-400数据集上的FVD得分达到128,显著优于传统流匹配方法的142,同时推理速度提升了4倍。
变分自编码器(VAE)是视频生成模型的"压缩专家"。研究团队发现,3D VAE是目前最有效的选择,因为它能够同时处理空间和时间维度的信息压缩。更有趣的是,一些最新的模型开始采用双VAE架构,分别处理静态外观和动态运动信息,这种分工合作的方式能够显著提升处理效率。
在注意力机制设计上,早期的方法直接将2D UNet扩展为3D UNet,但这种简单粗暴的做法往往效果有限。新一代模型采用了更加精巧的设计:空间层负责处理每一帧内的信息,时间层负责连接不同帧之间的关系。Seedance等顶级模型还引入了窗口化注意力机制,将帧序列分割成小窗口进行处理,在保证效果的同时大幅提升了计算效率。
位置编码看似是一个技术细节,但实际上对模型性能有着重要影响。传统的正弦位置编码已经逐渐被3D旋转位置编码(3D RoPE)所替代。这种新的编码方式能够更好地表示3D空间中的位置关系,特别是在处理相机运动和物体旋转时表现出色。Seedance还进一步发明了多模态RoPE(MM-RoPE),专门用于处理文本和视频的联合编码。
主干网络架构方面,Transformer已经全面超越了传统的UNet。研究团队特别推荐了MM-DiT(多模态扩散Transformer)和Flux-MM-DiT两种架构。MM-DiT采用双流设计,分别处理文本和视频信息,然后通过交叉注意力机制实现融合。Flux-MM-DiT则进一步引入了整流流残差模块,能够实现一步采样,大幅减少推理时间。
提示词增强是一个容易被忽视但非常重要的环节。用户输入的提示词往往简短且模糊,而训练数据中的描述通常详细而丰富,这种分布差异会严重影响生成效果。先进的模型会使用大语言模型对用户输入进行扩展和重写,将"一个人在跑步"这样的简单描述扩展成"一位身穿蓝色运动装的年轻男子,在阳光明媚的公园小径上轻松慢跑,背景中有绿树成荫,微风轻拂"这样的详细描述。
故事代理(Story Agent)是长视频生成中的"导演"角色。它负责将用户的故事想法分解成具体的场景和镜头,确保整个视频在叙事上的连贯性。这个组件会考虑角色一致性、场景转换、镜头衔接等电影制作中的各种要素,就像一个专业的电影导演在规划每一个镜头。
三、数据集现状与评估挑战:巧妇难为无米之炊
在视频生成领域,数据就是"原材料",而目前这个领域正面临着严重的"原材料短缺"问题。研究团队的调查显示,几乎所有高质量的视频数据集都存在商业使用限制,这就像是想学习厨艺,但所有优质食材都需要昂贵的会员资格才能获取。
网络规模的数据集如Koala-36M、WebVid-10M、Panda-70M等,虽然包含了超过2.5亿个视频片段,但由于来源复杂,标注质量参差不齐,而且大多数都有严格的商业使用限制。这些数据集就像是从网上随机收集的菜谱,虽然数量庞大,但质量难以保证,有些甚至是错误的。
高清人物中心数据集如CelebV-HQ、OpenHumanVid等提供了更好的质量控制,包含了人脸跟踪、骨骼关键点、相机运动标签等详细信息。然而,这些数据集中的大多数视频时长都在20秒以内,对于长视频训练来说仍然不够。
最有前景的是一些新兴的结构化数据集。MiraData提供1-2分钟的视频序列,配有详细的结构化描述,涵盖物体、动作、风格和相机运动等各个方面。MovieBench更是开创性地提供了电影级别的分层标注,包括电影、场景、镜头三个层次,强调角色一致性和多场景叙事能力。这些数据集就像是专业厨师精心编写的食谱,不仅提供了详细的制作步骤,还包含了各种细节和技巧。
在评估方法方面,传统的图像评估指标如FID、SSIM等已经无法满足视频评估的需求。这些指标就像是用测量照片质量的标准来评价电影,显然是不合适的。视频评估需要考虑时间连贯性、运动平滑性、角色一致性等多个维度。
VBench评估体系的出现填补了这个空白。这个评估框架将"视频生成质量"分解为多个细粒度维度,包括视觉质量、运动平滑性、身份一致性、时间闪烁、空间关系和文本-视频相关性等。每个维度都有专门设计的测试集和人类偏好验证,就像是为视频质量建立了一套完整的"体检标准"。
研究团队还发现了一个有趣的现象:许多声称性能优秀的模型在单一指标上确实表现出色,但在综合评估中却暴露出明显短板。这就像是一个在某项考试中得高分的学生,在综合素质评价中却表现平平。这种现象提醒研究者,单纯追求某个指标的优化可能导致模型在其他方面的退化。
四、技术趋势与未来展望:长视频生成的明天
通过对32篇相关论文的深入分析,研究团队总结出了当前长视频生成领域的几个重要趋势,这些趋势就像是技术发展的"风向标",指引着未来的研究方向。
首先是架构选择的趋势。MM-DiT和Flux-MM-DiT已经成为新一代模型的标准配置,传统的UNet架构正在被逐步淘汰。这种转变就像是从马车时代进入汽车时代,不仅是技术的升级,更是整个范式的转换。双流设计允许模型分别处理文本和视频信息,然后通过精心设计的交叉注意力机制实现深度融合,这种架构在处理复杂多模态信息时展现出明显优势。
训练目标方面,流匹配已经基本取代了传统的DDIM和DDPM方法,成为主流选择。而MeanFlow这种新兴方法更是展现出巨大潜力,不仅在生成质量上有所提升,更重要的是大幅减少了推理时间。这种发展趋势表明,未来的研究将更加注重效率和质量的平衡。
在文本编码方面,多模态大语言模型正在逐步替代传统的T5编码器。这种变化反映了整个AI领域的大趋势,即从专用模型向通用模型的转变。MLLM不仅能更好地理解文本语义,还能处理多模态信息,为视频生成提供更丰富的语义指导。
位置编码技术也在快速演进。3D RoPE已经成为标准配置,而MM-RoPE这种多模态位置编码技术更是代表了未来的发展方向。这些技术创新看似微小,但对模型性能的提升却是显著的,特别是在处理长序列和复杂空间关系时。
然而,当前技术仍面临诸多挑战。计算资源需求仍然是最大的瓶颈,限制了模型规模和视频长度的进一步扩展。开源长视频数据集的匮乏严重制约了研究进展,现有数据集缺乏关键元数据如相机运动、角色关系等信息。时间连贯性问题依然存在,特别是在长序列中,帧与帧之间的连续性容易出现断裂。多主体建模仍然困难,在涉及多个角色的场景中,身份一致性和交互真实性都面临挑战。
针对这些挑战,研究团队提出了一系列解决方案。在数据方面,他们呼吁构建更多开源长视频数据集,并建立包含叙事段落、电影技法、角色属性和交互图谱四个关键维度的分层元数据标注体系。在技术方面,他们建议通过量化和剪枝技术来降低计算资源需求,使用模型蒸馏从大模型中学习经验,集成提示词增强模块来改善生成质量。
在应用层面,研究团队建议将提示词分解为故事叙述和具体场景两个层次,使用多适配器架构来保持角色一致性,在时空注意力中重复参考图像信息来增强身份记忆。这些建议虽然看似技术性很强,但实际上都是为了解决用户在实际使用中遇到的具体问题。
研究团队还指出了几个值得关注的新兴方向。首先是故事驱动的视频生成,这种方法不仅生成视频内容,还要确保叙事的连贯性和逻辑性。其次是交互式视频编辑,允许用户在生成过程中实时调整和修改内容。第三是跨模态条件生成,不仅支持文本输入,还能结合音频、草图等多种输入形式。
从长远来看,长视频生成技术的发展将深刻改变内容创作的方式。教育领域可能出现个性化的教学视频,营销行业能够快速制作定制化的宣传内容,娱乐产业可能迎来新的创作模式。但同时,这些技术也带来了新的挑战,包括版权保护、内容真实性验证、伦理和法律问题等。
研究团队强调,虽然闭源商业模型在性能上仍然领先,但开源社区的快速发展令人鼓舞。像HunyuanVideo、WAN2.1这样的开源模型已经能够生成相当高质量的视频内容,随着技术的不断进步和数据集的不断完善,开源方案有望在不久的将来实现对商业模型的追赶甚至超越。
说到底,这项研究为我们描绘了长视频生成技术的全景图,既展示了当前的技术成就,也指出了未来的发展方向。虽然距离真正成熟的长视频生成技术还有一段路要走,但研究团队的工作为这个领域提供了宝贵的指导和参考。对于普通用户来说,这意味着在不久的将来,我们可能真的能够仅通过简单的文字描述,就生成出电影级别的长视频内容,这将彻底改变我们创作和消费视频内容的方式。
当然,技术的发展永远不是一帆风顺的,长视频生成领域也不例外。但正如这项研究所展示的,通过系统性的分析、合理的架构设计和不断的技术创新,我们正在逐步接近这个看似遥不可及的目标。对于那些对AI技术发展感兴趣的读者,有兴趣深入了解的可以通过论文标题"A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality"在arXiv平台搜索获取完整论文,相信会从中获得更多深入的技术洞察。
Q&A
Q1:当前AI视频生成为什么只能做几秒钟的短视频? A:主要面临三个核心挑战:计算资源限制、时间连贯性维护困难,以及高质量训练数据不足。就像拼一个巨大拼图,片段越多,保持整体协调性的难度呈指数级增长。超过16秒后,角色容易变形,场景会突然切换,画面开始"抽风"。
Q2:长视频生成技术什么时候能够普及应用? A:根据研究趋势,预计2-3年内会有重大突破。目前像HunyuanVideo、Seedance等模型已经能生成相对稳定的长视频,但距离电影级别的质量还需要解决计算效率、数据集质量和多角色一致性等关键问题。开源方案正在快速追赶商业模型。
Q3:普通人将来能用这种技术做什么? A:未来可以通过简单文字描述制作个人电影、教学视频、营销内容等。想象一下,只需输入"一个关于太空探险的5分钟科幻故事",AI就能生成完整的电影级视频。这将彻底改变内容创作方式,让每个人都能成为"导演"。
做短视频,这些拍摄技巧,可以直接用在即梦图生视频
运镜是通过镜头的移动、角度变化或变焦,让画面更具动感和叙事性的拍摄手法。结合山水场景的自然特性(壮阔、层次、灵动等),以下是具体的运镜方式及适合山水的拍摄技巧:
一、常见的运镜方式
1. 推镜:镜头从远到近向主体推进(或通过变焦实现“假推”),突出主体细节,增强画面代入感。
2. 拉镜:镜头从近到远向后拉开,逐渐展现主体所处的环境,适合从局部扩展到全景。
3. 摇镜:镜头固定在支点上(如三脚架),左右/上下转动,展现横向或纵向的广阔场景(如连绵山脉、峡谷纵深)。
4. 移镜:镜头沿水平方向移动(如滑轨、手持平移),横向展现开阔画面(如湖面、梯田、群山横向排列)。
5. 跟镜:镜头跟随移动主体(如流水、飞鸟、行船)同步运动,突出动态感(如山间溪流、云雾流动)。
6. 升镜/降镜:镜头垂直上升或下降(如无人机升空、手持抬升),展现“从地面到天空”或“从高空到谷底”的空间层次。
7. 环绕镜:镜头围绕主体(如孤峰、瀑布)做圆周运动,突出主体的立体感和环境包围感。
8. 手持运镜:通过手持设备(手机/相机)小幅度晃动,模拟人眼视角的自然晃动,增强临场感(如徒步时拍山间小径)。
9. 变焦运镜:通过镜头焦距变化(如从广角变长焦),压缩或拉伸空间(如从远景山峰“拉近”到山顶的树木)。
二、适合山水的拍摄技巧
山水的核心是“壮阔感、层次感、灵动感”,运镜需围绕这三点设计,结合环境细节(如云雾、植被、水流)增强画面张力:
1. 用“摇镜+广角”展现山水的连绵与纵深
• 场景:拍摄横向延展的山脉、峡谷两侧的峭壁、湖面倒映的远山。
• 技巧:用广角镜头(手机0.5x或相机16-35mm),三脚架固定镜头,缓慢左右摇镜(速度均匀,避免卡顿),让画面容纳更多横向元素;若拍垂直纵深(如悬崖、瀑布),可上下摇镜,从山脚摇至山顶,突出“高耸感”。
• 加分项:摇镜时纳入前景(如岩石、树木),利用前景与远景的虚实对比,增强空间层次。
2. 用“升镜+长焦”突出山势的雄伟与压迫感
• 场景:拍摄孤立山峰、雪山、陡峭山脊。
• 技巧:无人机从山脚低空缓慢升空(或手持稳定器向上抬升),搭配长焦镜头(手机2x以上或相机70-200mm),聚焦山峰顶部,升镜过程中让山峰逐渐“填满”画面,利用长焦压缩背景,让山峰显得更“近”更“高”;若有云雾环绕,升镜时穿过云层,露出山峰顶部,瞬间强化“刺破云端”的冲击力。
3. 用“移镜+中景”捕捉山水的细节与韵律
• 场景:拍摄山间溪流、梯田曲线、竹林掩映的山路。
• 技巧:沿水流/山路方向横向移动镜头(稳定器或滑轨辅助),速度与水流速度匹配(水流快则移速稍快,体现灵动;水流缓则移速慢,体现静谧);镜头高度贴近地面(约1米),让前景的石子、水草清晰,中景的水流/山路延伸,远景的山峦虚化,形成“近实远虚”的层次感。
4. 用“推镜+黄金时刻”聚焦山水的光影变化
• 场景:日出/日落时的山峰、被阳光照亮的峡谷。
• 技巧:选侧光角度(阳光从山水侧面照射,形成明暗交界线),从远景全景缓慢推镜(速度均匀,3-5秒完成),最终聚焦在光影最明显的区域(如山顶的金边、峡谷的光斑);推镜终点落在“明暗交界处”,利用光影对比突出山水的轮廓感。
5. 用“跟镜+慢动作”展现水流的灵动感
• 场景:山间小溪、瀑布、湖面波纹。
• 技巧:镜头跟随水流方向移动(与水流同速),手机开启慢动作模式(120fps以上),聚焦水流的细节(如浪花、水纹、石头碰撞的水花);跟镜时略向下倾斜镜头(约15°),让水流“向画面下方流动”,符合视觉习惯,避免眩晕。
6. 用“环绕镜+云雾”增强山水的神秘感
• 场景:被云雾笼罩的山峰、山间盆地。
• 技巧:无人机围绕山峰做圆周运动(高度略低于山顶,距离山峰50-100米),速度缓慢(一圈10-15秒),让云雾在镜头中“流动”,山峰轮廓时隐时现;若用手持稳定器,可围绕一棵近景树环绕,让树作为固定参照,远景山峰随环绕逐渐变换角度,形成“移步换景”的效果。
7. 用“拉镜+延时”记录山水的时空变化
• 场景:云海流动、日出时的光线扩散、湖面波光变化。
• 技巧:固定镜头(三脚架),先聚焦近景细节(如湖边的芦苇、山岩的纹理),开启延时摄影(间隔1-3秒),同时缓慢拉镜(手动或电动滑轨),从近景拉至远景,最终展现“细节→全景→光影变化”的完整过程;适合表现“从微观到宏观”的时间流逝感(如从一朵云拉到整片云海覆盖山脉)。
关键原则:“慢”与“稳”
山水画面的核心是“静中带动”,运镜速度不宜过快(除非拍动态水流),避免画面杂乱;优先用稳定器/三脚架保证画面平稳,尤其长焦或低角度拍摄时,轻微晃动都会放大瑕疵。结合自然光线(黄金时刻、阴天柔光)和环境元素(云雾、植被),让运镜服务于“展现山水本身的美”,而非单纯炫技。
#夏日生活打卡季#
相关问答
自媒体人如何用手机制作炫酷的短视频?
这个问题在悟空问答上也是第二次回答,希望能帮助到你。我给你推荐几个编辑软件:手机视频编辑软件☞乐秀视频编辑,cuteCUT,快影,巧影。电脑视频编辑☞爱剪辑...
手机快手肿么制作长视频-ZOL问答
制作长视频需要经过以下步骤:1.准备素材:收集要用到的图片、视频片段等素材,并将它们导入到手机上。2.打开快手APP并点击“创作”按钮,选择“影集”。3.选...
用手机可以拍短视频吗,如何拍摄,剧本都是如何制作呢?
对于新手不要要求太高,不然你什么也拍不出来!手机横着拍,不要抖动,剧本自己写作文类型就行,你自己能看懂,演员台词能看清楚就行了,因为你是导演!在练习中...对于...
华为手机短视频怎么剪辑制作的-ZOL问答
华为手机自带了一个名为“短视频”的剪辑制作工具,可以让你轻松地剪辑和编辑视频。下面是使用华为手机短视频进行剪辑制作的简单步骤:1.打开华为手机的“短视...
手机上什么软件可以制作热门短视频?
1美册短视频专区的功能,可以用来加工抖音热门,这里拿三种类型的视频举例,带大家了解一下智能化的制作流程。右侧这种文字转来转去的视频,素材很容易找,很多...1...
怎么用手机把几个单独的短视频做成一个连贯的视频?
就个人来讲的话,用爱剪辑手机版本如图:打开此APP:里面会有“视频拼接”这一功能,你可以把不同的视频经过剪辑后拼接在一起,非常的方便和好用。希望我的回...就...
手机直播放短视频怎么弄?
手机直播放短视频的话,首先一定要打开自己直播的页面,然后选择链接,你自己拍视频的一些段子,短视频连接上去之后就可以播放了手机直播放短视频的话,首先一定...
手机制作动画短视频的APP软件都有哪些?最好是不需要付费且简单易上手的,跪求各位,急?
你好,很高兴回答你的关于制作动画短视频的APP有哪些的问题针对你的问题,我做如下两点回答1.目前我用的最好用的短视频剪辑软件是抖音官方剪辑软件,剪映APP,里...
把手机里的照片做成短视频约5分钟,要用什么手机软件-韩小...
短视频软件很多,但是目前依然用微视就是因为简单易用,歌词字幕录着视频就可以看到歌词照片卡点和视频模板都可以根据原有样片来直接拍简单易用平时...
有没有哪些简单易学的手机修图软件推荐,最好是可以做成短视频的那种?
小影,快影,巧影这三款都可以!小影,快影,巧影这三款都可以!
