B站开源AniSora V3动漫视频生成模型，速度提升20%支持国产生态, 一键生成番剧/VTuber/漫画动画SOTA级效果

2025-08-06 21:45:50
154

作为Index-AniSora project的重要组成部分，V3版本在原有基础上进一步优化了生成quality、动作fluency和style多样性，为动漫、漫画及VTuber内容creator提供了更强大的toolset。

AniSora支持one-click生成多种anime风格的video clips，包括番剧片段、国创动画、漫画改编、VTuber content、动画PV、鬼畜（MAD）等。

AniSoraV3基于B站开源的CogVideoX-5B和Wan2.1-14B模型，结合RLHF框架，显著提升了生成视频的visual quality和动作consistency。其支持one-click生成多种风格的动漫video clips，包括番剧片段、国创动画、漫画视频改编等。

核心upgrade包括：

SpatiotemporalMaskModule优化：V3增强了时空control能力，支持更复杂的animation任务，如精细的character表情控制、动态镜头移动和局部图像引导生成。例如，输入"五位girls在镜头放大时dancing，左手上举至头顶再下放至knees"能生成流畅的舞蹈动画。

Dataset扩展：V3依托超过10million高质量动漫video clips进行training，新增data清洗pipeline，确保生成内容的style一致性和细节丰富度。

Hardware优化：V3新增对华为Ascend910B NPU的native支持，完全基于国产chip训练，inference速度提升约20%，生成4秒HD视频仅需2-3分钟。

Multi-task学习：V3强化了multi-task处理能力，支持从single image生成video、关键帧插值到lip sync等功能，特别适合漫画改编和VTuber内容创作。

在最新benchmark测试中，AniSoraV3在VBench和双盲测试中，character一致性和动作fluency均达到SOTA水平，尤其在complex动作上表现突出。

V3还引入了首个针对anime video生成的RLHF框架，通过AnimeReward等tools对模型进行fine-tuning，确保输出更符合human审美需求。Community开发者已开始基于V3开发custom插件，如增强特定动漫style的生成效果。

AniSoraV3支持多种anime风格，包括日本动漫、国产原创动画、漫画改编、VTuber内容等，覆盖90%的动漫video应用场景。具体application包括：

Single image转video：用户上传一张HD动漫image，配合text prompt，即可生成dynamic video，保持角色details和style一致。

漫画改编：从漫画frame生成带lip sync和动作的animation，适合快速制作trailer或short动画。

VTuber与gaming：支持real-time生成角色动画，助力independent创作者快速测试角色动作。

High-resolution输出：生成video支持高达1080p，确保在social media平台上的professional呈现。

AIbase测试显示，V3在生成complex场景时，相比V2减少了约15%的artifact问题，生成时间缩短至average 2.5分钟。

相比OpenAI的Sora等general video生成模型，AniSoraV3专注于anime领域。与字节的EX-4D相比，更专注于2D/2.5D anime风格。

相遇时光电视剧发布网,提供相遇时光电视剧发布信息,第一时间发布列表及资讯,相遇时代是相遇时代首选资讯平台。