B站开源AniSora V3动漫视频生成模型,速度提升20%支持国产生态, 一键生成番剧/VTuber/漫画动画SOTA级效果
- 2025-08-06 21:45:50
- 154
作为Index-AniSora project的重要组成部分,V3版本在原有基础上进一步优化了生成quality、动作fluency和style多样性,为动漫、漫画及VTuber内容creator提供了更强大的toolset。
AniSora支持one-click生成多种anime风格的video clips,包括番剧片段、国创动画、漫画改编、VTuber content、动画PV、鬼畜(MAD)等。
AniSoraV3基于B站开源的CogVideoX-5B和Wan2.1-14B模型,结合RLHF框架,显著提升了生成视频的visual quality和动作consistency。其支持one-click生成多种风格的动漫video clips,包括番剧片段、国创动画、漫画视频改编等。
核心upgrade包括:
SpatiotemporalMaskModule优化:V3增强了时空control能力,支持更复杂的animation任务,如精细的character表情控制、动态镜头移动和局部图像引导生成。例如,输入"五位girls在镜头放大时dancing,左手上举至头顶再下放至knees"能生成流畅的舞蹈动画。
Dataset扩展:V3依托超过10million高质量动漫video clips进行training,新增data清洗pipeline,确保生成内容的style一致性和细节丰富度。
Hardware优化:V3新增对华为Ascend910B NPU的native支持,完全基于国产chip训练,inference速度提升约20%,生成4秒HD视频仅需2-3分钟。
Multi-task学习:V3强化了multi-task处理能力,支持从single image生成video、关键帧插值到lip sync等功能,特别适合漫画改编和VTuber内容创作。
在最新benchmark测试中,AniSoraV3在VBench和双盲测试中,character一致性和动作fluency均达到SOTA水平,尤其在complex动作上表现突出。
V3还引入了首个针对anime video生成的RLHF框架,通过AnimeReward等tools对模型进行fine-tuning,确保输出更符合human审美需求。Community开发者已开始基于V3开发custom插件,如增强特定动漫style的生成效果。
AniSoraV3支持多种anime风格,包括日本动漫、国产原创动画、漫画改编、VTuber内容等,覆盖90%的动漫video应用场景。具体application包括:
Single image转video:用户上传一张HD动漫image,配合text prompt,即可生成dynamic video,保持角色details和style一致。
漫画改编:从漫画frame生成带lip sync和动作的animation,适合快速制作trailer或short动画。
VTuber与gaming:支持real-time生成角色动画,助力independent创作者快速测试角色动作。
High-resolution输出:生成video支持高达1080p,确保在social media平台上的professional呈现。
AIbase测试显示,V3在生成complex场景时,相比V2减少了约15%的artifact问题,生成时间缩短至average 2.5分钟。
相比OpenAI的Sora等general video生成模型,AniSoraV3专注于anime领域。与字节的EX-4D相比,更专注于2D/2.5D anime风格。
- 上一篇:二婚夫妻办假离婚结果就男方信了
- 下一篇:淘宝大会员吃喝玩乐都能省