CI-VID:首个支持多剪辑连贯视频生成的大规模文本视频混合数据集,突破传统单剪辑配对局限,赋能故事驱动的视频生成技术。

• 超340,000条视频剪辑与丰富字幕交织序列,覆盖334k训练样本+8k测试样本,助力模型同时掌握片内内容与片间时序关系
• 支持Text+Video→Video生成,强化时间和视觉连贯性,推动多场景叙事视频生成质量跃升
• 多维评测体系融合:专业人类评审、基于视觉语言模型(VLM)自动评估、以及客观相似度计算,保障模型性能多角度验证
• 精细数据构建工具:基于相似性和主体实体分割视频,分层生成单剪辑及跨剪辑转场字幕,确保数据结构严谨丰富
• 公开部分视频样本与评测代码,完整6.5TB数据集托管于 Hugging Face,适合深度研发与模型微调
• 专注科研非商业许可,避免数据滥用,确保学术环境下的公平与透明

CI-VID带来更具连续性和叙事性的多剪辑视频生成新范式,适合推进视觉叙事AI、视频理解与生成领域的长期探索与创新。
 
 
Back to Top