CI-VID：首个支持多剪辑连贯视频生成的大规模文本视频混合数据集，突破传统单剪辑配对局限，赋能故事驱动的视频生成技术

CI-VID：首个支持多剪辑连贯视频生成的大规模文本视频混合数据集，突破传统单剪辑配对局限，赋能故事驱动的视频生成技术。

• 超340,000条视频剪辑与丰富字幕交织序列，覆盖334k训练样本+8k测试样本，助力模型同时掌握片内内容与片间时序关系
• 支持Text+Video→Video生成，强化时间和视觉连贯性，推动多场景叙事视频生成质量跃升
• 多维评测体系融合：专业人类评审、基于视觉语言模型（VLM）自动评估、以及客观相似度计算，保障模型性能多角度验证
• 精细数据构建工具：基于相似性和主体实体分割视频，分层生成单剪辑及跨剪辑转场字幕，确保数据结构严谨丰富
• 公开部分视频样本与评测代码，完整6.5TB数据集托管于 Hugging Face，适合深度研发与模型微调
• 专注科研非商业许可，避免数据滥用，确保学术环境下的公平与透明

CI-VID带来更具连续性和叙事性的多剪辑视频生成新范式，适合推进视觉叙事AI、视频理解与生成领域的长期探索与创新。