腾讯混元World 1.0首发,开启沉浸式交互3D世界生成新时代
• 支持文本与图像输入,自动生成360°全景沉浸式3D世界,兼顾视觉多样性与几何一致性。
• 语义分层3D网格表示,支持对象解耦,提升场景互动性与扩展性。
• Mesh格式导出,完美兼容现有CG管线,便于游戏开发、虚拟现实及物理模拟等多场景应用。
• 性能领先:在BRISQUE、NIQE、Q-Align等指标上均优于主流全景与3D生成方法,保证视觉质量与几何精度。
• 开源生态:基于Flux架构,兼容Hunyuan Image、Kontext、Stable Diffusion等主流图像生成模型。
• 配套工具丰富,提供模型Zoo、快速环境配置脚本、3D模型浏览器,方便上手与二次开发。
• 深层洞察:融合视频与3D生成优势,突破数据与内存瓶颈,推动AIGC向真实感交互空间迈进。
• 支持文本与图像输入,自动生成360°全景沉浸式3D世界,兼顾视觉多样性与几何一致性。
• 语义分层3D网格表示,支持对象解耦,提升场景互动性与扩展性。
• Mesh格式导出,完美兼容现有CG管线,便于游戏开发、虚拟现实及物理模拟等多场景应用。
• 性能领先:在BRISQUE、NIQE、Q-Align等指标上均优于主流全景与3D生成方法,保证视觉质量与几何精度。
• 开源生态:基于Flux架构,兼容Hunyuan Image、Kontext、Stable Diffusion等主流图像生成模型。
• 配套工具丰富,提供模型Zoo、快速环境配置脚本、3D模型浏览器,方便上手与二次开发。
• 深层洞察:融合视频与3D生成优势,突破数据与内存瓶颈,推动AIGC向真实感交互空间迈进。
Wan2.2:开源且领先的大规模视频生成模型,推动视频AIGC进入新阶段
• 引入Mixture-of-Experts (MoE)架构,采用双专家设计分阶段处理噪声,实现27B参数容量下14B推理成本,显著提升生成质量与收敛速度。
• 融入电影级美学数据,细化灯光、构图、色调等多维标签,实现更精准且可控的风格化视频生成。
• 训练数据大幅扩容,图像+65.6% 视频+83.2%,全面增强模型对复杂运动、语义和美学的泛化能力,性能领先业内开源及闭源竞品。
• 发布高压缩TI2V-5B模型,结合Wan2.2-VAE实现64倍压缩率,支持720P@24fps文本/图像到视频生成,能在消费级GPU(如RTX 4090)高效运行,兼顾工业与学术需求。
• 支持多GPU推理(FSDP+DeepSpeed Ulysses),并已集成至ComfyUI、Diffusers生态,方便快速部署与二次开发。
• 丰富的扩展方案:文本、图像及文本-图像混合输入,多样prompt扩展方法(Dashscope API、本地Qwen模型)提升细节表现。
• 完整开源,Apache 2.0授权,兼顾自由使用与合规责任,助力科研与产业创新。
通过MoE架构巧妙平衡模型容量与推理效率,是提升大规模视频生成质量的关键路径;高压缩VAE设计结合先进的训练范式,推动高清视频生成从实验室走向实用化;数据与美学标签的精细打磨,确保生成内容具备更强的表达力与艺术感。
• 引入Mixture-of-Experts (MoE)架构,采用双专家设计分阶段处理噪声,实现27B参数容量下14B推理成本,显著提升生成质量与收敛速度。
• 融入电影级美学数据,细化灯光、构图、色调等多维标签,实现更精准且可控的风格化视频生成。
• 训练数据大幅扩容,图像+65.6% 视频+83.2%,全面增强模型对复杂运动、语义和美学的泛化能力,性能领先业内开源及闭源竞品。
• 发布高压缩TI2V-5B模型,结合Wan2.2-VAE实现64倍压缩率,支持720P@24fps文本/图像到视频生成,能在消费级GPU(如RTX 4090)高效运行,兼顾工业与学术需求。
• 支持多GPU推理(FSDP+DeepSpeed Ulysses),并已集成至ComfyUI、Diffusers生态,方便快速部署与二次开发。
• 丰富的扩展方案:文本、图像及文本-图像混合输入,多样prompt扩展方法(Dashscope API、本地Qwen模型)提升细节表现。
• 完整开源,Apache 2.0授权,兼顾自由使用与合规责任,助力科研与产业创新。
通过MoE架构巧妙平衡模型容量与推理效率,是提升大规模视频生成质量的关键路径;高压缩VAE设计结合先进的训练范式,推动高清视频生成从实验室走向实用化;数据与美学标签的精细打磨,确保生成内容具备更强的表达力与艺术感。
Ragflow-Plus:基于 Ragflow 的二次开发,专注解决实际应用痛点,提升知识库管理与文档交互效率。
• 全新后台管理系统:支持用户、团队、配置、文件与知识库统一管理,提升运维便捷度
• 权限回收机制:前端权限收缩,简化操作界面,保障安全与易用并重
• 解析能力升级:引入 MinerU 替代 DeepDoc,增强文本与图片解析效果,实现图文结合输出
• 文档撰写模式革新:全新交互体验,优化内容创作流程,适合多场景知识沉淀
• 开箱即用:提供 Docker 快速部署方案,配套视频教程与详细文档支持
• 开源透明:遵循 AGPLv3 许可证,支持商业使用,保障软件自由与合规
• 社群活跃:官方社群讨论技术与使用,支持持续贡献与共建
Ragflow-Plus 深耕知识管理本质,结合技术迭代与用户需求,助力打造高效、灵活的智能文档与问答平台。
• 全新后台管理系统:支持用户、团队、配置、文件与知识库统一管理,提升运维便捷度
• 权限回收机制:前端权限收缩,简化操作界面,保障安全与易用并重
• 解析能力升级:引入 MinerU 替代 DeepDoc,增强文本与图片解析效果,实现图文结合输出
• 文档撰写模式革新:全新交互体验,优化内容创作流程,适合多场景知识沉淀
• 开箱即用:提供 Docker 快速部署方案,配套视频教程与详细文档支持
• 开源透明:遵循 AGPLv3 许可证,支持商业使用,保障软件自由与合规
• 社群活跃:官方社群讨论技术与使用,支持持续贡献与共建
Ragflow-Plus 深耕知识管理本质,结合技术迭代与用户需求,助力打造高效、灵活的智能文档与问答平台。
• 基于pdf.js,支持PDF文件直观展示,文本层覆盖实现复制粘贴
• 支持页面级渲染与滚动,快速定位指定页码或注释
• 注释高亮显示,支持多种边框样式及颜色,自定义点击回调函数
• 多重缩放控制,灵活调整视图比例,容器内居中/左/右对齐自由配置
• 可选分页分隔线,提升多页文档视觉分辨率
• 兼容Firefox和Chrome,针对复杂PDF支持动态加载及交互
• 开源Apache-2.0许可,持续迭代中,适合科研、文档分析与数据标注场景
通过对PDF的文本与注释分层渲染,实现了交互性与信息可复制性的平衡,促进面向结构化数据的深度挖掘和应用开发。
入门简单,pip install即可集成,适用范围广泛,具备长期工程实践参考价值。
• 覆盖8大类30个细分任务,涵盖文献抽取(LitQA2)、数据库检索(DbQA)、补充信息(SuppQA)、科学图表推理(FigQA/TableQA)、实验协议排错(ProtocolQA)、生物序列操作(SeqQA)及分子克隆复杂场景。
• 公开约80%数据,保留20%私有测试集防止训练污染,内置canary字符串便于模型训练过滤。
• 支持Python 3.10+,提供异步agent接口,便于并行评测与多模型对比。
• 详尽文档和示例代码包含多种基线测试,助力快速上手与复现。
• 数据集开放获取,支持Hugging Face平台同步调用,推动AI在生物研究中的实用转化。
• 论文详述数据集设计与评测方法,具备长期参考价值,为科研AI能力构建提供方法论支撑。