DatasetLoom:专为多模态大模型训练打造的智能数据集构建与评估平台
• 支持图文问答(VQA)、图像描述、监督微调(SFT)、偏好对齐(DPO)等多种训练任务
• 集成模型自动评分、多模型对比(GPT-4V、LLaVA、CLIP 等),实现训练效果高效评估
• 文档解析涵盖 PDF、Word、Markdown、TXT,支持知识抽取与分块处理
• 图像区域标注与多模态问答生成,助力丰富训练样本构建
• 用户权限管理细化,支持管理员、协作者、访客角色分配,满足团队协作需求
• 数据持久化与版本管理,保证训练语料安全稳定,支持导出 JSON、CSV、HuggingFace Dataset 格式
• 基于 Redis 的工作流引擎(Beta),实现复杂任务自动调度与流程管理
• 采用 TypeScript + Next.js 15 + Tailwind CSS + Prisma ORM 技术栈,兼容多种 SQL 数据库(SQLite、MySQL、PostgreSQL、SQL Server)灵活部署
DatasetLoom通过模块化设计和统一数据结构,打通从原始数据到结构化训练集的全链路,助力多模态大模型训练的效率与质量提升。其强大的评估与多模型对比功能,推动训练流程的科学决策,适合科研、教育及行业垂直领域长期项目积累和优化。