Bournemouth Forced Aligner(BFA)是一款基于 Python 的高性能语音对齐工具,专注于实现毫秒级别的音素时间戳提取,适用于语音分析、语言学研究及语音处理。| #工具

⚡️ 速度极快:CPU 优化架构,10秒音频仅需0.2秒处理,远超传统强制对齐器
🎯 精确对齐:支持音素级毫秒时间戳,结合 Viterbi 算法和置信度评分,实现高准确度
🧠 智能增强:目标音素概率提升和强制补全机制,保障关键音素完整识别
🌍 多语言支持:基于 espeak-ng 进行文本音素化,当前提供英语模型,易拓展其他语言
📊 丰富输出:支持 JSON、Praat TextGrid 格式,便于科研和语音分析工具无缝对接
💻 命令行友好:支持批量自动处理,适合大规模语料库对齐需求
🔬 兼容性强:可结合 Whisper 转录结果,快速完成从转录到对齐的完整流程
🛠 高度可控:多种参数调节,适应不同噪声环境和跨语言需求,兼顾速度与准确度平衡

相较于 Montreal Forced Aligner,BFA显著提升了处理速度与实时潜力,同时在处理停顿音和复杂尾音上表现更佳,尤其适合对完整性和效率要求极高的应用场景。

安装简单,pip 一键部署,支持CPU推理,适合科研、开发和工业应用。推荐音频分段不超过30秒以保证性能与精度。
Mercur:首个真正无限制的开源多商户市场平台,结合 SaaS 简洁与开源自由,基于 MedusaJS 构建,适配多种商业模式,助力打造定制化市场体验。

• 完全自托管,零交易费,无供应商锁定,真正实现市场所有权与数据控制
• 1.0 正式版支持生产级 B2C 市场,含供应商系统、管理后台和完整 B2C 商店界面
• 灵活支持 B2B 企业级定制市场和未来电商店铺升级为多商户市场的扩展能力
• 多商户专属商店界面,支持跨供应商商品浏览与购买,提升用户体验🛍
• 管理后台可设置商品分类、供应商、佣金及规则,权限细化,运营高效
• 供应商面板直观,方便卖家管理商品、订单和店铺,提升运营自主性
• 内置 Stripe 支付和 Resend 通讯集成,更多接口持续扩展中
• 现代技术栈(Node.js 20+、PostgreSQL)支持开发者快速上手与深度定制

Mercur 适合追求自主掌控、灵活扩展、无缝定制的多商户市场项目,兼顾企业级复杂需求与消费者端体验,助力长期可持续增长。
VCPToolBox:全新的,强大的AI-API-工具交互范式工具箱 | #工具

• 超越传统交互,打造“AI-工具-记忆”铁三角,实现模型、模态与前端零依赖的高度兼容与扩展。
• 独立Agent封装,非线性超异步工作流,五大插件协议,支持分布式部署和算力均衡,释放海量并行算力冗余。
• 创新指令协议,支持复杂多行参数与容错,兼容MCPO及MCP插件,统一接入多协议生态。
• 全面插件体系:静态实时信息注入、多模态预处理、同步异步任务执行、服务与混合插件,覆盖浏览器控制、网页抓取、文生图/视频/音频生成、科学计算、知识管理等。
• 智能持久记忆系统,支持动态RAG召回和条件注入,实现AI自我学习、经验内化与跨模型协同。
• 先进分布式架构,支持多节点云端插件注册与无缝远程文件访问,打破物理边界,构建星型智能网络。
• 丰富可视化管理面板,支持配置、插件、日记管理及实时调试,降低复杂度。
• 深度系统提示词与变量替换体系,动态注入环境、工具与个性化指令,实现精细化后端AI行为调控。
• 强化安全设计,严禁非官方代理调用,保障API密钥和敏感信息安全。
• 支持人类直接调用VCP插件,拓展自动化任务执行边界。
Sim:开源AI agent工作流构建器,极简界面助力快速搭建并部署连接多种工具的LLM解决方案。

• 支持云端(sim.ai)和自托管两种模式,快速启动仅需几分钟
• 兼容Docker、Dev Containers、手动安装多种部署方式,灵活适配开发环境
• 利用PostgreSQL+pgvector实现向量嵌入,支持知识库和语义搜索功能
• 内置Copilot管理服务,简化API密钥配置,提升自托管体验
• 技术栈涵盖Next.js、Bun、Tailwind CSS、React Flow、Socket.io等现代前端后端技术
• 低代码/无代码界面,支持用React构建智能agent流程,助力自动化和多工具集成
• 活跃社区,13000+星标,1500+分支,开放贡献,Apache-2.0许可证保障自由使用
• 支持本地GPU/CPU模型运行,免外部API,提升数据隐私和响应速度

Sim从根本上简化了复杂AI流程的设计和部署,适合研发、自动化及业务集成长期使用。
demo.gif
34.8 MB
Starchive:一款集自动下载与高级音频处理于一体的YouTube视频归档利器,支持多格式抓取与智能音乐混音,助力内容创作者突破传统边界。

• 自动抓取访问的YouTube及社交平台视频,支持MP4、WAV音频、字幕(VTT)、缩略图及元数据(JSON)多格式下载
• 利用Ultimate Vocal Remover实现人声与伴奏分离,结合BPM、调性、节拍检测,精确解析音乐结构
• 交互式Blend Shell提供实时混音界面,自动匹配节拍与调性,智能调整音高与速度,避免人声冲突,确保无缝融合
• 采用rubberband技术实现高精度音频同步,支持基于静音分割的片段编辑与智能插入
• 命令行工具覆盖从下载、分析到混音全流程,支持后台运行和手动视频ID输入,灵活高效
• 架构基于Go语言,配套Firefox插件自动触发下载,后台排队处理不影响浏览体验
• 依赖yt-dlp、ffmpeg、rubberband及AI分离工具,持续更新以适应视频平台变化

Starchive突破了传统视频下载工具的局限,将自动化与智能音频处理深度融合,使视频归档和音乐创作成为一体化流程,极大提升创作效率与品质。适合音乐制作人、内容编辑和技术爱好者长期使用。
Awesome-Scientific-Datasets-and-LLMs:科学大模型与数据集全景汇总,助力科研智能化升级:

• 涵盖多学科:生命科学🧬、化学⚗️、物理⚛️、天文🌌、材料学🪨、地球科学🌍、神经科学等核心领域,资源丰富全面。
• 数据类型多样:涵盖文本QA、视觉问答(VQA)、图像-文本、视频-文本等多模态数据,支持预训练、微调及科学推理等多种任务。
• 发展轨迹清晰:从迁移学习到大规模知识整合,再到指令跟随与自主科学Agent,展现科学LLM的四大范式变革。
• 详实时间线:2018年至2025年间,精选标志性模型与数据集,助力把握科研AI发展脉络。
• 开源与闭源兼备:包含众多开源项目,如Intern-S1(241B参数)、ChemLLM、ShizhenGPT等,方便科研团队快速落地与创新。
• 专业评测集:覆盖学术论文、临床对话、医学影像、蛋白质序列等,配备多维度指标(准确率、F1、BLEU、AUROC等),确保模型能力客观量化。
• 跨语种支持:中英双语及多语言资源,兼顾全球科研需求,提升模型适用性与泛化能力。
• 持续更新:项目活跃,定期整合最新论文和数据,关注前沿趋势,保持科研资源的长效价值。

科学研究正从数据积累向智能洞察跃迁,这份汇总为科研人员提供了系统的工具链与知识地图,促进跨领域协作与突破。
CI-VID:首个支持多剪辑连贯视频生成的大规模文本视频混合数据集,突破传统单剪辑配对局限,赋能故事驱动的视频生成技术。

• 超340,000条视频剪辑与丰富字幕交织序列,覆盖334k训练样本+8k测试样本,助力模型同时掌握片内内容与片间时序关系
• 支持Text+Video→Video生成,强化时间和视觉连贯性,推动多场景叙事视频生成质量跃升
• 多维评测体系融合:专业人类评审、基于视觉语言模型(VLM)自动评估、以及客观相似度计算,保障模型性能多角度验证
• 精细数据构建工具:基于相似性和主体实体分割视频,分层生成单剪辑及跨剪辑转场字幕,确保数据结构严谨丰富
• 公开部分视频样本与评测代码,完整6.5TB数据集托管于 Hugging Face,适合深度研发与模型微调
• 专注科研非商业许可,避免数据滥用,确保学术环境下的公平与透明

CI-VID带来更具连续性和叙事性的多剪辑视频生成新范式,适合推进视觉叙事AI、视频理解与生成领域的长期探索与创新。
IWE:面向开发者的本地优先Markdown笔记LSP,打造如IDE般高效的写作与知识管理体验

• 完美集成VSCode、Neovim、Zed、Helix等主流编辑器,基于LSP实现语义理解与交互
• 支持搜索、自动补全、跳转定义、重命名重构、反向链接查找、结构化提示等高级功能
• 扩展Markdown能力:wiki风格链接、表格、子笔记抽取与嵌入,文档自动格式化和链接更新
• 内置AI辅助,编辑器内直接调用AI完成文本改写、内容扩展、重点标记,支持自定义AI命令配置
• 通过“prompts”激发写作灵感,实现笔记间智能联想和内容生成,提升知识沉淀质量
• 支持子目录与层级组织,利用内容地图(MOC)管理复杂笔记结构,像管理代码一样管理知识
• CLI工具秒级处理成千上万文档,支持批量格式化、链接更新、内容合并及DOT格式导出可视化
• 开源、基于Apache-2.0许可,社区驱动持续发展,文档详实,插件生态活跃

让写作与知识管理回归代码级效率,IWE助你构建个人知识库的下一个生产力工具。
Back to Top