轻量级且高速的车牌 OCR 模型,专为车牌文本识别设计,兼顾训练灵活性与推理效率。

• 多后端支持:无缝兼容 TensorFlow、PyTorch、JAX 与 Keras 3,满足多样化开发需求 🧠
• 丰富数据增强:利用 Albumentations 库实现多样训练时图像增强,提升泛化能力 🖼
• 极致轻量高效:模型体积小,推理成本低,适合实际部署 💰
• ONNX Runtime 加速:支持多平台高性能推理,含 NVIDIA CUDA、Intel OpenVINO、Qualcomm QNN 等 ⚡️
• 简洁命令行工具:便捷训练与验证流程,快速上手 🛠
• 预训练模型库:多款优化模型即用即测,支持微调与定制 🔧
• 多格式导出:支持 CoreML 和 TFLite,便于在移动端和嵌入式设备部署 📦
• 训练示例全覆盖:包含细致的微调教程 notebook,助力用户快速构建专属模型

性能指标(NVIDIA RTX 3090):
- cct-xs-v1-global-model:0.32ms 延迟,3094 车牌/秒
- cct-s-v1-global-model:0.59ms 延迟,1701 车牌/秒

适合搭配车牌检测器使用,先定位车牌,再快速识别文字,构建高效车牌识别系统。开源 MIT 许可,欢迎贡献和定制。
Kelp:专为热爱 HTML 的开发者设计的现代 UI 库,基于 Web Components 和现代 CSS,零构建步骤即可上手。

• 无需编译,CDN 引入即用,支持语义化版本控制(@版本号),灵活掌控更新节奏
• 内置完整示例(index.html),涵盖所有组件与功能,方便快速体验与学习
• 采用 ES 模块导入,需本地服务器环境运行,支持自定义端口,npm 脚本即刻启动开发服务器
• 测试与质量保障:集成 Playwright 测试套件、Biome 代码风格校验,CI 自动化部署与 PR 流程保障稳定性
• 当前仍处于 alpha 阶段,欢迎试用反馈,未来将引入构建步骤提升性能和体验
• 免费遵循 Kelp Commons License,亦提供商业授权,适合探索前沿组件化开发方案

Kelp 以纯净、高效、模块化的设计,助力前端开发者深度掌握 Web Component 生态,为构建可维护、语义清晰的 UI 奠定坚实基础。
AnySense:一款针对 iPhone 的多传感器数据采集与学习应用,突破传统单一传感输入,支持多源融合,赋能机器人感知研究。

• 集成 iPhone 自带传感器及外部多传感器(蓝牙、USB)输入,支持离线录制与在线流式传输,适配多场景数据采集需求
• 同步记录 RGB 视频 (.mp4)、深度视频 (.mp4)、精确深度帧(二进制 .bin)、蓝牙数据流(.bin)及时间戳姿态数据(.txt),多模态数据格式标准化管理
• 提供基于 XCode 的源码开放,支持自定义开发与扩展,简化 iOS 设备调试与应用构建流程
• 适配机器人实时感知数据输入,助力通用机器人与 AI 实验室实现跨设备、多模态感知融合研究
• MIT 开源协议,便于学术与工业界自由使用与二次开发

AnySense 不仅是数据采集工具,更是连接智能硬件与机器人感知的桥梁,推动多传感融合技术落地的关键一步。
Sakura:极简高性能终端多媒体渲染库,支持图片、GIF、视频的 SIXEL 及多种 ASCII 模式渲染,带来突破传统终端显示限制的视觉体验

• 核心能力
- 原生 SIXEL 图形渲染,像素级还原,支持 JPG/PNG/BMP 图片,GIF 动画和 MP4/AVI/MOV/MKV 视频
- 实时音视频同步播放,基于 ffmpeg,保证流畅同步体验
- 直接 URL 流式下载播放,无需本地缓存,支持多种网络资源
- 多样渲染模式:SIXEL、EXACT(增强 ASCII)、ASCII_COLOR(24-bit 彩色)、ASCII_GRAY(灰度字符)
- 智能自适应终端尺寸,保持画面纵横比和清晰度
- 性能优化:预解码队列、多线程帧调度、动态调色板、差异区域更新减少绘制开销

• 高级特性
- 多种字符集支持,从基础 ASCII 到超细微块字符,提升细节表现力
- Floyd-Steinberg & Atkinson 抖动算法,细腻还原图像层次
- 硬件加速解码管线可选,提升大视频处理效率
- 灵活缩放模式(STRETCH、COVER、CONTAIN)满足不同终端布局需求
- 可配置的预缓冲帧数与队列大小,平衡延迟与流畅度

• 技术架构
- 基于现代 C++,核心依赖 OpenCV(图像解码处理)、libsixel(高质量 SIXEL 编码)、cpr(HTTP 请求)、ffmpeg(音视频同步)
- 支持多平台包管理与构建,包括 Ubuntu、Arch Linux、macOS 及 NixOS flakes 配置

• 未来规划涵盖错误处理、单元测试、GPU 加速、WebM 支持、实时流输入与插件架构,具备长期演进潜力

Sakura 打破传统终端多媒体限制,融合高性能渲染与灵活配置,是开发者探索终端视觉表现和多媒体交互的利器。
MCP Alchemy 打通 LLM 与关系型数据库的桥梁,助力 Claude Desktop 实现智能数据库交互:

• 支持主流数据库:PostgreSQL、MySQL、MariaDB、SQLite、Oracle、MS SQL Server、CrateDB、Vertica 等所有 SQLAlchemy 兼容数据库
• 直接访问数据库结构,自动识别表关系,帮助理解复杂数据模型
• 辅助生成与校验 SQL 查询,提升查询效率与准确度
• 支持大数据集分析,结合 claude-local-files 实现完整结果集访问与详细报告生成
• 连接池优化设计,自动处理连接超时与重连,保证长时间稳定运行
• 灵活配置环境变量,满足多场景定制需求,包括连接参数与查询输出长度
• 开源免费,社区活跃,持续维护与功能迭代,欢迎贡献代码与反馈
• 安装便捷,支持 PyPI 一键部署,快速集成 Claude Desktop

让 LLM 不再是孤立的智能体,而是数据库专家级助手,极大提升数据洞察与操作效率。
Easy LLM CLI:一款开源多模型兼容的 AI agent,专为开发者打造高效命令行 AI 工作流工具 | #工具

• 支持 Gemini、OpenAI 及任意兼容 OpenAI API 格式的自定义 LLM,轻松切换不同模型,无需更改操作习惯
• 具备大上下文窗口,能查询并编辑超大代码库,极大提升代码理解和改写效率
• 多模态能力支持从 PDF、草图直接生成应用,自动化处理复杂运维任务,如 PR 查询、复杂 rebase 等
• 通过工具和 MCP 服务器扩展能力,连接本地系统工具和企业协作套件,打造个性化自动化流程
• 简单环境变量配置,支持多维度模型测试(链式思考、多任务复杂度、工具调用、Token 计数等),兼容主流及本地部署模型
• 提供 NPM 方式集成,方便嵌入应用,支持生成图表、分析代码、构建项目等多样场景

使用门槛低,功能强大,适合需要快速构建 AI 驱动开发和运维工具的团队与个人。
Bournemouth Forced Aligner(BFA)是一款基于 Python 的高性能语音对齐工具,专注于实现毫秒级别的音素时间戳提取,适用于语音分析、语言学研究及语音处理。| #工具

⚡️ 速度极快:CPU 优化架构,10秒音频仅需0.2秒处理,远超传统强制对齐器
🎯 精确对齐:支持音素级毫秒时间戳,结合 Viterbi 算法和置信度评分,实现高准确度
🧠 智能增强:目标音素概率提升和强制补全机制,保障关键音素完整识别
🌍 多语言支持:基于 espeak-ng 进行文本音素化,当前提供英语模型,易拓展其他语言
📊 丰富输出:支持 JSON、Praat TextGrid 格式,便于科研和语音分析工具无缝对接
💻 命令行友好:支持批量自动处理,适合大规模语料库对齐需求
🔬 兼容性强:可结合 Whisper 转录结果,快速完成从转录到对齐的完整流程
🛠 高度可控:多种参数调节,适应不同噪声环境和跨语言需求,兼顾速度与准确度平衡

相较于 Montreal Forced Aligner,BFA显著提升了处理速度与实时潜力,同时在处理停顿音和复杂尾音上表现更佳,尤其适合对完整性和效率要求极高的应用场景。

安装简单,pip 一键部署,支持CPU推理,适合科研、开发和工业应用。推荐音频分段不超过30秒以保证性能与精度。
Mercur:首个真正无限制的开源多商户市场平台,结合 SaaS 简洁与开源自由,基于 MedusaJS 构建,适配多种商业模式,助力打造定制化市场体验。

• 完全自托管,零交易费,无供应商锁定,真正实现市场所有权与数据控制
• 1.0 正式版支持生产级 B2C 市场,含供应商系统、管理后台和完整 B2C 商店界面
• 灵活支持 B2B 企业级定制市场和未来电商店铺升级为多商户市场的扩展能力
• 多商户专属商店界面,支持跨供应商商品浏览与购买,提升用户体验🛍
• 管理后台可设置商品分类、供应商、佣金及规则,权限细化,运营高效
• 供应商面板直观,方便卖家管理商品、订单和店铺,提升运营自主性
• 内置 Stripe 支付和 Resend 通讯集成,更多接口持续扩展中
• 现代技术栈(Node.js 20+、PostgreSQL)支持开发者快速上手与深度定制

Mercur 适合追求自主掌控、灵活扩展、无缝定制的多商户市场项目,兼顾企业级复杂需求与消费者端体验,助力长期可持续增长。
VCPToolBox:全新的,强大的AI-API-工具交互范式工具箱 | #工具

• 超越传统交互,打造“AI-工具-记忆”铁三角,实现模型、模态与前端零依赖的高度兼容与扩展。
• 独立Agent封装,非线性超异步工作流,五大插件协议,支持分布式部署和算力均衡,释放海量并行算力冗余。
• 创新指令协议,支持复杂多行参数与容错,兼容MCPO及MCP插件,统一接入多协议生态。
• 全面插件体系:静态实时信息注入、多模态预处理、同步异步任务执行、服务与混合插件,覆盖浏览器控制、网页抓取、文生图/视频/音频生成、科学计算、知识管理等。
• 智能持久记忆系统,支持动态RAG召回和条件注入,实现AI自我学习、经验内化与跨模型协同。
• 先进分布式架构,支持多节点云端插件注册与无缝远程文件访问,打破物理边界,构建星型智能网络。
• 丰富可视化管理面板,支持配置、插件、日记管理及实时调试,降低复杂度。
• 深度系统提示词与变量替换体系,动态注入环境、工具与个性化指令,实现精细化后端AI行为调控。
• 强化安全设计,严禁非官方代理调用,保障API密钥和敏感信息安全。
• 支持人类直接调用VCP插件,拓展自动化任务执行边界。
Back to Top