语音应用开发常常面临模型延迟高、质量难兼顾的问题。

Liquid Audio 是 Liquid AI 推出的开源端到端语音基础模型,专为实时语音转语音设计,轻量级的 LFM2 模型支持低延迟且高质量的语音交互。

它提供两种生成模式:
- 交错模式(interleaved),适合实时对话,边说边生成文本和音频;
- 顺序模式(sequential),适用语音识别(ASR)和文本转语音(TTS)等非对话任务。

功能亮点:
- 实时语音转语音对话,流畅自然;
- 支持多轮多模态交互,文本与音频无缝切换;
- 方便集成,pip 安装即可上手;
- 附带 Gradio 演示,轻松体验模型能力。

适合开发智能助理、语音机器人、会议转写、语音合成等应用。

快速安装:
pip install liquid-audio
pip install "liquid-audio[demo]"


用 Liquid Audio,轻松打造自然流畅的语音交互体验。
构建和管理AI智能体,往往涉及多语言、多步骤的复杂流程,既要协调各个智能体之间的协作,又要确保整体运行高效稳定。

Microsoft Agent Framework 是一个开源跨平台框架,支持 Python 和 .NET,专注于构建、编排和部署多智能体工作流。它涵盖从简单聊天机器人到复杂图形化工作流的全套解决方案。

主要特点:

- 基于图的工作流编排,支持数据流、流式处理、检查点和人机交互;
- 统一的 Python 和 .NET API,实现跨语言无缝开发;
- 集成 OpenTelemetry,实现分布式跟踪和调试;
- 支持多智能体提供商,灵活接入各类大模型服务;
- 中间件机制,方便定制请求处理、异常捕获和流程管道;
- DevUI 可视化开发界面,提升智能体开发和测试效率。

适合研发团队快速搭建复杂AI代理系统,助力智能自动化和协同工作。
Media is too big
VIEW IN TELEGRAM
Tinker Cookbook 提供了丰富的示例和工具,帮助开发者和研究人员轻松定制和微调大语言模型。它基于 Tinker API,封装了多种训练抽象,让你一步步实现有监督学习、强化学习、偏好学习等复杂训练流程。

主要亮点:

- 训练SDK支持分布式微调,无需自己搭建复杂环境;
- 丰富的示例代码覆盖对话微调、数学推理、工具使用、多智能体对抗等场景;
- 提供评估工具和超参数计算辅助,方便快速迭代;
- 支持下载模型权重,一键体验训练成果;
- 完全开源,社区驱动,欢迎贡献和交流。

适合想深入大模型训练原理、快速上手微调的开发者和科研人员。
Website Headlines (dotcom)——网站标题灵感收集

网站标题能决定销售成败,这个网站提供丰富的高效标题库,汇聚 SaaS、B2B 和 DTC 品牌的成功案例。每个标题都附有截图,方便用户获取灵感。

理想的标题长度为 6-12 个字,SEO 和社交分享时最好控制在 55 个字符内。避免模糊和冗长的表达,确保标题清晰、有吸引力
在线文档解析往往需要多阶段复杂流程,特别是科学论文、化学结构、手写公式等内容解析难度大。

阿里开源的 Logics-Parsing 是一款基于视觉语言模型(VLM),通过监督微调和强化学习打造的端到端文档解析模型,能准确理解和结构化复杂布局与 STEM 内容。

它支持从图片直接解析成结构化 HTML,自动识别段落、表格、公式、图像等内容块,甚至能智能识别化学结构并导出 SMILES 格式。

主要功能:

- 一步到位解析复杂文档,无需多阶段流水线;
- 精准识别科学公式、化学结构、手写文本等难点内容;
- 生成结构化且干净的 HTML 输出,保留逻辑与位置信息;
- 自动过滤页眉页脚,专注核心内容;
- 在自研复杂文档解析基准测试中表现领先。

适合科研文献、化学资料、手写笔记等复杂文档的智能解析需求。
在线使用 Unity 做游戏开发,AI 助手能帮你自动化编辑、管理资源、控制场景,甚至写代码,这听起来是不是很酷?

Unity MCP 是一个开源项目,搭建了一个本地服务器,让像 Claude Desktop、Cursor 这样的 AI MCP 客户端直接操控 Unity 编辑器,极大提升开发效率。

主要功能:

- 自然语言指令控制 Unity 编辑器操作;
- 管理脚本、场景、资源、材质和游戏对象;
- 自动化重复工作流程,节省时间;
- 支持多种 MCP 客户端扩展使用;
- 精准脚本编辑和验证,减少代码错误;
- 实时控制菜单项和编辑器状态。

支持 Unity 2021.3 LTS 及以上版本,Python 3.12+ 环境,适合游戏开发者和 AI 工具爱好者。
在线智能问答系统,文档上传、向量检索、模型推理一体化,轻松实现本地RAG入门体验。

Local PDF Chat RAG 是一个开源项目,专为想理解并动手实践检索增强生成(RAG)技术的初学者设计。它结合了PDF处理、FAISS向量检索、多模型集成等核心模块,帮助你从源码层面掌握RAG的底层流程。

主要功能:

- 多PDF文档上传与自动文本切割向量化
- 本地FAISS向量数据库构建与高效语义检索
- 混合BM25关键词检索提升召回率
- 交叉编码器及大模型(支持本地 Ollama 和云端 SiliconFlow)结果重排序
- 支持联网搜索增强回答的时效性(需配置SerpAPI密钥)
- 递归式深度检索,自动生成新查询,提升答复深度
- Gradio交互式Web UI,操作简单直观
- 本地化优先,保护数据隐私

适合科研、开发者和RAG技术爱好者快速上手,理解RAG的全流程细节。
在线资金费率套利总是要盯着多个交易所的费率和价格变动,手动监控费时费力,执行交易还容易错过最佳时机。

bphltaoli 是一款开源的加密货币资金费率套利机器人,支持Hyperliquid和Backpack两个主流交易所。它能实时监控资金费率和价格差异,自动执行智能套利策略,帮你捕捉稳定收益。

主要功能:

- 多交易所实时连接,数据同步高效;
- 自动套利策略,基于资金费率和价格差异智能开平仓;
- 风险管理完善,支持仓位控制和滑点分析;
- 方向一致性检查,确保套利交易安全可靠;
- 详细日志记录,方便策略回溯和调试;
- 支持Python环境,跨平台运行。

适合有一定交易基础的数字货币投资者和量化爱好者,用代码化的方式抓住资金费率套利机遇,降低手动操作风险,实现自动化交易收益最大化。
Back to Top