HunyuanCustom:腾讯推出的多模态驱动的定制化视频生成框架,让视频创作更自由

支持文本、图像、音频、视频等多种输入模态,满足多样化创作需求;单主体视频定制效果出色,身份一致性高达0.627;提供单GPU和多GPU推理方案,适配不同硬件环境
DeerFlow:深度研究的利器,结合语言模型与多种工具,助力高效研究与知识探索。

支持多语言模型集成,兼容OpenAI等API;无缝集成MCP服务,拓展研究边界;提供交互式修改研究计划,支持人类参与研究流程
一款无需OCR的本地部署文档信息提取工具,通过视觉语言模型轻松提取文档中的结构化信息。

完全本地化部署,保障数据隐私;支持多页文档处理,满足复杂文件需求;提供REST API接口,方便与现有系统集成

docext | #工具
SweetPad:让VSCode成为iOS开发的强大工具。

集成swift-format等工具,代码格式化更高效;支持Simulator和物理设备调试,开发更灵活;提供Autocomplete和Debug功能,提升开发效率
AgentDock:用AI Agents构建复杂任务的开源框架。AgentDock让你轻松打造可配置、确定性强的AI系统,解决复杂任务自动化难题。

支持多语言,覆盖12种语言的README翻译;采用节点化架构,可扩展性强;提供多种预配置Agent模板,如“Dr. Gregory House”诊断Agent,助力快速开发
YASB:一个高度可配置的Windows状态栏,用Python打造你的个性化桌面体验。

支持超过30种可定制的桌面小部件,满足多样需求;适配Windows 10和11,兼容性强;开箱即用,安装简单,配置灵活
Seed-Coder:开源代码大语言模型,让代码模型自己筛选数据,大幅提升编程能力。

8B参数量,轻量级却强大;仅需极少量人工干预,自动筛选训练数据;在多种编程任务中表现卓越,超越部分更大模型
Awesome-Unified-Multimodal-Models:一站式汇聚前沿多模态统一模型资源,助力研究人员和开发者快速掌握领域动态。

涵盖2023年至2025年的最新多模态模型,紧跟技术前沿;提供丰富论文、数据集和评估基准,资源全面;细分多种模型架构与任务类型,便于精准定位需求
MMAR:一个极具挑战性的深度推理基准测试,专为音频、音乐和语音领域的AI模型设计

包含1000个精心策划的音频-问题-答案三元组,覆盖多种真实场景;部分问题需要研究生级别的专业知识,难度极高;数据涵盖语音、音频、音乐及其混合模态,全面评估模型能力
Media is too big
VIEW IN TELEGRAM
跨平台Xcode替代工具,用SwiftPM在Linux、Windows和macOS上构建和部署iOS应用。

无需Mac即可开发iOS应用;支持多平台,覆盖Linux、Windows和macOS;提供完整的命令行工具和库支持

xtool | #工具
Continuous Thought Machines:让思考成为一种持续的过程。核心价值在于模拟人类思考的动态过程,解决复杂任务

内部时间轴,独立于输入数据,让神经活动自由展开;神经元级时间处理,每个神经元都具备独特参数,实现精细的时间动态;神经同步作为直接的潜在表示,通过神经活动的时序编码信息
Back to Top