Awesome-MLLM-Reasoning-Collection:一站式多模态推理资源大列表,助力研究人员和开发者轻松掌握前沿技术。

汇集129篇多模态推理领域的前沿论文;提供57个开源项目和数据集,涵盖图像、视频等多种模态;整合多个基准测试,为模型评估提供全面参考
一个社区驱动的AI自动化框架,结合语言模型与专业工具,助力复杂任务自动化。

集成开源模型如Qwen,支持多层级LLM系统;提供Web搜索、爬虫和Python代码执行等强大功能;采用多Agent协作架构,实现复杂任务的高效分解与执行

LangManus | #框架
Awesome-Style-Transfer-with-Diffusion-Models:一个精心整理的扩散模型风格迁移方法列表,助力图像和视频风格化难题。

涵盖图像合成、视频合成、3D生成等多个领域;提供多种风格迁移方法,包括基于文本和图像的驱动方式;汇集了超过50种最新研究成果
IDA Pro MCP:为IDA Pro打造的MCP Server,让逆向工程更高效。

提供丰富的API接口,支持函数、字符串等信息检索;自动化安装流程,一键配置IDA插件;支持多种客户端,无缝对接Cline、Roo Code等工具
Media is too big
VIEW IN TELEGRAM
一款强大的网络质量检测脚本,能快速诊断网络问题并提供详细报告。

支持IPv4/IPv6双栈查询;覆盖全球五大洲网速及延迟测试;提供Json输出,便于大数据分析

NetQuality | #脚本
Go Optimization Guide:为Go开发者提供高性能应用优化的实战指南。

涵盖零拷贝、内存预分配等实用技术;提供34个优化案例,助力性能提升;采用MkDocs搭建,支持本地预览与部署
mcp-filesystem-server:一个用Go语言实现的文件系统操作服务器,通过Model Context Protocol(MCP)协议为文件操作提供强大支持。

支持读写文件、创建/删除目录等操作;可限制操作范围,仅允许在指定目录内操作,保障数据安全;提供丰富的文件搜索和元数据获取功能
一个跨平台的原生OCR工具,为MacOS、Windows和Linux用户提供强大的文字识别能力。

支持多种平台,包括MacOS原生Vision Kit API、Windows OCR引擎和Tesseract;统一API接口,轻松切换不同OCR提供商;异步处理与并行计算,性能卓越

uniocr | #工具
轻松微调Moshi模型的高效工具,让你快速拥有个性化语音交互模型

使用LoRA技术,微调过程轻量高效;支持多GPU加速训练,提升训练速度;提供完整教程和示例代码,新手也能快速上手

Moshi-Finetune | #工具
Open-Qwen2VL:这是一个高效预训练多模态大语言模型的开源项目,旨在利用学术资源进行计算高效的预训练。核心价值在于帮助研究人员和开发者低成本、高效率地训练和应用多模态LLMs。

提供完整的数据筛选和预训练流程,支持大规模图像-文本数据的高效处理;释放了所有预训练模型和指令微调模型的检查点,方便直接使用;支持多种多模态基准测试的评估,助力模型性能验证
DeepSite:为创业者和营销人员提供免费的无代码网站和应用构建工具。

结合Deepseek V3的强大功能与可视化画布,瞬间创建网站和应用;提供更美观的设计和更好的模板文案;100%免费在Hugging Face Spaces上使用
Back to Top