openai-cua-sample-app:OpenAI推出的Computer Using Agent示例应用,助力开发者快速上手构建智能Agent。

应用程序使用 Python 编写,支持多种计算机环境,如本地浏览器、Docker 容器以及远程浏览器等。用户可以通过命令行界面(CLI)运行示例,执行各种操作,如点击、滚动、输入文本等。

提供多种计算机环境支持,包括本地浏览器、Docker容器和远程浏览器;预置丰富的示例代码,涵盖从基础到进阶的使用场景;简化与OpenAI API的交互,快速实现自动化任务
Awesome-Multimodal-Reasoning:一个专注于多模态推理的优秀资源库。

汇集了超过40个前沿多模态模型和方法;提供了丰富的多模态基准测试和数据集资源;涵盖图像、视频推理及生成等多个领域
MovieAgent:通过多Agent协同规划实现自动化电影生成的创新项目。

首次探索自动化长视频生成范式,从剧本到成片一键生成;采用多Agent协同推理,模拟导演、编剧、分镜师等角色,效率大幅提升;支持多种生成模型,如ROICtrl和HunyuanVideo_I2V,生成效果稳定且多样
TxAgent:为精准医疗提供强大的AI治疗推理工具 | #工具

跨211种工具进行多步推理,精准分析药物相互作用;在3168个药物推理任务中达到92.1%的准确率,超越GPT-4o;支持个性化治疗方案,综合患者年龄、基因和疾病进展
Awesome-Long-Chain-of-Thought-Reasoning:为大语言模型的长思维链推理能力提升提供全面的资源和研究综述。

涵盖600+篇长链推理相关文献,资源丰富;提出深度推理、可行反思和广泛探索三大核心特性;首个系统性总结长链推理的综述,填补研究空白
AI驱动的YouTube内容探索工具,让你秒变YouTube搜索达人。

用自然语言搜索视频内容,秒出精准结果;聊天式交互,与频道内容“对话”;快速定位视频关键片段,效率提升N倍

YT Navigator | #工具
building-llm-applications-from-scratch:关于如何从头构建基于大型语言模型(LLM)应用程序的课程,涵盖了 Transformer 架构、检索增强生成(RAG)技术以及开源 LLM 部署的深入知识。

深入讲解Transformer架构与RAG技术,提供6个实战项目,学以致用
SuperBPE: Space Travel for Language Models:本文创新性地提出了 SuperBPE 超词词元化算法,通过两阶段预词元化课程,突破了传统 BPE 子词词元化的限制,实现了更高效的文本编码和更优越的语言模型性能,尤其在推理效率方面取得了显著提升,挑战了子词词元化的传统范式,为未来语言模型词元化技术的发展开辟了新的方向。
迄今为止最大的自动驾驶数据集,助力开发者轻松训练自动驾驶模型。

数据量惊人,高达90 TeraBytes;超长驾驶时长,涵盖5000小时真实路况;6个环绕高清摄像头,全方位捕捉驾驶场景

L2D | #数据集
Back to Top