Skip to main content

黑洞资源笔记

  1. 清华大学教授AMiner创始人唐杰的团队做了一个全新的Agent能力榜单,评估基础模型智能体。

    这是一个多维演进基准测试,包括8个不同环境,用于评估大型语言模型(LLMs)在多回合开放式生成环境中的推理和决策能力,通过对25个语言模型的广泛测试,发现顶级商业语言模型在复杂环境中表现出色,且与开源模型之间存在显著差距。AgentBench的数据集,环境,和集成评估包已在 github上发布。

    8种不同的环境任务,即操作系统(OS)、数据库(DB)、知识图谱(KG)、卡牌对战(DCG)、情景猜谜(LTP)、家居(Alfworld)、网络购物(WebShop)、 和网页浏览(Mind2Web)。

    使用 AgentBench 对 25 个不同的语言模型进行了全面评估,揭示了领先的商业语言模型与开源模型之间的显着性能差距。对语言模型作为智能体的更广泛讨论的贡献,表明需要进行严格、系统的评估,并提供强大的开源工具来促进此类评估。

    AgentBench | demo | paper
  2. 智慧图书馆知识资源发布系统,目前有74家图书馆参与了这个系统。

    不同图书馆上传内容不同,天津图书馆上传的是旧期刊,金华发的是古籍,也有发旧报纸的,清晰度尚可。

    这个系统的特点是分析整理书籍中的“知识颗粒”,机构、人物、事件、地名等,不过不同图书馆整理分析程度不同。

    馆口 | #图书馆
  3. 一个来自于「聪明的阅读者」整理的通识类的书单,包括了各个领域的知识和理解,其中分成了最小 50 本,以及完整的 1000+ 书籍整理 | Excel
  4. Obsidian Importer 1.1 推出,可以更轻松地将数据转换为持久的纯文本文件,供永久离线访问。可与Notion、Bear、Google Keep、Evernote和HTML文件文件夹配合使用
  5. FAn是一个开放集、多模态的实时机器人系统,能通过文本、图像或点击等方式检测、追踪和跟随任意目标,具有灵活适应、实时处理和高效优化的优势。
  6. Baserun:该测试平台可帮助开发者快速可靠地发布LLM应用,支持从提示测试场景到端到端测试,使用 baserun 的 SDK 可以在测试过程中监控 LLM 特性和智能体行为,在生产环境中监控其行为。

    平台提供了全面的端到端测试和用户流程可视化,方便比较测试运行结果、编辑提示并重新运行测试。
  7. 企业定制LLM应用构建方案,将内部知识库作为模型的上下文,即作为提示的一部分,通过Fine-Tuning开源LLM,或者检索增强生成(RAG)的方式。性能取决于许多因素,如块的大小、块之间的重叠、嵌入技术等 | blog
  8. 基于Stable Diffusion XL的免费的离线文本图像生成软件

    Fooocus 包含并自动化了许多内部优化和质量改进。用户可以忘记所有那些困难的技术参数,只享受人与计算机之间的交互,“探索新的思维媒介,扩展人类的想象力”。

    Fooocus 简化了安装。在按下“下载”和生成第一张图像之间,所需的鼠标点击次数严格限制在 3 次以内。最低 GPU 内存要求为 4GB (Nvidia)。

    Fooocus | #工具