Skip to main content

黑洞资源笔记

  1. 标配 12G 起步,M3 Mac 或将取消 8G 内存

    来自彭博社的消息,最快将于下个月发布的新款 M3 Mac 家族或将取消 8G 内存的入门机型。消息称目前正在进行测试的新款 MacBook Pro 配备了最高 48GB 的统一内存,根据 Apple Silicon 的传统,Max 版的芯片将会拥有基本版芯片的 4 倍内存,这或许意味着接下来 M3 Mac 将以 12G 内存作为基础配置。
  2. 书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总体超过2TB。

    基于大模型数据联盟构建的语料库,上海AI实验室对其中部分数据进行了细粒度清洗、去重以及价值梳理,形成了书生·万卷1.0,具备多元融合、精细处理、价值梳理、数学高效等四大特征。

    在多元方面,书生·万卷1.0包含文本、图文、视频等多模态数据,范围覆盖科技、融合、媒体、教育、法律等多个领域,在训练提升模型知识内涵、逻辑推理和泛化推理化能力方面具有显着效果。

    在精细化处理方面,书生·万卷1.0经历了甄别语言、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多维度重整、数据质量评估等精细化数据处理环节,从而能够更好接地装配后续的模型训练需求。

    在价值洞察方面,研究人员在书生·万卷1.0的构建过程中,着眼于内容与中文主流价值观结合的洞察,通过算法与人工评估的方式,提升了语料的纯净度。

    在高效建模方面,研究人员在书生·万卷1.0统一格式,并提供了详细的参数字段说明和工具指南,综合考虑了建模性和效率,可快速评估语言、多模态等大模型训练。

    目前,书生·万卷1.0已被评估书生·多态、书生·浦语的训练。通过对高质量语料的“消化模型”,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出了优异的性能。

    WanJuan1.0 | #语料库
  3. 清华大学教授AMiner创始人唐杰的团队做了一个全新的Agent能力榜单,评估基础模型智能体。

    这是一个多维演进基准测试,包括8个不同环境,用于评估大型语言模型(LLMs)在多回合开放式生成环境中的推理和决策能力,通过对25个语言模型的广泛测试,发现顶级商业语言模型在复杂环境中表现出色,且与开源模型之间存在显著差距。AgentBench的数据集,环境,和集成评估包已在 github上发布。

    8种不同的环境任务,即操作系统(OS)、数据库(DB)、知识图谱(KG)、卡牌对战(DCG)、情景猜谜(LTP)、家居(Alfworld)、网络购物(WebShop)、 和网页浏览(Mind2Web)。

    使用 AgentBench 对 25 个不同的语言模型进行了全面评估,揭示了领先的商业语言模型与开源模型之间的显着性能差距。对语言模型作为智能体的更广泛讨论的贡献,表明需要进行严格、系统的评估,并提供强大的开源工具来促进此类评估。

    AgentBench | demo | paper
  4. 智慧图书馆知识资源发布系统,目前有74家图书馆参与了这个系统。

    不同图书馆上传内容不同,天津图书馆上传的是旧期刊,金华发的是古籍,也有发旧报纸的,清晰度尚可。

    这个系统的特点是分析整理书籍中的“知识颗粒”,机构、人物、事件、地名等,不过不同图书馆整理分析程度不同。

    馆口 | #图书馆
  5. 一个来自于「聪明的阅读者」整理的通识类的书单,包括了各个领域的知识和理解,其中分成了最小 50 本,以及完整的 1000+ 书籍整理 | Excel
  6. Obsidian Importer 1.1 推出,可以更轻松地将数据转换为持久的纯文本文件,供永久离线访问。可与Notion、Bear、Google Keep、Evernote和HTML文件文件夹配合使用
  7. FAn是一个开放集、多模态的实时机器人系统,能通过文本、图像或点击等方式检测、追踪和跟随任意目标,具有灵活适应、实时处理和高效优化的优势。
  8. Baserun:该测试平台可帮助开发者快速可靠地发布LLM应用,支持从提示测试场景到端到端测试,使用 baserun 的 SDK 可以在测试过程中监控 LLM 特性和智能体行为,在生产环境中监控其行为。

    平台提供了全面的端到端测试和用户流程可视化,方便比较测试运行结果、编辑提示并重新运行测试。
  9. 企业定制LLM应用构建方案,将内部知识库作为模型的上下文,即作为提示的一部分,通过Fine-Tuning开源LLM,或者检索增强生成(RAG)的方式。性能取决于许多因素,如块的大小、块之间的重叠、嵌入技术等 | blog