Skip to main content

黑洞资源笔记

  1. OpenWRT 将推出官方路由器

    为庆祝项目诞生 20 周年,OpenWRT 将推出首款官方路由器产品:「OpenWRT One / AP-24.XY」。根据 OpenWRT 团队的介绍,该项目在 17 - 18 年的 OpenWRT 峰会立项,但直到上个月才确定最终方案。

    根据目前公布的硬件提案,「OpenWRT One」将使用 MT7981B SOC 配合 1GB DDR4 内存组成运算核心,RF 芯片则会选用成熟的 MT7976C 方案。除此以外,这款产品还将配备 2.5 G + 1G 的 RJ45 电口、2042 规格的 M.2 硬盘位、以及支持 PD 协议的电源输入接口。OpenWRT 团队宣称这款产品将完全开源,并力争将价格控制在 100 美元以下。
  2. 介绍了一种更高效的方法来收集和标注图像数据,以用于视觉和视觉-语言应用。

    通过在电子商务网站上收集图像和描述文本,构建了一个名为Let's Go Shopping (LGS)的大规模公共数据集,包含1500万个图像-描述对。

    与现有的通用数据集相比,LGS图像更注重前景对象,背景较简单。实验结果表明,现有基准数据集上训练的分类器不容易推广到电子商务数据,而特定的自监督视觉特征提取器可以更好地泛化。

    此外,LGS具有高质量的电子商务焦点图像和双模态特性,在视觉语言双模态任务中具有优势,可以生成更丰富的图像描述并实现电子商务风格转换。

    为了使LGS可供公众使用,将以"BSD 3-Clause"许可证共享筛选后的图像-描述链接,并提供下载工具以便复现数据集。| paper
  3. MagicVideo-V2是一个多阶段的视频生成流程,将文本转图像、视频动作生成、参考图像嵌入和帧插值等模块集成到一个端到端的视频生成流水线中,能生成具有出色保真度和流畅度的高分辨率视频。

    MagicVideo-V2在美学质量和用户评估方面优于其他文本到视频系统。这一流程为从文本描述生成高质量视频提供了一种新的方法。
  4. ChatLLM 是一个 VSCode 扩展,用于以灵活且长格式的方式与 LLM API 进行交互。它利用 VSCode 笔记本支持来实现此目的,创建一种新型笔记本 (.chatllm) 文件,你可以在其中通过长文档与(基于 API 的)LLM 系统进行交互。

    注意:此插件需要你有自己的 OpenAI API 密钥(或其他 LLM API 密钥);它不适用于免费版本的 ChatGPT。

    特点包括:

    利用现有的笔记本用户体验,直接在 VSCode IDE 中进行聊天对话。
    在本地存储和操作长格式聊天对话,无需依赖云存储。
    将文件动态展开为提示,以更新提示以响应编辑。
    支持不同的LLM API(目前是OpenAI、Together、Google),支持多种不同的模型。

    chatllm-vscode | #扩展
  5. AIlice是一个正在开发的轻量级AI Agent,它也可以作为一个简单的开发框架,用于快速构建和试验各种AI Agent想法。特点如下:

    自然且高度容错的交互式代理调用树架构。
    以最灵活的方式解析 LLM 输出,支持更多样的函数调用机制。
    自构建、动态加载环境交互模块,提供无限的功能扩展潜力。
    专为开源模型设计,但无缝支持 GPT-4 等商业模型。
    支持对特定主题的深入调查。
    自动化编程和脚本执行。它是一个包罗万象的编码器和熟练的系统管理工具,掌握所有系统命令——类似于人工智能操作系统。

    设计AIlice时的基本原则是:

    以高度动态的提示构建机制丰富LLM行为;
    尽可能分离不同的计算任务,利用传统计算中的递归和分治法来解决复杂问题。
    代理应该能够双向交互。

    让我们简要解释一下这些基本原则。

    从最明显的层面开始,高度动态的提示结构使得代理不太可能陷入循环。外部环境新变量的涌入不断影响着法学硕士,帮助其避免陷入这种陷阱。此外,向法学硕士提供所有当前可用的信息可以大大提高其产出。例如,在自动化编程中,来自解释器或命令行的错误消息帮助法学硕士不断修改代码,直到获得正确的结果。最后,在动态提示构建中,提示中的新信息也可能来自其他智能体,作为一种联动推理计算的形式,使得系统的计算机制更加复杂、多样,能够产生更丰富的行为。

    从实际的角度来看,分离计算任务是由于我们有限的上下文窗口。我们不能指望在几千个代币的窗口内完成一项复杂的任务。如果我们能够分解一个复杂的任务,以便在有限的资源内解决每个子任务,那将是一个理想的结果。在传统的计算模型中,我们一直利用这一点,但在以LLM为中心的新计算中,这并不容易实现。问题是,如果一个子任务失败,整个任务就有失败的风险。递归更具挑战性:如何确保每次调用时,LLM 都能解决部分子问题,而不是将整个负担传递给下一级调用?我们在AIlice中用IACT架构解决了第一个问题,第二个问题理论上不难解决,但很可能需要更聪明的LLM。

    第三个原则是大家目前正在努力的:让多个智能代理交互、协作来完成更复杂的任务。这一原则的实现实际上解决了前面提到的子任务失败的问题。多智能体协作对于智能体运行中的容错能力至关重要。事实上,这可能是新计算范式与传统计算最大的区别之一:传统计算是精确且无错误的,仅通过单向通信(函数调用)来分配子任务,而新计算范式则容易出错且需要计算单元之间的双向通信来纠正错误。这将在下面有关 IACT 框架的部分中详细解释。
  6. Promptuity:提供交互式提示的库,具有高度可扩展性,允许你从头开始构建自己的提示,主要用于Rust语言,可以用于构建命令行工具和交互式应用程序。
  7. Wordflow:社交化、可定制的AI写作助手,可以轻松创建和运行不同的大型语言模型(例如GPT 4和Gemini Pro)的AI提示。

    用户还可以在社区中发现和分享自己喜欢的提示。特点包括存储和运行喜爱的AI提示、支持多个AI模型、强大的定制化功能以及社区提示的发现和分享。
  8. spin:在本地复制生产环境,用Docker轻松运行并配置,可以在不同操作系统上运行,包括MacOS、Windows和Linux,通过简单的配置文件实现基础设施的集中管理
  9. Maybe: 开源个人财务管理应用,提供包括净值跟踪、金融账户同步、投资基准比较、投资组合分配、债务洞察、退休规划、投资回报模拟以及手动账户/投资跟踪等功能
  10. Anim-400K: 大规模的视频配音数据集,包含了英语和日语两种语言的音视频剪辑,由超过425,000个对齐的剪辑(763小时)组成,涵盖了190多种不同的作品以及数百个主题和流派。
  11. TrustLLM: LLM(大型语言模型)可信度研究,包括对LLM可信度不同维度的原则制定、建立了六个维度的基准评估,涵盖了真实性、安全性、公平性、鲁棒性、隐私性和机器伦理等方面
  12. VTable:高性能的多维数据分析表格,不仅能处理百万级数据的快速运算和渲染,还提供强大的图形能力,能自动分析和呈现多维数据
  13. Blitzar:旨在加速SQL操作的零知识证明,提供了CPU和GPU上的加速密码学零知识证明算法的C++库,支持多标量乘法、广义Pedersen承诺和多指数运算等密码学原语,能在单个GPU上以极快的速度运行Proof of SQL,同时提供了CPU支持,用于测试。
  14. Hi Echo:网易有道新推的一款主打虚拟人的口语练习App,搭载子曰教育大模型,其设计理念体现了大模型个性化服务的精髓:用户可以根据自己的口语水平和学习阶段,选择不同难度的练习,确保了各种水平的学习者都能得到适合的训练。

    Hi Echo在内容层面也很出色,语料库非常丰富,使得与AI的对话几乎没有话题限制,相较于传统真人外教大幅拓宽了知识面。雅思考试已经和Hi Echo达成官方合作,也是对这款虚拟人AI产品能力的认可,标志着语言学习进入了一个新时代。

    Hi Echo不仅仅是一款口语练习工具,更是对个性化学习的创新和探索,代表了AI在语言教育领域的前沿进展。

    Hi Echo连续包月68元/月,年度会员698元/年,连续包年498元/年。这意味着,用户只需要一节外教课的费用,就可以利用Hi Echo练习一整年英语口语。
    Hi Echo 全球首个虚拟人口语私教.webm
    25.2 MB