黑洞资源笔记

09:08 · Jun 24, 2023 · Sat

Awesome Codebases：一系列值得探索的优秀开源代码库。
09:02 · Jun 24, 2023 · Sat

SSLRec是一个基于 PyTorch 的深度学习框架，用于通过自我监督学习技术增强的推荐系统。包含常用的数据集、用于数据处理、训练、测试、评估和最先进的研究模型的代码脚本。 SSLRec提供了大量实用函数和易于使用的界面，简化了推荐模型的开发和评估。

突出特点
🧩灵活的模块化架构。SSLRec 库采用模块化架构，可以轻松定制和组合模块。这使用户能够创建适合其特定需求和要求的个性化推荐模型。

🌟多样化的推荐场景。SSLRec 库是一个多功能工具，适合有兴趣在不同推荐系统研究领域构建有效推荐模型的研究人员和从业者。

💡综合最先进的模型。我们的 SSLRec 框架为各种场景提供了广泛的 SSL 增强推荐模型。研究人员可以使用先进技术评估这些模型，并将其作为推动推荐系统领域创新的基础。

📊统一数据馈送和标准评估协议。SSLRec框架具有统一的数据馈送器和标准评估协议，可以轻松加载和预处理来自各种来源和格式的数据，同时确保对推荐模型的客观和公平评估。

🛠丰富的实用功能。SSLRec 库提供了大量实用函数，可以简化推荐模型的开发和评估。这些功能结合了推荐系统的常见功能以及图操作、网络架构和损失函数的自监督学习。

🤖易于使用的界面。我们提供了一个用户友好的界面，可以简化推荐模型的训练和评估。这使得研究人员和从业者能够轻松高效地试验各种模型和配置。

SSLRec | #框架

框架
08:58 · Jun 24, 2023 · Sat

YouTube计划通过AI来简化视频的多语言配音。其在VidCon上宣布，将从Google的Area 120孵化器引入Aloud团队，这是一家由AI驱动的配音服务公司。

根据Aloud网站上的介绍，该工具首先对视频进行转录，生成可供查看和编辑的文字稿，然后进行翻译并生成配音，YouTube还计划在2024年推出让翻译后的音轨听起来像创作者本人声音、更具表达力和唇形同步的功能。

这项技术对于越来越多的创作者为他们的视频添加多语言配音来说将非常有用。
08:51 · Jun 24, 2023 · Sat

解码C/C++编译过程：从源码到二进制。 | 详文
08:11 · Jun 24, 2023 · Sat

苹果的新系统：visionOS

visionOS 的三维界面使应用程序摆脱了传统显示器的边界限制，使它们可以以不同的比例并排出现。用户界面能够动态响应自然光线，投射阴影以帮助传达规模和距离感。

visionOS 将包含来自 Adobe（特别是 Lightroom）、微软（Teams 和 Office）、思科（WebEx）Zoom 和其他主要开发商的应用程序 —— 包括在 Vision Pro 上本地运行的 Unity 应用程序。有用于查看解剖图渲染图的医疗软件和用于在真实世界对象之上可视化物理现象（如气流）的工程应用程序。

此外，visionOS 还支持 EyeSight，它将 Vision Pro 的穿戴者的眼睛投射到头显的曲面外部显示器上。Apple 还强调了 visionOS 中的新安全系统 Optic ID，它使用虹膜扫描进行身份验证。这些数据被加密，并与 Secure Enclave（集成到 Apple 系统芯片中的子系统）一起工作。

visionOS 的开发者工具套件核心是 SwiftUI + Xcode + Reality Composer + Unity。
07:35 · Jun 24, 2023 · Sat

最先进的免费开源程序比较工具 Diaphora。

Diaphora（διαφορά，希腊语“差异”）3.0 版是迄今为止（2023 年）最先进的程序差异工具（作为 IDA 插件）。它在 SyScan 2015 期间首次发布，自今年以来一直得到积极维护：它已被移植到 IDA 自 6.8 到 8.3 的每个小版本中。

独特的功能
Diaphora 具有许多你可能期望的最常见的程序比较（bindiffing）功能，例如：

差异汇编器。
差异控制流程图。
移植符号名称和注释。
添加手动匹配。
相似比计算。
批量自动化。
调用图匹配计算。
基于图论、汇编器、字节、函数特征等的数十种启发式方法...
然而，Diaphora 也有许多独特的功能，是任何其他公共工具所不具备的。以下是独特功能的不详尽列表：

能够移植结构、枚举、联合和类型定义。
支持编译单元（查找和比较编译单元）。
微码支持。
并行差异。
基于伪代码的启发式方法。
伪代码补丁生成。
区分伪代码（带有语法突出显示！）。
脚本支持（用于导出和比较过程）。

文档 | Diaphora | #工具

工具
06:57 · Jun 24, 2023 · Sat

Deepmind 推出了一个可以自我改进的AI机器人代理：RoboCat

它能自我学习并在不同的机械臂上执行各种任务，而且还能自我生成新的训练数据以改进其技术。

RoboCat的学习速度非常快。只需要观察100次左右的演示，就可以学会操控机械臂来完成各式各样的任务，并且它还能通过自生成的数据来进行迭代改进。

RoboCat的一些主要特点：

1、多任务和自适应能力：RoboCat是第一个能够解决和适应多个任务，并在不同的真实机器人上执行这些任务的代理。

2、快速学习：RoboCat的学习速度比其他最先进的模型快得多。它可以通过观察少至100个示例来学习新任务，因为它从大型多样化的数据集中获取信息。这将有助于加速机器人研究，因为它减少了对人工监督训练的需求，这是创建通用机器人的重要步骤。

3、自我改进：RoboCat基于Deepmind的多模型模型Gato，它可以在模拟和物理环境中处理语言、图像和动作。将Gato的架构与大型训练数据集结合起来，该数据集包含了各种机器人臂解决数百种不同任务的图像和动作序列。

4、操作新的机器人臂和解决更复杂的任务：通过RoboCat的多样化训练，它在几个小时内学会了操作不同的机器人臂。虽然它已经在两爪夹具的臂上进行了训练，但它能够适应更复杂的臂，这种臂有三个手指的夹具和两倍的可控输入。

5、自我改进的通才：RoboCat有一个训练的良性循环：它学习的新任务越多，它在学习其他新任务上就越好。最初版本的RoboCat在以前未见过的任务上的成功率只有36%，这是在每个任务上从500个示例中学习后的结果。但是最新的RoboCat，在对更多任务进行了训练后，将这个成功率提高了一倍多。

4:18

Media is too big
VIEW IN TELEGRAM
05:46 · Jun 24, 2023 · Sat

永乐大典：高清影像数据库（第一辑）正式上线，这是国家图书馆馆藏 40 册《永乐大典》首次在线上公开，包括 75 卷内容，共涉及 14 个韵部、17 个韵字、1800 部书。共计22937卷（含目录与凡例60卷）11095册，约3.7亿字，收先秦至明初的各类典籍七八千种，被称为典籍渊薮、佚书宝库。| #电子书 #数据库

电子书数据库
17:07 · Jun 23, 2023 · Fri

Kaguya 是一个 ChatGPT 插件，允许你以受控方式加载和编辑本地文件，以及运行任何 Python、JavaScript 和 bash 脚本。这使其成为开发人员的强大工具，使他们能够与文件系统交互并直接从 ChatGPT 运行脚本。

该项目提供了多个 API 端点，允许你与文件系统交互。文件中描述了 API openapi.yaml。以下是简要概述：

POST /api/executeCommand：执行shell命令。
GET /api/listFilesInDirectory：列出指定目录下的文件和目录。
GET /api/readFile：读取用户目录下文件的内容。
POST /api/update：通过执行搜索和替换操作来更新用户目录中的文件。
POST /api/updateWholeFile：替换用户目录下文件的全部内容。
POST /api/createFile：创建一个新文件。
POST /api/deleteFile：删除用户目录下的文件。
POST /api/renameFile：重命名用户目录中的文件。
POST /api/appendToFile：将内容追加到现有文件的末尾。
POST /api/createDirectory：新建一个目录。
POST /api/deleteDirectory：删除目录及其内容。
POST /api/readMultipleFiles：读取多个文件的内容。

Kaguya | #插件

插件
17:00 · Jun 23, 2023 · Fri

用来将长文本提示分割成小块的开源工具，适用于ChatGPT等有字符限制的语言模型，用来绕过限制。

ChatGPT PROMPTs Splitter | #工具

工具
16:13 · Jun 23, 2023 · Fri

Exograph是一种声明式方式，用于创建灵活、安全且高性能的后端，提供 GraphQL 查询和变异 API。

Exograph 可让你专注于域模型和业务逻辑，从而能够在应用程序上进行更多创造性的工作。此外，它还提供支持开发生命周期所有阶段（从开发到部署到维护）的工具。
16:10 · Jun 23, 2023 · Fri

用 SQL 查询和分析分布式数据的数据库系统 | GlareDB | #数据库

数据库
15:36 · Jun 21, 2023 · Wed

George Hotz 在最近的一个播客中提到了 GPT-4的大小/架构 | 详文

1:23:23

Media is too big
VIEW IN TELEGRAM
14:40 · Jun 21, 2023 · Wed

gpt-author：使用GPT-4和Stable Diffusion API调用链生成原创奇幻小说。用户提供初始提示和章节数，AI会生成整本小说，输出与电子书阅读器兼容的EPUB文件，一本15章的小说只需$4，几分钟写成。

原理：人工智能被要求根据给定的提示生成潜在绘图的列表。然后，它会选择最吸引人的情节，对其进行改进，并提取标题。之后，它会生成具有指定章节数的详细故事情节，然后尝试改进该故事情节。然后人工智能根据情节并考虑到前几章的内容单独编写每一章。最后，生成设计封面的提示，并创建封面。最后，将所有内容整合在一起，将小说编译成 EPUB 文件。
14:31 · Jun 21, 2023 · Wed

ChemCrow 是一个开源软件包，用于准确解决推理密集型化学任务。

它是用 Langchain 构建的，使用了一系列化学工具，包括 RDKit、paper-qa 以及一些化学相关数据库，如 Pubchem 和 chem-space。
14:29 · Jun 21, 2023 · Wed

mmap-sync：Rust写的并发数据访问库，使用内存映射文件、零拷贝反序列化，免等待同步。

其核心mmap-sync是一个Synchronizer结构，它提供了一个带有“写入”和“读取”方法的简单接口，允许用户读取和写入任何T实现或派生某些 rkyv 特征的 Rust 结构体 ( )。

数据存储在共享映射内存中，允许Synchronizer同时“写入”和“读取”。这使得它成为mmap-sync管理共享、并发数据访问的高效且灵活的工具。