黑洞资源笔记

11:50 · Oct 14, 2023 · Sat

Documate：为内容网站增加 AI 问答功能

该工具支持为 VitePress、Docusaurus、Docsify 等制作的网站增加 AI 问答功能，用户询问，AI 基于网站内容回答。
14:51 · Oct 12, 2023 · Thu

RIP: 快速、精简的Rust实现的pip库，允许从Rust解析和安装Python PyPI包到虚拟环境中
14:49 · Oct 12, 2023 · Thu

可扩展的轻量级一站式训练、推理深度学习框架。它集成了各种高效的微调方法，如LoRA、QLoRA、阿里云自研的ResTuning-Bypass等，以及开箱即用的训练推理脚本，使开发者可以在单张商业级显卡上微调推理LLM&AIGC模型。此外，SWIFT与PEFT完全兼容，使开发者可以在ModelScope模型体系中使用PEFT的能力。

目前支持的方法：

LoRA：LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
Adapter：Parameter-Efficient Transfer Learning for NLP
Prompt: Visual Prompt Tuning
Side: Side-Tuning: A Baseline for Network Adaptation via Additive Side Networks
ResTuning-Bypass
所有在PEFT上提供的tuners

主要能力：

可以通过model-id使SWIFT或PEFT的方法使用ModelScope Hub中的模型
在单次训练或推理中可以使用多个tuners
支持调用activate_adapter或deactivate_adapter或set_active_adapters来使部分tuner激活或失活，用户可以在推理时同时加载多个独立的tuners在不同线程中并行使用。

swift | #框架

框架
14:44 · Oct 12, 2023 · Thu

Corax: Core RL in JAX：JAX强化学习算法库

它旨在为 RL 算法提供模块化、纯功能性组件，可以轻松地用于不同的训练循环和加速器配置。目标是提供强大的基线代理，可以为未来的强化学习研究进行分叉和定制。
14:42 · Oct 12, 2023 · Thu

Cannoli：用 Obsidian Canvas 编辑器构建和运行无代码 LLM 脚本

Cannolis 是利用 Openai API 读取/写入您的保管库并使用 HTTP 请求执行操作的脚本。Cannolis 是在 Obsidian Canvas 编辑器中创建的，使用卡片和箭头来定义变量和逻辑。它们可以使用控制功能区按钮或命令选项板在 Obsidian 中运行。

使用颜色或前缀，你可以创建不同类型的节点和箭头来定义基本逻辑功能，例如变量、字段、循环和分支选择。如果 Canvas 是有向无环图并遵循 Cannoli 模式，则它可以作为 cannoli 运行。

Cannoli 还可用于制作具有自定义逻辑和功能的 llm 聊天机器人。完成流媒体和可定制的格式。
14:38 · Oct 12, 2023 · Thu

现代统计学导论（第二版）

作者希望读者从这本书中获得三个想法，除了形成统计思维和方法的基础。
1. 统计学是一个应用广泛的实践领域。
2. 你不必是数学大师就能从有趣的真实数据中学习。
3. 数据是混乱的，统计工具并不完美。然而，当你理解这些工具的优点和缺点时，你可以用它们来了解世界的有趣事物。

主要内容：
第一部分：数据介绍。数据结构、变量、摘要、图形以及基本的数据收集和研究设计技术。
第二部分：探索性数据分析。数据可视化和总结，特别强调多变量关系。
第三部分：回归建模。使用线性和逻辑回归对数值和分类结果进行建模，并使用模型结果描述关系并进行预测。
第四部分：推理基础。案例研究用于介绍随机化测试、自举间隔和数学模型的统计推理思想。
第五部分：统计推断。使用随机化测试、自举间隔和数学模型对数值和分类数据进行进一步的统计推断细节。
第六部分：推理建模。将迄今为止提出的推理技术扩展到线性和逻辑回归设置，并评估模型性能。

Introduction to Modern Statistics (2nd Ed) | #电子书

电子书
03:48 · Oct 12, 2023 · Thu

一个类似于Readerwise的功能强大的商业化浏览器插件，可以对网页内容进行标记、收藏和保存，也支持接入AI对网页总结。

所有数据都保存在本地，可以本地对保存的网页、PDF进行全文检索检索。

Memex | Chrome Store | home | #插件

Memex.ts

100.6 MB

插件
03:00 · Oct 12, 2023 · Thu

Fondant-cc-25m: 包含2500万图像-文本对的数据集 | #数据集

数据集
02:58 · Oct 12, 2023 · Thu

面向普通桌面用户的、开源的、人类可读的 Linux 桌面文档。目前文档主要是以Fedora 和Opensuse两个发行版介绍为主。

本文档关注 Linux 桌面用户的实际体验，通过阅读本文档并参考本文档的指引，你能够正确地安装 Linux 系统，获取满足办公、生活、娱乐等需求的贴合日常实际使用需求的软件并进行合理配置。

本指南大致分为三个部分，敬请选择自己需要的部分阅读：

入门指南：针对新手的Linux安装与使用指南，旨在快速安装并使用
进阶教程：更进一步的指引，伴以概念性的讲解
解决方案：对于各种需求解决方案，包括影音娱乐、网上冲浪等方面

Linux 银河漫游指南 | #指南 #Linux

指南 Linux
02:51 · Oct 12, 2023 · Thu

OpenWebMath：包含互联网上大部分高质量数学文本的数据集，从 Common Crawl 的超过 2000 亿 HTML 文件中过滤并提取出包含 147 亿 Token 的 630 万份文档，OpenWebMath 旨在用于预训练和微调大型语言模型 | #数据集

数据集
02:01 · Oct 12, 2023 · Thu

一图让你看懂并记住所有正则表达式规则 | 思维导图 | #正则表达式

正则表达式
13:36 · Oct 11, 2023 · Wed
12:40 · Oct 10, 2023 · Tue

免费开源的屏幕实时翻译工具

主要特点
文字识别精度高：Translumo 允许同时组合使用多个 OCR 引擎。它使用机器学习训练模型对 OCR 的每个识别结果进行评分，并选择最好的结果。

界面简单：主要想法是制作一种不需要针对每种情况进行手动调整且方便日常使用的工具。

低延迟：实施了多项优化，以减少对系统性能的影响，并最大限度地减少文本出现和实际翻译之间的延迟。

集成现代 OCR 引擎： Tesseract 5.2、WindowsOCR、EasyOCR

可用翻译器： Google 翻译、Yandex 翻译、Naver Papago、DeepL
可用识别语言：英语、俄语、日语、中文（简体）、韩语
可用翻译语言：英语、俄语、日语、中文（简体）、韩语、法语、西班牙语、德语、葡萄牙语、意大利语、越南语、泰语、土耳其语

系统要求
Windows 10 内部版本 19041 (20H1) / Windows 11
DirectX11
8 GB RAM （适用于 EasyOCR 模式）
5 GB 可用存储空间（适用于 EasyOCR 模式）
支持 CUDA SDK 11.8 的 Nvidia GPU（GTX 7xx 系列或更高版本）（适用于 EasyOCR 模式）

Translumo | #工具

preview-EN.gif

17.2 MB

工具
16:13 · Oct 9, 2023 · Mon

传奇程序员卡马克（John Carmack），与强化学习之父萨顿（Richard Sutton）强强联手了，All in AGI。

2030年向公众展示通用人工智能的目标是可行的。并且与主流方法不同，不依赖大模型范式，更追求实时的在线学习。| 详文
15:51 · Oct 9, 2023 · Mon

《Deep Learning and Scientific Computing with R torch》使用 R torch 进行深度学习和科学计算

torch这是一本关于PyTorch 的 R 接口的书。截至撰写本文时，PyTorch 是主要的深度学习和科学计算框架之一，广泛应用于各个行业和研究领域。使用torch可以直接从 R 访问其丰富的功能，无需安装，更不用说学习 Python。尽管作为一个项目仍然“年轻”，torch但已经拥有一个充满活力的用户和开发者社区；后者不仅扩展了核心框架，而且还在自己的包中进行了构建。

在线浏览 | #电子书

电子书
15:43 · Oct 9, 2023 · Mon

Easy搞定Golang设计模式 | #电子书

视频教程：抖音/b站 | 源代码 | 在线浏览

电子书
15:39 · Oct 9, 2023 · Mon

一个基于 Rust 的 Postgres 扩展，可显著提高 Postgres 的全文搜索功能。pg_bm25以现代搜索引擎用来计算搜索结果相关性分数的算法 BM25 命名。

使用该类型的 Postgres 原生全文搜索tsvector有两个主要问题：

性能：在大表上搜索和排名很慢。当表增长到数百万行时，单个全文搜索可能需要几分钟的时间。
功能：Postgres 不支持模糊搜索、相关性调整或 BM25 相关性评分等操作，而这些操作是现代搜索引擎的基础。

pg_bm25旨在弥合 Postgres 全文搜索的本机功能与 ElasticSearch 等专业搜索引擎的本机功能之间的差距。目标是消除将 ElasticSearch 这样繁琐的服务引入数据堆栈的需要。

一些功能pg_bm25包括：

100% Postgres 原生，对外部搜索引擎零依赖；
构建于 Tantivy 之上，Tantivy 是 Apache Lucene 搜索库的基于 Rust 的替代品；
与Postgres 的内置全文搜索和排序功能tsquery和相比，超过 100 万行的查询时间快了 20 倍ts_rank；
支持模糊搜索、聚合、突出显示和相关性调整；
相关性评分使用 BM25，与 ElasticSearch 使用的算法相同；
实时搜索 - 新数据可立即搜索，无需手动重新索引。

pg_bm25站在几个开源巨头的肩膀上。这篇博文的目的是认识这些项目并分享pg_bm25其构建方式，为开发人员提供 Postgres 数据库的简单性和世界级搜索引擎的搜索功能。

pg_bm25 | #扩展

扩展
15:29 · Oct 9, 2023 · Mon

用不到500行Python代码写一个简单的Web Server | link

在过去的二十年里，网络以无数的方式改变了社会，但其核心却变化甚微。大多数系统仍然遵循蒂姆·伯纳斯·李二十五年前制定的规则。特别是，大多数 Web 服务器仍然以相同的方式处理与当时相同类型的消息。

本章将探讨他们是如何做到这一点的。同时，它将探索开发人员如何创建不需要重写即可添加新功能的软件系统。
05:52 · Oct 8, 2023 · Sun

用AI还原采访乔布斯于1985年对个人电脑、智能手机及未来科技的看法。 | YouTube

AI Talk是全网首档由aigc技术生成的对话节目，关注科技、商业和人文

剧本：GPT4 艺术设计：Midjourney v5 互动： AI.Talk

7:35

Media is too big
VIEW IN TELEGRAM
05:46 · Oct 8, 2023 · Sun

This Week in Rust | #Rust

此页面可了解 Rust 生态在一周内的动态。

Rust