黑洞资源笔记

14:50 · Apr 7, 2024 · Sun

MaxKB - 基于 LLM 大语言模型的知识库问答系统，开箱即用，支持快速嵌入到第三方业务系统
14:48 · Apr 7, 2024 · Sun

AI生成内容泛滥冲击Google Books

Google Books作为索引已出版资料的重要学术工具，正在收录大量低质量、由AI生成的书籍内容，并会出现在Google Books的搜索结果中。

大量索引AI生成的垃圾内容，可能会影响Google Ngram Viewer的结果准确性。Ngram Viewer是研究人员用来追踪历史语言使用情况的重要工具，它基于Google Books的数据。这反映出在AI技术快速发展的背景下，学术界对付AI生成的大规模垃圾内容还缺乏应对之策。图书出版和学术搜索工具的把关机制亟待升级，以应对AI带来的挑战。

谷歌官方表示会删除所有低质量内容，无论是AI还是人工创作。但AI生成内容的泛滥，对搜索引擎和学术工具构成了前所未有的冲击。

思考：
- AI生成内容正以超乎想象的速度渗透到方方面面。作为知识索引的基础设施，Google Books这样的工具首当其冲受到冲击，凸显出AI时代学术规范和内容把关面临的困境。
- 海量的AI垃圾内容会稀释优质内容的密度，误导读者，破坏学术生态。Ngram Viewer等研究工具也会受到污染，影响学术研究的准确性。学术界需要高度重视这一问题。
- 识别AI生成内容本身就是一个技术挑战。传统的人工审核已然不敷使用，平台和工具方需要研发更智能的AI技术来对抗恶意的AI生成内容。
- 从源头治理，完善AI伦理规范，加强对AI滥用的监管，需要学界、业界、政府多方合力。在拥抱AI红利的同时，也要警惕其负面影响，建立科学的AI治理体系。
14:41 · Apr 7, 2024 · Sun

由 Libra-AI 开发的一个开源工具，用于将事实验证过程自动化。它提供了一个全面的管道，用于将长文本剖析成单独的主张、评估其验证的价值、生成证据搜索的查询、爬取证据并最终验证主张。

该工具对于记者、研究人员和任何对信息真实性感兴趣的人特别有用。

Loki | #工具

工具
14:34 · Apr 7, 2024 · Sun

免费的、简单直观的在线数据库设计工具和 SQL 生成器

DrawDB | #生成器 #工具

生成器工具
14:31 · Apr 7, 2024 · Sun

OpenAI Streaming：一个 Python 库，提供易于使用的 Pythonic 接口，支持 OpenAI 的基于生成器的 Streaming，并支持回调机制来处理流内容
14:30 · Apr 7, 2024 · Sun

torchdbg：PyTorch 操作的跟踪器和反应式 UI，用于以调试器的形式可视化跟踪
14:29 · Apr 7, 2024 · Sun

Boehm-Demers-Weiser Garbage Collector：保守的 C/C++ 垃圾收集器，可以在使用时动态分配内存
14:27 · Apr 7, 2024 · Sun

twitter-web-exporter：使用 TypeScript 开发的开源项目，可用于从 Twitter 网页应用程序导出 tweets、书签、列表、搜索结果、用户关注列表等

局限性
该脚本仅适用于网络应用程序 (twitter.com)。它不适用于移动应用程序。

基本上，脚本“看到”你在页面上看到的内容。如果你看不到页面上的数据，则脚本也无法访问它。例如，Twitter 在个人资料页面上仅显示最新的 3200 条推文，并且脚本无法导出早于此的推文。

网页上的数据是动态加载的，这意味着脚本在加载之前无法访问数据。需要继续向下滚动以加载更多数据。确保在导出之前加载所有数据。

导出过程不是自动化的（没有第三方工具的帮助）。它依靠人类交互来触发 Twitter Web 应用程序的数据获取过程。该脚本本身不会向 Twitter API 发送任何请求。

该脚本不依赖官方 Twitter API，因此没有相同的速率限制。然而，Twitter 网络应用程序确实有其自身的局限性。如果达到该速率限制，请在几分钟后重试。

相反，该脚本可以导出官方API无法提供的数据。例如，官方API在访问书签时有800个限制。该脚本可以导出所有书签，不受该限制，直到受到 Twitter Web 应用程序本身的限制。

下载媒体文件也有限制。目前，该脚本将图片和视频下载到浏览器内存，然后将它们压缩到单个存档中。如果媒体文件太大，可能会导致浏览器崩溃。它可以处理的最大存档大小取决于浏览器和计算机的可用内存。（Chrome 上为 2GB，Firefox 上为 800MB）
14:23 · Apr 7, 2024 · Sun

Live Transcription with Whisper PoC in Server - Client setup：提供了一个 Live-Transcription (STT) with Whisper PoC 的解决方案，基于 server-client 架构，使用 faster-whisper 模型和 gradio ui/cli 实现实时语音转文字
14:22 · Apr 7, 2024 · Sun

一个命令行框架，旨在自动化资产发现、反 reconnaissance 和漏洞扫描的工作流程。它支持自动化分发扫描、超级容易定制扫描、仪表板支持、漏洞管理、高级警报和 DNS 服务集成

Mantis | #框架 #命令行

框架命令行
13:16 · Apr 4, 2024 · Thu

BitMat: 基于 Triton 优化矩阵乘法运算的 Python 软件包，利用自定义内核实现高效性能
13:14 · Apr 4, 2024 · Thu

基于 MJML 的响应性、易用且功能强大的电子邮件编辑器，支持在浏览器和 Node.js 环境下运行

Easy email | #编辑器

编辑器
13:13 · Apr 4, 2024 · Thu

UniDep：一个 Python 包，提供了一个统一的地方来管理 Conda 和 pip 依赖项

处理 Python 项目中的依赖关系可能具有挑战性，尤其是在处理 Python 和非 Python 包时。当开发人员在多个依赖文件之间切换时，这通常会导致混乱和低效率。

📝 统一依赖文件：使用requirements.yaml或pyproject.toml之一在一个地方管理 Conda 和 Pip 依赖关系。
⚙️ 构建系统集成：与Setuptools和Hatchling集成，以在pip install ./your-package.
💻 一键安装：unidep install轻松处理 Conda、Pip 和本地依赖项。
🏢 Monorepo-Friendly：将（多个）requirements.yaml或pyproject.toml文件渲染到一个 Conda文件中，并保持全局和每个子包文件environment.yaml完全一致。conda-lock
🌍特定于平台的支持：指定不同操作系统或架构的依赖关系。
🔧pip-compile集成：requirements.txt从生成完全固定的文件requirements.yaml或pyproject.toml使用pip-compile.
🔒 与集成conda-lock：利用 .conda-lock.yml从（多个）requirements.yaml或pyproject.toml文件生成完全固定的文件conda-lock。
🤓 Nerd stats：用 Python 编写，>99% 测试覆盖率，完全类型化，启用所有 Ruff 规则，易于扩展，依赖性最小
13:11 · Apr 4, 2024 · Thu

非结构化数据预处理工具 | github | #工具

工具
13:10 · Apr 4, 2024 · Thu

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集，包含超过 4000 个多步多模态任务，这些任务涉及 33 种工具，包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块

m&m's | #数据集

数据集
13:09 · Apr 4, 2024 · Thu

Search4All：开源版Perplexity，基于 LLM 和搜索引擎构建的平台，具有可定制且美观的界面，支持共享缓存搜索结果
13:09 · Apr 4, 2024 · Thu

DOOM Mistral：用Mistral-7B模型利用 ViZDoom 引擎通过视觉输入玩 DOOM
12:53 · Apr 4, 2024 · Thu

RunsOn: 自建 GitHub Action 运行器，提供更便宜、更快的 CI/CD 体验
12:52 · Apr 4, 2024 · Thu

Praison AI：将 AutoGen 和 CrewAI 或类似框架集成到一个低代码解决方案中，用于构建和管理多智能体 LLM 系统，重点放在简单性、定制化和高效人机协同上