黑洞资源笔记

15:50 · Apr 1, 2023 · Sat

Twitter算法对于人类的解读第一部分：权威性。

在Twitter上，权威性是非常重要的因素之一。Twitter算法将会考虑一个用户的权威性，以决定他们的推文是否会显示在其他用户的时间线上。

Twitter使用多种方式来确定用户的权威性，其中包括：

关注者数量：一个用户的关注者数量越多，通常表示这个用户在Twitter社区中的地位越高。
关注者的权威性：如果关注一个用户的其他用户也是Twitter社区的重要成员，那么这个用户的权威性就会更高。
发送的推文的互动：如果一个用户的推文得到了其他用户的喜欢、转发、回复等互动，那么这个用户的权威性就会更高。
个人资料信息：用户的个人资料中包含的信息，如他们的个人简介、位置、教育背景等，也会被算法考虑在内。
总之，要提高自己在Twitter上的权威性，一个用户需要努力吸引更多的关注者，与Twitter社区的其他成员互动，并确保他们的个人资料信息准确完整。
01:16 · Mar 31, 2023 · Fri

开源版的"文心一言"：Visual OpenLLM，基于 ChatGLM + Visual ChatGPT + Stable Diffusion，以交互方式连接不同视觉模型的开源工具 | #工具

工具
00:37 · Mar 31, 2023 · Fri

有推主（@tarantulae）吐槽最近99%的类ChatGPT模型，几乎都是来源Meta开源的LLaMA，然后拿ChatGPT的数据（来自ShareGPT插件，这是个快速分享ChatGPT AI 对话的浏览器插件）做了一些微调，然后改个名字就变成开源了新的ChatGPT模型，本质上是在营销而已。
00:13 · Mar 31, 2023 · Fri

使用 OpenAI 的 GPT API 抓取网站的实验库scrapeghost。该库提供了一种从 HTML 中抓取结构化数据的方法，而无需编写特定于页面的代码。| 传送门
00:03 · Mar 31, 2023 · Fri

使用 AI 在研究论文中寻找答案，基于 GPT-4 的科学总结。目前为beta版本。

网站让你可以输入问题，然后它利用GPT-4来帮你找到最贴切的 5-10 篇论文里的答案。目前不支持中文输入。

Consensus
23:58 · Mar 30, 2023 · Thu

使用 Regex.ai 书写正则表达式

基于 AI 技术，比ChatGPT更加直观，不需要用语言描述，直接选择你想要获取的部分，会自动完成。

Regex.ai | #正则表达式

正则表达式
07:25 · Mar 30, 2023 · Thu

这是一个允许你从多个来源收集电影剧本的工具，并以.txt文件的形式创建一个包含2.5千多部电影剧本的数据库，同时还有电影的元数据。

整个过程有四个步骤：
从各种来源收集剧本 - 在网站上搜刮HTML、txt、doc或pdf格式的剧本
收集元数据 - 从TMDb和IMDb获取关于剧本的元数据，以便进行额外处理
查找不同来源的重复内容 - 自动分组并删除不同来源的重复内容。
解析脚本 - 将脚本转换为只含人物和对话的行文

The Movie Script Database | #工具 #剧本

工具剧本
14:42 · Mar 29, 2023 · Wed

用 240 行纯 Java 代码编写的性能剖析器Tiny Profiler | Tiny Profiler | 主页
14:26 · Mar 29, 2023 · Wed

AnswerOverflow：将 Discord 帮助频道问题编入 Google 索引 | 文档 | 主页
14:22 · Mar 29, 2023 · Wed

NSA Ghidra 软件逆向工程框架。

Ghidra是由美国国家安全局研究总局创建和维护的软件逆向工程(SRE)框架。该框架包括一套全功能的高端软件分析工具，使用户能够在各种平台上分析编译代码，包括Windows、macOS和Linux。其功能包括反汇编、汇编、反编译、图形化和脚本化，以及数百个其他功能。Ghidra支持各种处理器指令集和可执行格式，并可在用户交互和自动化模式下运行。用户还可以使用Java或Python开发自己的Ghidra扩展组件和/或脚本。

为支持NSA的网络安全任务，Ghidra旨在解决复杂SRE工作中的可扩展性和团队协作问题，并提供可定制和可扩展的SRE研究平台。NSA已将Ghidra SRE能力应用于涉及分析恶意代码和为SRE分析师生成深入洞察力的各种问题中，以更好地了解网络和系统中潜在的漏洞。

Ghidra | #框架

框架
14:14 · Mar 29, 2023 · Wed

TaxyAI：使用 GPT-4 的开源浏览器自动化

Taxy使用GPT-4控制浏览器，并代表人来执行重复的操作。目前，它允许定义临时指令。将来，它还将支持保存和预定工作流。

Taxy目前处于研究预览状态。许多工作流程失败或使代理程序混淆。如果想在Taxy上进行改进或在自己的工作流程上进行测试，请按照说明在本地运行。

评论区有演示
11:35 · Mar 29, 2023 · Wed

有必要说几句解除误会的话：

让你们加QQ群只是给不方便或者不常玩儿tg的人提供便利，也便于我继续提供售后服务，绝不是评论里说的要解散tg群。。。。我经营了四年多的群怎么可能说散就散。。。。

我说的不想续费，说的是qq群，是qq的超级会员不想续费了，因为没什么用，硬要说有点用的话，就是能浪费钱，这个跟tg没什么瓜葛啊。。。。

ps:看到底下这些表情的反馈，莫名想笑
09:02 · Mar 29, 2023 · Wed

黑洞资源笔记

Ebook Translator 是书伴开发的一款 Calibre 插件，可以将不同格式不同语言的电子书翻译成指定语言（原文译文对照）指定格式的电子书，支持 Google、ChatGPT 和 DeepGL 翻译引擎。在日常的生活、工作或学习中，如果在阅读或翻译外文电子书的过程中需要频繁使用翻译软件，在内容和翻译软件之间来回切换，可能会成为一件颇为痛苦的事。Ebook Translator 插件借力 Calibre 对电子书的强大处理功能和翻译引擎对多种语言的翻译支持，可以轻松将译文添加到原文段落之后 …

1paragraph 是 ePub 和网页的阅读器。对于每篇文章，它都会存储阅读的最后一段，在库视图中显示该段落，并在打开书籍时滚动到该段落。在图书馆视图中，文本按上次阅读的时间排序。

1paragraph 有一个 chrome 扩展，可以在阅读器模式下显示网页并将它们添加到库中。

插件地址 | 1paragraph | #插件

插件
07:50 · Mar 29, 2023 · Wed

Genmo 一个创造性的多模态聊天机器人，不仅可以接受图像作为输入，还可以生成和编辑图像和视频，和人一起创作和编辑图像和视频，实现人机协作创意智能

Genmo, your creative copilot.ts

62.6 MB
07:17 · Mar 29, 2023 · Wed

play.ht：这个项目可以从20秒的音频中快速生成克隆语音，并自动转换为英语。即便你不会说英语，也可以通过语音克隆的方式，立刻说出一口流利的英语。

这里的技术采用了一个名为 Parrot 的模型，它能从几秒的音频克隆出声音，并基于文本，重新生成一段富有情感的语音。

目前该模型只支持英语，不过技术团队已经在开始尝试支持更多语言。

克隆声音的数据样本主要分两种：高保真（20 分钟）和零样本（20 秒），给的音频样本时间越长，其精度就更佳。

未来，该工具将被应用到各类数字内容创作（如游戏、媒体、在线教育）等平台。
07:05 · Mar 29, 2023 · Wed

作为当下最受欢迎的开源 AI 大模型解决方案，GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF 流程，包括：监督数据集收集 -> 监督微调 -> 奖励模型训练 -> 强化学习微调。

并且，技术团队以 LLaMA 为基础预训练模型，正式推出了 ColossalChat，这也是目前最接近 ChatGPT 原始技术方案的实用开源项目。

该项目包括但不限于以下功能：

- Demo：可直接在线体验模型效果，无需注册或 waitinglist；
- 训练代码：开源完整 RLHF 训练代码，已开源至含 7B 和 13B 两种模型；
- 数据集：开源 104K 中、英双语数据集；
- 推理部署：4bit 量化推理 70 亿参数模型仅需 4GB 显存；
- 模型权重：仅需单台服务器少量算力即可快速复现；
- 更大规模模型、数据集、其他优化等将保持高速迭代添加。

目前，相关代码已开源至 GitHub，感兴趣的同学可以看下。

项目还有提供完整的中文教程，进一步降低学习门槛，让大家能更快上手开发。

Colossal-AI | Paper | Docs | Forum | Blog | YouTube

1:42

Media is too big
VIEW IN TELEGRAM