Skip to main content

黑洞资源笔记

  1. Twitter算法对于人类的解读 第一部分:权威性

    在Twitter上,权威性是非常重要的因素之一。Twitter算法将会考虑一个用户的权威性,以决定他们的推文是否会显示在其他用户的时间线上。

    Twitter使用多种方式来确定用户的权威性,其中包括:

    关注者数量:一个用户的关注者数量越多,通常表示这个用户在Twitter社区中的地位越高。
    关注者的权威性:如果关注一个用户的其他用户也是Twitter社区的重要成员,那么这个用户的权威性就会更高。
    发送的推文的互动:如果一个用户的推文得到了其他用户的喜欢、转发、回复等互动,那么这个用户的权威性就会更高。
    个人资料信息:用户的个人资料中包含的信息,如他们的个人简介、位置、教育背景等,也会被算法考虑在内。
    总之,要提高自己在Twitter上的权威性,一个用户需要努力吸引更多的关注者,与Twitter社区的其他成员互动,并确保他们的个人资料信息准确完整。
  2. 有推主(@tarantulae)吐槽最近99%的类ChatGPT模型,几乎都是来源Meta开源的LLaMA,然后拿ChatGPT的数据(来自ShareGPT插件,这是个快速分享ChatGPT AI 对话的浏览器插件)做了一些微调,然后改个名字就变成开源了新的ChatGPT模型,本质上是在营销而已。
  3. 使用 OpenAI 的 GPT API 抓取网站的实验库scrapeghost。该库提供了一种从 HTML 中抓取结构化数据的方法,而无需编写特定于页面的代码。| 传送门
  4. 使用 AI 在研究论文中寻找答案,基于 GPT-4 的科学总结。目前为beta版本。

    网站让你可以输入问题,然后它利用GPT-4来帮你找到最贴切的 5-10 篇论文里的答案。目前不支持中文输入。

    Consensus
  5. 这是一个允许你从多个来源收集电影剧本的工具,并以.txt文件的形式创建一个包含2.5千多部电影剧本的数据库,同时还有电影的元数据。

    整个过程有四个步骤:
    从各种来源收集剧本 - 在网站上搜刮HTML、txt、doc或pdf格式的剧本
    收集元数据 - 从TMDb和IMDb获取关于剧本的元数据,以便进行额外处理
    查找不同来源的重复内容 - 自动分组并删除不同来源的重复内容。
    解析脚本 - 将脚本转换为只含人物和对话的行文

    The Movie Script Database | #工具 #剧本
  6. NSA Ghidra 软件逆向工程框架。

    Ghidra是由美国国家安全局研究总局创建和维护的软件逆向工程(SRE)框架。该框架包括一套全功能的高端软件分析工具,使用户能够在各种平台上分析编译代码,包括Windows、macOS和Linux。其功能包括反汇编、汇编、反编译、图形化和脚本化,以及数百个其他功能。Ghidra支持各种处理器指令集和可执行格式,并可在用户交互和自动化模式下运行。用户还可以使用Java或Python开发自己的Ghidra扩展组件和/或脚本。

    为支持NSA的网络安全任务,Ghidra旨在解决复杂SRE工作中的可扩展性和团队协作问题,并提供可定制和可扩展的SRE研究平台。NSA已将Ghidra SRE能力应用于涉及分析恶意代码和为SRE分析师生成深入洞察力的各种问题中,以更好地了解网络和系统中潜在的漏洞。

    Ghidra | #框架
  7. TaxyAI:使用 GPT-4 的开源浏览器自动化

    Taxy使用GPT-4控制浏览器,并代表人来执行重复的操作。目前,它允许定义临时指令。将来,它还将支持保存和预定工作流。

    Taxy目前处于研究预览状态。许多工作流程失败或使代理程序混淆。如果想在Taxy上进行改进或在自己的工作流程上进行测试,请按照说明在本地运行。

    评论区有演示
  8. 有必要说几句解除误会的话:

    让你们加QQ群只是给不方便或者不常玩儿tg的人提供便利,也便于我继续提供售后服务,绝不是评论里说的要解散tg群。。。。我经营了四年多的群怎么可能说散就散。。。。

    我说的不想续费,说的是qq群,是qq的超级会员不想续费了,因为没什么用,硬要说有点用的话,就是能浪费钱,这个跟tg没什么瓜葛啊。。。。

    ps:看到底下这些表情的反馈,莫名想笑
  9. play.ht:这个项目可以从20秒的音频中快速生成克隆语音,并自动转换为英语。即便你不会说英语,也可以通过语音克隆的方式,立刻说出一口流利的英语。

    这里的技术采用了一个名为 Parrot 的模型,它能从几秒的音频克隆出声音,并基于文本,重新生成一段富有情感的语音。

    目前该模型只支持英语,不过技术团队已经在开始尝试支持更多语言。

    克隆声音的数据样本主要分两种:高保真(20 分钟)和零样本(20 秒),给的音频样本时间越长,其精度就更佳。

    未来,该工具将被应用到各类数字内容创作(如游戏、媒体、在线教育)等平台。
  10. 作为当下最受欢迎的开源 AI 大模型解决方案,GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF 流程,包括:监督数据集收集 -> 监督微调 -> 奖励模型训练 -> 强化学习微调。

    并且,技术团队以 LLaMA 为基础预训练模型,正式推出了 ColossalChat,这也是目前最接近 ChatGPT 原始技术方案的实用开源项目。

    该项目包括但不限于以下功能:

    - Demo:可直接在线体验模型效果,无需注册或 waitinglist;
    - 训练代码:开源完整 RLHF 训练代码,已开源至含 7B 和 13B 两种模型;
    - 数据集:开源 104K 中、英双语数据集;
    - 推理部署:4bit 量化推理 70 亿参数模型仅需 4GB 显存;
    - 模型权重:仅需单台服务器少量算力即可快速复现;
    - 更大规模模型、数据集、其他优化等将保持高速迭代添加。

    目前,相关代码已开源至 GitHub,感兴趣的同学可以看下。

    项目还有提供完整的中文教程,进一步降低学习门槛,让大家能更快上手开发。

    Colossal-AI | Paper | Docs | Forum | Blog | YouTube
    Media is too big
    VIEW IN TELEGRAM