黑洞资源笔记

06:27 · Oct 5, 2023 · Thu

剑桥法律语料库：法律人工智能研究语料库。

paper | #语料库
arXiv.org

The Cambridge Law Corpus: A Dataset for Legal AI Research

We introduce the Cambridge Law Corpus (CLC), a dataset for legal AI research. It consists of over 250 000 court cases from the UK. Most cases are from the 21st century, but the corpus includes...

语料库
06:26 · Oct 5, 2023 · Thu

谷歌将于 2024 年初取消 Gmail 的基本 HTML 视图，之后，Gmail 会自动更改为标准视图。| 相关链接
Google

Use the latest version of Gmail in your browser - Gmail Help

If your browser is supported, Gmail automatically opens to the most recent version with the latest features and security updates. Learn how to use supported browsers for Gmail. Tip: You can also use
06:13 · Oct 5, 2023 · Thu

为了让 LLM 记住更多、记得更好，研究者们正在不断努力。最近，来自 MIT、Meta AI、CMU 的研究者提出了一种名为「StreamingLLM」的方法，使语言模型能够流畅地处理无穷无尽的文本。

StreamingLLM 的工作原理是识别并保存模型固有的「注意力池」（attention sinks）锚定其推理的初始 token。结合最近 token 的滚动缓存，StreamingLLM 的推理速度提高了 22 倍，而不需要牺牲任何的准确性。短短几天，该项目在 GitHub 平台已斩获 2.5K 星。

论文 | 项目 | 详文
06:04 · Oct 5, 2023 · Thu

Open X-Embodiment：迄今为止最大的开源机器人数据集

包含100多万条来自22个不同机器人平台的实机轨迹数据，汇集了全球34个机器人研究实验室的60个现有数据集。

基于该数据集训练了两个模型：1) RT-1，一个高效的基于Transformer的机器人控制架构；2) RT-2，一个大规模的视觉语言模型，通过自然语言Token输出机器人动作。

RT-1-X是在机器人数据混合上训练的RT-1模型。RT-2-X是在机器人数据混合上训练的RT-2模型。

结果显示，RT-1-X在分布内技能上的表现优于只在单个数据集上训练的原始方法；RT-2-X在新技能上的表现较RT-2提升了3倍，展现了更好的空间理解能力。

本项目由来自21个机构的研究人员合作完成，为探索通用的机器人策略奠定了基础，以实现机器人经验的有效迁移。
05:50 · Oct 5, 2023 · Thu

各矢量数据库特性对比 | link | #数据库

数据库
05:38 · Oct 5, 2023 · Thu

Colab最新更新概览 | link

借助Colaboratory（简称Colab），可在浏览器中编写和执行Python代码，并且无需任何配置;，免费使用GPU; 轻松共享

- Colab新增了从Google表格智能粘贴数据的功能，可以自动生成代码将粘贴的数据转换为pd.DataFrame，省去了传统上要进行的额外步骤。
- Colab还可以从Pandas DataFrame自动生成图表，执行包含DataFrame的代码单元格后，会出现一个自动绘制图表的按钮。
- Colab Notebook现支持将代码单元格折叠并分组，可以给相关的代码单元格添加小标题，这能让Notebook更整洁有序。
- 新的文本编辑功能允许选择一个代码单元格然后直接编辑文本，无需转换为Markdown单元格。
- Colab实验室新增了一些功能让Notebook的协作更容易，如评论和任务列表。
- Colab Notebook编辑器现在支持语法高亮显示，可以选择不同的配色方案。编辑器还可以实时预览LaTeX数学表达式。
- Colab增加了新的Notebook设置，可以设置单元格间距、代码字体等使界面更符合个人喜好。
- Colab optimize运行时选项可以根据硬件情况自动选择运行时，提高Notebook的性能。
- Colab的Stable Diffusion支持扩展到更多用户，可以通过简单的代码进行图像生成。
05:34 · Oct 5, 2023 · Thu

咸鱼暄的代码空间：内容主要是计算机专业课的笔记，以及作者的面试经历总结等，编译原理方面的内容更深入一些。

blog | 语雀 | #笔记

笔记
05:30 · Oct 5, 2023 · Thu

一个命令行工具，可在 App Store 上搜索 iOS 应用程序并下载 ipa 文件。

IPATool | #工具

工具
05:27 · Oct 5, 2023 · Thu

Perplexity推出pplx-api，可快速访问开源大型语言模型如Mistral 7B、Llama2 13B等

- pplx-api易于使用，开发者可以在几分钟内通过REST API整合先进的开源模型。
- pplx-api推理速度很快，比其他解决方案的延迟降低了2-3倍。
- pplx-api基础设施经过验证，可以承载产品级流量。
- pplx-api采用NVIDIA TensorRT-LLM和AWS A100 GPU等先进软硬件，实现了优化。
- pplx-api已用于Perplexity的产品中，相比外部API每年节省了62万美元成本。
- pplx-api兼容OpenAI API，可以轻松集成到现有应用中。
- 未来pplx-api将支持更多定制和开源模型。
05:25 · Oct 5, 2023 · Thu

《Rust 宏小册》（The Little Book of Rust Macros 的翻译）| 在线阅读 | #电子书 #Rust

这本书尝试提炼出 Rust 社区对 Rust 宏的共识，通过例子来讲述宏。

本书是续写版本，续写的版本由 Veykril 撰稿，续作对原作有补充和删改。

电子书 Rust
05:19 · Oct 5, 2023 · Thu

DiscreteTom's Blog | #笔记

内容除了日常的技术贴，还有作者在大学时的一些计算机专业课笔记整理

笔记
16:06 · Oct 4, 2023 · Wed

Windows 10/11重新支持永久激活新方法为HWID 2可数字权利 | 详文
16:25 · Oct 3, 2023 · Tue

一个全面的4D人头数据集，用于推动头部头像研究的进步。它包含大量的数据资产，有243+百万个完整的头部帧，以及来自500个不同身份的超过800k个视频序列，由同步多视图摄像机以30 FPS捕获。

RenderMe-360 | #数据集

数据集
16:09 · Oct 3, 2023 · Tue

Gossip：在线快速创建精彩而有趣的PPT

直观和高效的用户界面，解决了传统PPT的多个问题。在Gossip里，你有个专门的地方可以先把所有想到的点子记下来，然后形成大纲，大纲直接生成PPT。你可以像搭积木一样，把你的内容按照你想要的顺序排列好，不用像以前那样一个个拖动幻灯片。

Gossip的用户界面很简单，包括“想法”、“大纲”、“元素”和“样式和变量”等面板。

想法收集：在“想法”面板中，你可以输入和组织你的初步想法和内容。
大纲创建：转到“大纲”面板，根据你的想法创建一个演示文稿的结构。
内容添加：在“元素”和“主要”面板中，开始添加和组织你的文本、图片和其他元素。
样式调整：使用“样式和变量”面板来调整每个幻灯片的外观和整体风格。
预览和调整：在完成初步编辑后，使用预览功能来查看演示文稿的整体效果，并进行必要的调整。
保存和分享：最后，保存你的演示文稿，还可以使用分享功能来与其他人共享。

在线体验 | 使用教程 | GitHub