Skip to main content

黑洞资源笔记

  1. 一个用于传输中的嵌套、非结构化、多模态数据的库,包括文本、图像、音频、视频、3D 网格等。它允许深度学习工程师使用 Pythonic API 高效地处理、嵌入、搜索、推荐、存储和传输多模态数据。

    🚪 跨/多模态世界的大门:用于表示复杂/混合/嵌套文本、图像、视频、音频、3D 网格数据的超表现力数据结构。吉娜的基础数据结构,CLIP-即服务,DALL·E流,迪斯科艺术等

    🧑‍🔬 数据科学强国:通过CPU/GPU上的Torch/TensorFlow/ONNX/PaddlePaddle,大大加快数据科学家在嵌入、k-NN匹配、查询、可视化和评估方面的工作。

    🚡 传输中的数据:针对网络通信进行了优化,随时可以在线连接,在 Protobuf、bytes、base64、JSON、CSV、DataFrame 中进行快速和压缩的序列化。非常适合流式传输和内存不足数据。

    🔎 一站式k-NN:主流矢量数据库的统一一致的API,允许最近的邻居搜索,包括Elasticsearch,Redis,ANNLite,Qdrant,Weaviate。

    👒 对于现代应用程序:GraphQL 支持使您的服务器在请求和响应时具有多功能性;内置的数据验证和 JSON 架构 (OpenAPI) 可帮助您构建可靠的 Web 服务。

    🐍 Pythonic 体验:设计得像 Python 列表一样简单。如果你知道如何Python,你就知道如何DocArray。直观的习语和类型注释简化了您编写的代码。

    🛸 与IDE集成:在Jupyter笔记本和Google Colab上实现漂亮的打印和可视化;PyCharm & VS Code 中的全面自动完成和类型提示。

    DocArray由三个简单的概念组成:

    文档:一种数据结构,用于轻松表示嵌套的非结构化数据。
    DocumentArray:用于高效访问、操作和理解多个文档的容器。
    数据类:用于直观地表示多模态数据的高级 API。

    DocArray | #数据库
  2. TextLocator,一款 Windows 全文搜索工具,可以检索 Word、Excel、PPT、PDF、DOM、TXT、图片、压缩包、代码等文档。

    它主要用来进行全文检索,也支持文件名检索,但在第一次使用时,需要建立索引,时间有快有慢。索引一旦建立,搜索起来就非常快了。

    使用说明
    双击文件夹设置自己需要搜索的文件夹(和排除的文件夹)
    点击“重建”按钮创建文档索引,更新文档索引点击“优化”按钮(或等待更新任务自动更新)
    索引结束后,搜索框输入关键词回车或者点击搜索按钮。搜索结果列表会显示为列表
    点击列表文档,右侧预览区会显示文档内容(图片会显示图片)
    结果列表和预览区中间的分隔线可左右移动,以增加预览区可视宽度

    一些规则:
    自动分词:数据库表结构 -> 数据库表结构,数据,库表,结构;默认组合为OR(勾选匹配全词后条件组合AND)
    手动分词:数据库 表 结构 -> 数据库,表,结构(空格作为分隔符)
    文件类型:筛选不同类型的文件
    仅文件名:关键词不匹配文档内容,只匹配文件名
    排序规则:默认排序、时间(远|近)、文件(大|小)
    列表分页:仅有一页时不显示分页标签,有多页时显示分页标签
    内容预览:右侧内容预览区可以复制;剪切和粘贴不影响源文件(默认菜单后期优化仅保留复制)
    预览搜索:预览区顶部搜索框可再次搜索

    原文 | 下载地址 | #工具
  3. Twitter或将提高推文字符数到1000个

    马斯克今日在回复用户诉求时表示:「计划将Twitter单条推文的字符数限制,从目前的单条推文280个调整到1000个」。

    Twitter上一次提高推文的字符数限制在2017年,当时从原本的140个字符数限制调整到280个。而针对用户希望的发布更长时间视频的诉求,Twitter则在近期推出了Twitter Blue会员订阅来满足
  4. 哈佛《AI研究经验》课程,内容涉及AI研究的基本概念、编程和写作技能,提供了详细的Lecture Notes | 传送门

    在本课程中,你将学习应用深度学习工作所需的实践技能,包括模型开发的实践经验。您将学习应用人工智能研究所需的技术写作技巧,包括撰写完整研究论文不同元素的经验。| #AI