黑洞资源笔记

16:52 · Oct 12, 2022 · Wed

计算机视觉，自然语言处理和机器学习运维学习资源库

项目地址 | #计算机视觉 #机器学习

计算机视觉机器学习
16:44 · Oct 12, 2022 · Wed

面向人脸识别的百万人脸图像数据集

DigiFace-1M数据集是100多万张用于人脸识别的不同合成人脸图像的集合。

它在我们的论文《DigiFace-1M: 1 Million Digital Face Images for Face Recognition》中被介绍，可用于训练面部识别的深度学习模型。

该数据集包含：

720K的图像，10K的身份（每个身份72张图像）。对于每个身份，有4组不同的配件被采样，每组有18张图像被渲染。
500K的图像，100K的身份（每个身份5张图像）。对于每个身份，只有一套配件被取样。
DigiFace-1M数据集可用于非商业研究，并根据LICENSE中的许可进行授权。

DigiFace-1M Dataset | #数据集

数据集
16:36 · Oct 12, 2022 · Wed

用于神经网络高效训练的数据流库(PyTorch)

Streaming是一个与PyTorch兼容的数据集，它允许用户从基于云的对象存储中流式传输培训数据。流可以从本地磁盘或基于云的对象存储读取文件。作为PyTorch IterableDataset类的替代品，很容易获得流媒体

Website | Getting Started | Docs |Github | #机器学习

机器学习
16:25 · Oct 12, 2022 · Wed

TencentPretrain：腾讯预训练模型框架

预训练已经成为人工智能技术的重要组成部分，为大量人工智能相关任务带来了显著提升。TencentPretrain是一个用于对文本、图像、语音等模态数据进行预训练和微调的工具包。TencentPretrain遵循模块化的设计原则。通过模块的组合，用户能迅速精准的复现已有的预训练模型，并利用已有的接口进一步开发更多的预训练模型。通过TencentPretrain，我们建立了一个模型仓库，其中包含不同性质的预训练模型（例如基于不同模态、编码器、目标任务）。用户可以根据具体任务的要求，从中选择合适的预训练模型使用。TencentPretrain继承了开源项目UER的部分工作，并在其基础上进一步开发，形成支持多模态的预训练模型框架。

TencentPretrain有如下几方面优势:

可复现 TencentPretrain已在许多数据集上进行了测试，与原始预训练模型实现（例如BERT、GPT-2、ELMo、T5、CLIP）的表现相匹配
模块化 TencentPretrain使用解耦的模块化设计框架。框架分成Embedding、Encoder、Target等多个部分。各个部分之间有着清晰的接口并且每个部分包括了丰富的模块。可以对不同模块进行组合，构建出性质不同的预训练模型
多模态 TencentPretrain支持文本、图像、语音模态的预训练模型，并支持模态之间的翻译、融合等操作
模型训练 TencentPretrain支持CPU、单机单GPU、单机多GPU、多机多GPU训练模式，并支持使用DeepSpeed优化库进行超大模型训练
模型仓库我们维护并持续发布预训练模型。用户可以根据具体任务的要求，从中选择合适的预训练模型使用
SOTA结果 TencentPretrain支持全面的下游任务，包括文本/图像分类、序列标注、阅读理解、语音识别等，并提供了多个竞赛获胜解决方案
预训练相关功能 TencentPretrain提供了丰富的预训练相关的功能和优化，包括特征抽取、近义词检索、预训练模型转换、模型集成、文本生成等

项目地址 | 项目文档 |#框架

框架
16:22 · Oct 12, 2022 · Wed

PC微信机器人，实现获取通讯录，发送文本、图片、文件等消息，封装COM接口供Python等调用

ComWeChatRobot
15:36 · Oct 10, 2022 · Mon

近几天忙事儿，事儿完了更新频道
14:48 · Oct 10, 2022 · Mon

有没有大流量，速度还行的稳定机场？
12:46 · Oct 9, 2022 · Sun

立党的转码/润学/移民/找工作笔记

How-to-run | #笔记

笔记
12:38 · Oct 9, 2022 · Sun

【新课】马士兵mca高级架构官网新版，2022版，需要的联系
03:37 · Oct 9, 2022 · Sun

《Kafka: The Definitive Guide v2》 Kafka：权威指南第二版：大规模实时数据和流处理

随便填下信息即可下载pdf版。内容主要是：
了解Apache Kafka与其他发布/订阅消息队列的比较
Kafka 如何融入大数据生态系统
深入了解内部架构和设计（Kafka 生产者、消费者、主题、代理、日志等）
学习开发使用 Kafka 的应用程序的最佳实践
了解在生产监控、调优和维护任务中部署 Kafka 的最佳方式
了解如何保护 Kafka 集群
了解最关键的指标
为什么选择Kafka？获取详细的好处和流处理用例
构建实时数据管道：注意事项和使用 Kafka Connect
带有示例和用例的Kafka Streams指南

#电子书 #指南

电子书指南
03:28 · Oct 9, 2022 · Sun

《A Beginner's Guide to Understanding Game Hacking Techniques》

了解游戏黑客技术的初学者指南。| #电子书 #黑客 #指南

电子书黑客指南
03:18 · Oct 9, 2022 · Sun

replicate.com, 一个可以直接在线运行各种机器学习模型的平台

如图像生成、语音转换、老照片修复等