Skip to main content

黑洞资源笔记

  1. 面向人脸识别的百万人脸图像数据集

    DigiFace-1M数据集是100多万张用于人脸识别的不同合成人脸图像的集合。

    它在我们的论文《DigiFace-1M: 1 Million Digital Face Images for Face Recognition》中被介绍,可用于训练面部识别的深度学习模型。

    该数据集包含:

    720K的图像,10K的身份(每个身份72张图像)。对于每个身份,有4组不同的配件被采样,每组有18张图像被渲染。
    500K的图像,100K的身份(每个身份5张图像)。对于每个身份,只有一套配件被取样。
    DigiFace-1M数据集可用于非商业研究,并根据LICENSE中的许可进行授权。

    DigiFace-1M Dataset | #数据集
  2. TencentPretrain:腾讯预训练模型框架

    预训练已经成为人工智能技术的重要组成部分,为大量人工智能相关任务带来了显著提升。TencentPretrain是一个用于对文本、图像、语音等模态数据进行预训练和微调的工具包。TencentPretrain遵循模块化的设计原则。通过模块的组合,用户能迅速精准的复现已有的预训练模型,并利用已有的接口进一步开发更多的预训练模型。通过TencentPretrain,我们建立了一个模型仓库,其中包含不同性质的预训练模型(例如基于不同模态、编码器、目标任务)。用户可以根据具体任务的要求,从中选择合适的预训练模型使用。TencentPretrain继承了开源项目UER的部分工作,并在其基础上进一步开发,形成支持多模态的预训练模型框架。

    TencentPretrain有如下几方面优势:

    可复现 TencentPretrain已在许多数据集上进行了测试,与原始预训练模型实现(例如BERT、GPT-2、ELMo、T5、CLIP)的表现相匹配
    模块化 TencentPretrain使用解耦的模块化设计框架。框架分成Embedding、Encoder、Target等多个部分。各个部分之间有着清晰的接口并且每个部分包括了丰富的模块。可以对不同模块进行组合,构建出性质不同的预训练模型
    多模态 TencentPretrain支持文本、图像、语音模态的预训练模型,并支持模态之间的翻译、融合等操作
    模型训练 TencentPretrain支持CPU、单机单GPU、单机多GPU、多机多GPU训练模式,并支持使用DeepSpeed优化库进行超大模型训练
    模型仓库 我们维护并持续发布预训练模型。用户可以根据具体任务的要求,从中选择合适的预训练模型使用
    SOTA结果 TencentPretrain支持全面的下游任务,包括文本/图像分类、序列标注、阅读理解、语音识别等,并提供了多个竞赛获胜解决方案
    预训练相关功能 TencentPretrain提供了丰富的预训练相关的功能和优化,包括特征抽取、近义词检索、预训练模型转换、模型集成、文本生成等


    项目地址 | 项目文档 |#框架
  3. Kafka: The Definitive Guide v2》 Kafka:权威指南第二版:大规模实时数据和流处理

    随便填下信息即可下载pdf版。内容主要是:
    了解Apache Kafka与其他发布/订阅消息队列的比较
    Kafka 如何融入大数据生态系统
    深入了解内部架构和设计(Kafka 生产者、消费者、主题、代理、日志等)
    学习开发使用 Kafka 的应用程序的最佳实践
    了解在生产监控、调优和维护任务中部署 Kafka 的最佳方式
    了解如何保护 Kafka 集群
    了解最关键的指标
    为什么选择Kafka?获取详细的好处和流处理用例
    构建实时数据管道:注意事项和使用 Kafka Connect
    带有示例和用例的Kafka Streams指南

    #电子书 #指南