Skip to main content

黑洞资源笔记

  1. 在文本数据中发现秘密和敏感信息的命令行工具

    主要特点:
    1.支持扫描文件、目录和 Git 存储库的整个历史记录
    2.使用正则表达式匹配,根据攻击性安全参与的经验和反馈,为高信噪比选择一组 60 种模式
    3.将共享相同秘密的匹配组合在一起,进一步强调信号而不是噪声
    4. Pro上在不到2分钟的时间内扫描100GB的Linux内核源代码历史记录。

    这个开源版本的Nosey Parker是Praetorian使用的内部版本的重新实现。内部版本具有用于误报抑制的附加功能和基于机器学习的替代检测引擎。在此处和此处的博客文章中阅读更多内容。

    项目地址 | #命令行 #工具
  2. 最小化的机器学习项目模板

    此存储库实现了一个最小的机器学习模板,该模板功能齐全,适用于机器学习项目可能需要的大多数内容。使此存储库与众不同的最重要部分是:

    它是无国籍的。使用此模板运行的任何给定实验都会自动并定期地将模型权重和配置分别存储到 HuggingFace Hub 和 wandb。因此,如果您的机器死机或作业退出,而你在另一台机器上恢复,代码将自动找到并下载以前的历史记录,并从中断的地方继续。这使得此存储库在使用竞价型实例或使用 slurm 和 kubernetes 等调度程序时非常有用。
    它通过HuggingFace Accelerate为所有最新和最好的GPU和TPU优化和缩放算法提供支持。
    它通过 Hydra-Zen 提供成熟的配置支持,并通过此存储库中实现的装饰器自动生成配置。
    它具有基于回调的最小样板,允许用户轻松地在系统中的预定义位置注入任何功能,而无需对代码进行页面处理。
    它使用 HuggingFace 模型和数据集来简化模型和数据集的构建/加载,但也不会强迫您使用它们,允许非常轻松地注入您关心的任何模型和数据集,假设您使用在 PyTorch 和类下实现的模型。nn.ModuleDataset
    它提供了即插即用功能,允许使用 BWatchCompute 和一些现成的脚本和 yaml 模板在 Kubernetes 集群上轻松搜索超参数。

    项目地址 | #模板 #机器学习
  3. 一个分布式的任务调度框架(Java),除了具备常规的分布式任务调度功能外,还提供自定义子任务的拆分、可对执行中的长任务自由控制、DAG任务依赖、管理器与执行器分离部署等能力。

    特性:
    分为管理器(Supervisor)和执行器(Worker)两种角色,Supervisor与Worker可分离部署
    Supervisor与Worker通过注册中心解耦,目前支持的注册中心有:Redis、Consul、Nacos、Zookeeper、Etcd
    Supervisor以任务分发方式把任务给到Worker,目前支持的任务分发方式有:Redis、Http
    支持任务分组(job-group),任务会分发给指定组的Worker执行
    自定义拆分任务,重写JobHandler#split即可把一个大任务拆分为多个小任务,任务分治
    提供任务执行快照的自动保存(checkpoint),让执行信息不丢失,保证因异常中断的任务能得到继续执行
    提供执行中的任务控制能力,可随时暂停/取消正在执行中的任务,亦可恢复执行被暂停的任务
    提供任务依赖执行的能力,多个任务构建好DAG依赖关系后,任务便按既定的依赖顺序依次执行

    Distributed Scheduler | #框架