Skip to main content

黑洞资源笔记

  1. Tenure-Track Asst 资源列表——助理教授/博士生生存指南

    作者语:作为一个即将上任的终身助理教授(TTAP)和一个刚刚毕业的CS博士(截至2022年9月),我相信我处于一个很好的位置,可以开始为TTAP和博士生收集有用的资源(很棒的列表)。从我的角度来看,我希望这些清单能够有助于你和我的成功(对于TTAP来说,成功的定义是在六年内获得一个终身职位;对于博士生来说,成功的定义是最终愉快地毕业)。这些清单包括诸如GPU成本-计算权衡、资金资源等内容,我相信除了我们所做的研究之外,这些内容对TTAPs也很重要。我希望在我担任TTAP期间能够继续完善这些清单,并且我真的欢迎社区的任何贡献。如果你想在这些列表中添加一些东西,请提交拉动请求。

    1.资金/赠款资源(funding.md)

    这里列出了国内外教授可申请的政府/公司资金,以及博士生奖学金。

    2.Computational Resources (computing.md)

    列出了国内云GPU计算资源的价格以及整机购买的一些对比

    3.研讨会和竞赛(为TTAPs和博士生)(Competitions.md

    在这个列表中,旨在列出作者所在领域的相关研讨会和竞赛(因为除了在顶级会议上发表文章外,这些将是提高实验室和TTAPs知名度的有效途径)。欢迎通过提交拉动请求添加更多领域。

    4.如何运行实验室/招募候选人(management.md

    在这个列表中,我试图从顶级实验室收集有用的招聘信息,以及关于他们如何管理的零碎信息。对于年轻的TTAPs来说,一些重要的问题包括是否以及如何开周会、报告等。

    5.其他人的一般建议(针对 TTAPs 和博士生)(advice.md)

    列出了一些可参考的如何招生、如何管理实验室的别人的经验。

    6.学术网页(适用于TTAPs和博士生)(webpage.md

    收集一些作者认为比较好的学术主页

    7.课程(courses.md

    收集了一份著名课程的清单,并分享了一些关于它们在技术上如何管理的个人想法。

    #指南
  2. 《Rust命令行编程指南》随书代码

    连续几年,Rust 在 Stack Overflow 的年度开发者调查中被评为“最喜爱的编程语言”。这种开源系统编程语言现在用于从游戏引擎和操作系统到浏览器组件和虚拟现实模拟引擎的所有事物。但 Rust 也是一种极其复杂的语言,其学习曲线非常困难。

    本指南不是专注于整个语言,而是在每章中使用一个小型、完整、专注的程序来教授 Rust。作者 Ken Youens-Clark 向您展示了如何启动、编写和测试每个程序以创建成品。您将学习如何处理 Rust 中的错误、读写文件以及使用正则表达式、Rust 类型、结构等。

    了解如何:

    使用 Rust 的标准库和数据类型创建命令行程序
    编写和测试 Rust 程序和函数
    读写文件,包括标准输入、标准输出和标准错误
    记录和验证命令行参数
    编写优雅失败的程序
    解析原始文本和分隔文本
    使用和控制随机性

    Command-Line Rust | #Rust
  3. M1/M2芯片苹果电脑上的开源Stable Diffusion图形界面应用

    1.可在计算机上本地运行,没有数据发送到云端(除了请求下载权重和检查软件更新)
    2.如果你喜欢 Diffusion Bee,可以看一下 Liner.ai,这是一个训练机器学习模型的一键工具

    系统要求
    1.M1 / M2 麦克
    2.首选 16 GB RAM。用 8GB 内存运行会有点慢。
    3.MacOS 12.5.1 或更高版本

    Diffusion Bee | MacOS下载 | #工具
  4. 这个项目演示了如何使用编程语言Rust创建数据结构和实现算法 这里的所有解决方案都是用爱精心制作的,它们的性能超过了 leetcode 网站上 99% 的其他解决方案。

    RUST GYM | #Rust
  5. 看到有个群说频道不能发💩了,我才想起这个表情可以单独关闭。这太💩了,不能玩💩,这表情还有啥意思呀。只剩下其他的点赞什么的,那赞了也没意义了
  6. Git库命令行下载工具—-giget

    特征
    开箱即用地支持流行的 git 提供程序(GitHub、GitLab 和 Bitbucket)。

    内置和自定义模板注册表。

    使用 tarball gzip 快速克隆,无需依赖本地git和tar.

    通过磁盘缓存支持在线和离线工作。

    自定义模板提供程序支持以编程方式使用。

    支持使用子目录提取。

    项目地址 | #工具
  7. 一个在 Kubernetes 上运行的弹性网络抓取集群。它提供了通过 REST API 和 Web 界面部署、运行和扩展 Web 抓取蜘蛛的机制。

    该项目由三个主要模块组成:

    REST API:使用 Django REST 框架工具包构建,它公开了几个端点来管理项目、蜘蛛和作业。它使用 Celery 进行任务处理,并负责部署 Scrapy 项目等。
    排队:estela 需要一个高吞吐量、低延迟的平台来控制生产者-消费者架构中的实时数据馈送。在本模块中,您将找到一个 Kafka 消费者,用于收集蜘蛛作业中的信息并将其传输到数据库中。
    Web:使用 React 和 Typescript 实现的 Web 界面,可让您管理项目和蜘蛛。
    这些模块中的每一个都独立于其余模块工作,并且可以更改。每个模块在其对应的目录中都有更详细的描述。

    estela
  8. 用于快速开发云原生serverless应用的框架

    Nitric是一个用于快速开发云原生和无服务器应用程序的框架。根据所需资源定义您的应用程序,然后为基于无服务器功能的 API、事件订阅者和计划作业编写代码。

    使用 Nitric 构建的应用程序可以从相同的代码库部署到 AWS、Azure 或 Google Cloud,这样您就可以专注于您的产品,而不是您的云提供商。

    Nitric 可以轻松:

    创建智能无服务器函数和 API
    构建使用事件和/或队列的可靠分布式应用程序
    安全地存储、检索和轮换秘密
    从存储桶读取和写入文件

    官网 | Docs | 项目地址 | #框架
  9. GEEML:谷歌地球引擎机器学习

    这个 python 包使用并行处理和谷歌地球引擎大容量端点更容易从谷歌地球引擎中提取卫星数据。

    在目前的状态下,它支持以 csv 的形式提取传统机器学习(表格数据)的数据,以及提取深度神经网络的 GeoTiff 图像补丁。

    GEE JS 代码编辑器中的机器学习功能仍然有限。例如,不支持 XGBoost、LightGBM、NGBoost 等。此外,python 生态系统对训练、验证和超参数调优的支持要多得多。但是,要利用此功能,需要在本地下载数据或将数据存储在 Google Drive 或 Google Cloud Storage 中,以从机器学习 python 生态系统中受益。因此,这个包旨在让下载 GEE 处理的机器学习格式的数据变得更容易和更快。

    特征:
    并行导出图像或稀疏图像(例如 GEDI)。
    导出点或多边形处的栅格值 (ee.FeatureCollection)。
    汇总多边形内的栅格数据 (ee.FeatureCollections)。
    提取表格和深度神经网络 (DNN) 类型的数据集。

    项目地址 | #机器学习
  10. Emerge(或emerge-viz)是一种源码分析和依赖可视化工具,用来收集关于源码结构、度量、依赖和软件项目复杂性的相关信息。

    Emerge 目前支持以下语言的扫描:C, C++, Groovy, Java, JavaScript, TypeScript, Kotlin, ObjC, Ruby, Swift, Python. 结构、着色和聚类是基于结合a的思想计算的力导向图模拟和鲁汶模块化。Emerge 主要用 Python 3 编写,并在 macOS、linux 和现代网络浏览器(即最新的 Safari、Chrome、Firefox、Edge)上进行了测试。

    项目地址 | #工具