黑洞资源笔记
-
- 这个频道屎味有点重。。。每条信息都有大量的💩
- 请大家有序地扔💩,并保持一米线距离,以免飞溅到自己嘴里
- 哪儿都有键盘侠,真他妈的害怕
- 这应该是频道有shi以来,最💩的一个词条了
你们别对屎太执着了,合理扔💩,文明你我他 - 看到有个群说频道不能发💩了,我才想起这个表情可以单独关闭。这太💩了,不能玩💩,这表情还有啥意思呀。只剩下其他的点赞什么的,那赞了也没意义了
-
- 一个在 Kubernetes 上运行的弹性网络抓取集群。它提供了通过 REST API 和 Web 界面部署、运行和扩展 Web 抓取蜘蛛的机制。
该项目由三个主要模块组成:
REST API:使用 Django REST 框架工具包构建,它公开了几个端点来管理项目、蜘蛛和作业。它使用 Celery 进行任务处理,并负责部署 Scrapy 项目等。
排队:estela 需要一个高吞吐量、低延迟的平台来控制生产者-消费者架构中的实时数据馈送。在本模块中,您将找到一个 Kafka 消费者,用于收集蜘蛛作业中的信息并将其传输到数据库中。
Web:使用 React 和 Typescript 实现的 Web 界面,可让您管理项目和蜘蛛。
这些模块中的每一个都独立于其余模块工作,并且可以更改。每个模块在其对应的目录中都有更详细的描述。
estela -
-
- GEEML:谷歌地球引擎机器学习
这个 python 包使用并行处理和谷歌地球引擎大容量端点更容易从谷歌地球引擎中提取卫星数据。
在目前的状态下,它支持以 csv 的形式提取传统机器学习(表格数据)的数据,以及提取深度神经网络的 GeoTiff 图像补丁。
GEE JS 代码编辑器中的机器学习功能仍然有限。例如,不支持 XGBoost、LightGBM、NGBoost 等。此外,python 生态系统对训练、验证和超参数调优的支持要多得多。但是,要利用此功能,需要在本地下载数据或将数据存储在 Google Drive 或 Google Cloud Storage 中,以从机器学习 python 生态系统中受益。因此,这个包旨在让下载 GEE 处理的机器学习格式的数据变得更容易和更快。
特征:
并行导出图像或稀疏图像(例如 GEDI)。
导出点或多边形处的栅格值 (ee.FeatureCollection)。
汇总多边形内的栅格数据 (ee.FeatureCollections)。
提取表格和深度神经网络 (DNN) 类型的数据集。
项目地址 | #机器学习 -
-
- 使用Node和Cheerio进行网页抓取
网页抓取是一种从网站获取数据的方式,数据可以是文本、图片或任何其他可下载的文件等。在本教程中,我们将抓取非CSR即客户端使用 JavaScript (React/角网站)。
在本教程中,将使用网络抓取来获取列出的相关工作Hacker News。每当执行爬虫代码时,我们都会将 JavaScript、react、node 等作业保存到 Excel。此外,我们将使代码可配置以轻松更改过滤器参数。
我们将使用node.js进行网页抓取,为此,我们将使用Axios获取网站的 HTML,然后在Cheerio的帮助下找到我们需要保存的数据。此外,我们将看到如何将抓取的数据保存到node.js中的CSV文件并处理分页
传送门 | #教程 - 了解新的 Visual Studios 扩展模型 | 博文
尽管 Visual Studio Code 程序员编辑器非常受欢迎,但 Visual Studio IDE 仍然是 Microsoft 开发工具链战略的核心。超过 25 年的发展为我们带来了一个可定制的开发环境,它远远超出了一套开发工具的原始通用 UI。
如今,Visual Studio 是一个单一的应用程序,可以动态加载构建项目所需的工具和语言。你可以预配置工具链,以及挑选和混合帮你交付代码的功能。结果是一个灵活的开发环境,支持现代开发模型,包括远程开发和共享代码。甚至还支持最新的人工智能编码助手。