10:19 · May 31, 2022 · Tue × × × internet-dataset,这个 GitHub 仓库收录了各种通过搜索引擎获取的数据集,整体数据量将近 50G,其中包括域名、网页、反向索引等数据。Github | #搜索引擎