Skip to main content

黑洞资源笔记

  1. lssuu.com是一个数字出版平台,允许创作者与全球观众分享、发现数字杂志、目录和其他出版物并从中获利。可以用使用它来进行专业方面的阅读,不过上面的电子书的质量一般般。
  2. Telling Stories with Data | #电子书

    这本书将帮助你用数据讲故事。它帮你建立了一个根据你观察到的数据,构建和分享关于你感兴趣的世界的知识体系。

    我们祖先的一项重要社交,是一群人围着火堆讲故事,这在人类和社会的发展中起到了关键的作用(本书封面的由来)。

    本书将探索、触探、推动、操纵、揉捏,最终试图理解数据的含义。本书关注的是那些能让你建立持久和可复制知识的工具、方法和工作流程。
  3. 大多数数学翻译软件无法很好地处理论文中的数学公式,许多科研工作者为此受困。本项目可能包含大量数学公式的科研论文在任何语言之间翻译。

    该项目的主要工作是基于纯文字的谷歌翻译实现LaTex文件的翻译,从而最终实现pdf的翻译。能一键翻译 arxiv 上的大部分(有LaTex源文件的)论文。

    SUSYUSTC/MathTranslate | #工具
  4. 有博主最近升级hackertalk,发现网站被注入了 10 万个恶意链接(不影响正常用户)。

    这是一种黑帽 SEO 的攻击方法,即使你使用 React 现代、安全的框架,后端做了注入防御,也有可能会被攻击,下面讲下原理和原因。

    该网站提升用户体验的关键方法是大量利用缓存数据,优先显示页面再请求新数据覆盖,避免阻塞。
    tags这个页面也是如此,拿到 url 的 tagName 参数后优先显示在页面上再加载,黑产利用这点在外站大量伪造空链接,搜索引擎爬的时候能在本站 html 上发现相关内容,从而实现了注入。

    这种注入不影响用户内容,也无法被用户发现,因为这些 tag 都是 404,但本站出现了其他站点域名等信息,按 pagerank 算法会给他们加权重,同时降低本站点内容评分,大量的垃圾链接导致流量下降。

    解决的方法也很简单:
    1. 告诉搜索引擎不要收录这些页面
    2. tag 只能从内存拿,如果没有则显示 404 页面

    帖子同步