Skip to main content

黑洞资源笔记

  1. AI生成内容泛滥冲击Google Books

    Google Books作为索引已出版资料的重要学术工具,正在收录大量低质量、由AI生成的书籍内容,并会出现在Google Books的搜索结果中。

    大量索引AI生成的垃圾内容,可能会影响Google Ngram Viewer的结果准确性。Ngram Viewer是研究人员用来追踪历史语言使用情况的重要工具,它基于Google Books的数据。这反映出在AI技术快速发展的背景下,学术界对付AI生成的大规模垃圾内容还缺乏应对之策。图书出版和学术搜索工具的把关机制亟待升级,以应对AI带来的挑战。

    谷歌官方表示会删除所有低质量内容,无论是AI还是人工创作。但AI生成内容的泛滥,对搜索引擎和学术工具构成了前所未有的冲击。

    思考:
    - AI生成内容正以超乎想象的速度渗透到方方面面。作为知识索引的基础设施,Google Books这样的工具首当其冲受到冲击,凸显出AI时代学术规范和内容把关面临的困境。
    - 海量的AI垃圾内容会稀释优质内容的密度,误导读者,破坏学术生态。Ngram Viewer等研究工具也会受到污染,影响学术研究的准确性。学术界需要高度重视这一问题。
    - 识别AI生成内容本身就是一个技术挑战。传统的人工审核已然不敷使用,平台和工具方需要研发更智能的AI技术来对抗恶意的AI生成内容。
    - 从源头治理,完善AI伦理规范,加强对AI滥用的监管,需要学界、业界、政府多方合力。在拥抱AI红利的同时,也要警惕其负面影响,建立科学的AI治理体系。
  2. 由 Libra-AI 开发的一个开源工具,用于将事实验证过程自动化。它提供了一个全面的管道,用于将长文本剖析成单独的主张、评估其验证的价值、生成证据搜索的查询、爬取证据并最终验证主张。

    该工具对于记者、研究人员和任何对信息真实性感兴趣的人特别有用。

    Loki | #工具
  3. twitter-web-exporter:使用 TypeScript 开发的开源项目,可用于从 Twitter 网页应用程序导出 tweets、书签、列表、搜索结果、用户关注列表等

    局限性
    该脚本仅适用于网络应用程序 (twitter.com)。它不适用于移动应用程序。

    基本上,脚本“看到”你在页面上看到的内容。如果你看不到页面上的数据,则脚本也无法访问它。例如,Twitter 在个人资料页面上仅显示最新的 3200 条推文,并且脚本无法导出早于此的推文。

    网页上的数据是动态加载的,这意味着脚本在加载之前无法访问数据。需要继续向下滚动以加载更多数据。确保在导出之前加载所有数据。

    导出过程不是自动化的(没有第三方工具的帮助)。它依靠人类交互来触发 Twitter Web 应用程序的数据获取过程。该脚本本身不会向 Twitter API 发送任何请求。

    该脚本不依赖官方 Twitter API,因此没有相同的速率限制。然而,Twitter 网络应用程序确实有其自身的局限性。如果达到该速率限制,请在几分钟后重试。

    相反,该脚本可以导出官方API无法提供的数据。例如,官方API在访问书签时有800个限制。该脚本可以导出所有书签,不受该限制,直到受到 Twitter Web 应用程序本身的限制。

    下载媒体文件也有限制。目前,该脚本将图片和视频下载到浏览器内存,然后将它们压缩到单个存档中。如果媒体文件太大,可能会导致浏览器崩溃。它可以处理的最大存档大小取决于浏览器和计算机的可用内存。 (Chrome 上为 2GB,Firefox 上为 800MB)
  4. UniDep:一个 Python 包,提供了一个统一的地方来管理 Conda 和 pip 依赖项

    处理 Python 项目中的依赖关系可能具有挑战性,尤其是在处理 Python 和非 Python 包时。当开发人员在多个依赖文件之间切换时,这通常会导致混乱和低效率。

    📝 统一依赖文件:使用requirements.yaml或pyproject.toml之一在一个地方管理 Conda 和 Pip 依赖关系。
    ⚙️ 构建系统集成:与Setuptools和Hatchling集成,以在pip install ./your-package.
    💻 一键安装:unidep install轻松处理 Conda、Pip 和本地依赖项。
    🏢 Monorepo-Friendly:将(多个)requirements.yaml或pyproject.toml文件渲染到一个 Conda文件中,并保持全局和每个子包文件environment.yaml完全一致。conda-lock
    🌍特定于平台的支持:指定不同操作系统或架构的依赖关系。
    🔧pip-compile集成:requirements.txt从生成完全固定的文件requirements.yaml或pyproject.toml使用pip-compile.
    🔒 与 集成conda-lock:利用 .conda-lock.yml从(多个)requirements.yaml或pyproject.toml文件生成完全固定的文件conda-lock。
    🤓 Nerd stats:用 Python 编写,>99% 测试覆盖率,完全类型化,启用所有 Ruff 规则,易于扩展,依赖性最小
  5. 用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些任务涉及 33 种工具,包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块

    m&m's | #数据集
  6. Praison AI:将 AutoGen 和 CrewAI 或类似框架集成到一个低代码解决方案中,用于构建和管理多智能体 LLM 系统,重点放在简单性、定制化和高效人机协同上