Skip to main content

黑洞资源笔记

  1. MixEval:大型语言模型评估套件,提供动态数据和实时更新的基准测试,旨在高效、准确地评估语言模型的性能,同时降低成本和时间消耗
  2. 大规模结构化网络文本提取工具,可大规模提取优质文本数据,由Hugging Face Space提供,支持自动化内容筛选和再利用。

    FineWeb是一个大规模结构化网络文本的提取和过滤系统,利用Hugging Face的机器学习模型从网页中提取和过滤出高质量的文本内容,可以快速处理大量网页,并根据可配置的过滤规则提取出结构化的数据。用户可以指定主题、语言等参数,FineWeb会返回与这些规则匹配的文本内容。

    FineWeb利用DistilBERT模型进行主题分类,利用ToxicBERT模型过滤掉低质量和有毒内容,用户可以微调这些模型来优化提取文本的质量。

    FineWeb使得大规模高质量网络文本的获取成为可能,为自然语言处理任务提供了极为宝贵的数据来源,未来工作将提升模型性能,扩充支持语言,并考虑将其作为API服务对外开放。

    FineWeb | #工具
  3. HN-text:以文本为主的Hacker News终端客户端,提供快速、易用且无干扰的阅读体验,支持使用箭头键或hjkl快捷键,文章和评论转换为简单易读的文本格式
  4. 注重性能的Python版SQL解析器,适用于SQL格式化、执行和分析,致力于成为性能最优的解析工具

    具有如下 3 个主要特性:

    1.词法解析器与语法解析器相互独立,支持插件开发
    2.使用单一状态机实现词法解析,避免大量正则表达式的复杂逻辑
    3.除包含并列关系的节点外(例如 ORDER BY 多个字段),抽象语法树为完全的、根据计算优先级嵌套的一元和二元表达式结构

    metasequoia-sql 包含词法树解析(lexical 模块)、语法树解析(core 模块)和语法树分析(analyzer 模块)等主要功能。

    metasequoia-sql | #工具