Skip to main content

黑洞资源笔记

  1. 通过分析发现代码数据中存在大量低质量过长文件,并证明基于删除这些长文件这一简单启发式进行数据裁剪,可以在计算资源有限的情况下显著提升代码生成模型的效率和性能。 ​​​| paper
  2. GraphRAG:基于图的检索增强生成(RAG)系统,使用大语言模型(LLMs)从非结构化文本中提取有意义的结构化数据,增强模型对私有数据的推理能力
  3. BERGEN:RAG系统基准测试库,专注于问答(QA)领域的性能评估,旨在提高RAG管线中各组件影响的理解和比较的一致性,通过HuggingFace简化新数据集和模型的复现性和集成
  4. ZFlow:基于流程的低代码/无代码工作流和机器人流程自动化库,提供Rust实现的流程图和执行图的运行时环境
  5. meet-libai-遇见李白:基于知识图谱的AI智能体,推动李白文化的数字化普及与推广,提供古诗词问答与鉴赏体验

    项目目标
    收集整理李白诗歌及其相关文化资料:通过文献调研、数据挖掘等方法,全面收集李白的诗歌作品、生平事迹、历史背景等相关资料,为构建李白知识图谱提供基础数据。

    构建李白知识图谱:利用自然语言处理、信息抽取等技术,对收集到的资料进行整理和分析,构建出一个完整的李白知识图谱。该图谱将涵盖李白的生平、诗歌风格、艺术成就等多个方面,为后续的AI智能体训练提供丰富的知识库。

    训练专业的AI智能体:基于构建好的李白知识图谱,利用大模型技术训练出具有专业水平的AI智能体。该智能体将具备对李白诗歌的深入理解和鉴赏能力,能够与用户进行高质量的互动。

    开发生成式对话应用:在训练好的AI智能体基础上,开发一款生成式对话应用。该应用将能够实现与用户的实时互动,为用户提供个性化的李白诗歌鉴赏体验。
  6. 轻量级下一代数据库管理工具,适用于Postgres、MySQL、SQLite、MongoDB和Redis,提供简洁的用户界面和高效的性能,支持数据库模式的可视化和内联编辑预览功能

    WhoDB | #工具
  7. Triton-语言和编译器:为编写高效的自定义深度学习原语而设计的编程语言和编译器,旨在提供比CUDA更高的生产力和灵活性