Skip to main content

黑洞资源笔记

  1. Awesome-llm-and-aigc: 精选的 LLM、视觉基础模型、AIGC 相关的资源集合, 适合作为持续学习和实践的参考指南, 作者 @andysingal

    ※ 大语言模型(LLM)相关:
    - 收录了从 GPT 系列到 Llama、ChatGLM 等主流开源模型
    包含模型训练、推理、部署等全流程工具
    - 涵盖多语言实现(Python、C++、Rust 等)
    - 提示词学习和优化项目

    ※ 视觉基础模型:
    - 收录 SAM(Segment Anything)等视觉大模型
    - 包含图像分割、目标检测等视觉任务相关模型
    - 多模态模型融合应用

    ※ 应用开发平台:
    - LangChain | LlamaIndex | Dify 等主流开发框架
    - 向量数据库解决方案
    - 主流 RAG 框架

    ※ 垂直领域应用:
    - 医疗、法律、金融等专业领域的模型
    - 学术研究相关工具
    - 教育培训资源
  2. 如何向 8 岁小学生解释ChatGPT 的运行原理?【3B1B:LLM的本质是单词预测器】 | youtube

    LLM的本质是一个复杂的数学函数,它只做一件事:针对给出的任何文本,预测下一个单词。

    要构建一个聊天机器人,你需要先给出一些文本,描述用户与假想的AI助手之间互动。用户的输入是这次互动的开始,然后,你让模型反复预测AI助手会“说出”的下一个单词,这就是用户得到的输出结果。

    但是,LLM 并非以确定方式预测下一个单词,而是为所有可能的下一个单词分别分配一个概率。这样的话,如果你允许LLM以更随机方式,选择可能性更低的下一个单词,输出结果会看起来更自然。

    因此,这意味着,对于一个固定的提示词,LLM 每次给出的答案通常是不同的。
  3. 一款可平替v0、Cursor、Cline的AI全栈构建工具,通过简单提示即可生成带有界面、前端、后端、数据库的网站

    支持通过Web仪表盘操作,也可以直接用命令行生成项目,生成后的项目支持实时预览

    支持快捷键来迭代修改UI组件,可以随时对已生成的内容进行调整和优化

    支持并发生成,可以调整LLM并发数,支持本地开发环境

    cofounder | #工具 #替代品
  4. ReadKidz: AI 驱动的一站式儿童多媒体内容创作平台, 让用户能轻松制作图书、视频和歌曲等儿童内容

    核心定位
    - 一站式儿童多媒体内容创作平台
    - 通过 AI 技术简化和加速创作流程
    - 面向教育工作者、家长和内容创作者

    特色功能
    - 表情控制: 创建富有表现力的角色
    - 姿势控制: 制作生动的角色动作
    - 分镜创建: AI 辅助故事创作
    - 提示词修改: 精确控制图像生成

    主要功能
    - 创作类型: 儿童绘本 | 儿童故事 | 儿童歌曲 | 故事视频 | 睡前故事视频
    - 技术特点: 100+ 创作模板 | 60+ 绘画风格 | 10+ 专业配音选项 | AI 辅助故事生成 | AI 辅助插图创作

    平台优势
    - 一站式解决方案, 无需在多个工具间切换
    - 角色和故事的一致性保证
    - 支持一键发布到 YouTube、Amazon KDP 和 WhatsApp
    - 开放式提示词系统, 支持自由创作
    - 内置表情控制和姿势控制功能
    Readkidz_AI_Powered_Children's_e_Picture_Books_&_Story_Creation.webm
    87.2 MB
  5. 本书是由Richard Hammack撰写的一本关于数学证明技巧的教材。书中内容涵盖了数学基础、逻辑、计数原理、条件语句证明、非条件语句证明、集合论、反证法、数学归纳法等多个主题,期望帮助学生理解数学结构,证明数学命题,并探索数学真理。作者结合了自己在弗吉尼亚联邦大学和兰多夫-梅肯学院教授证明课程的经验,将讲义扩展和精炼成此书,适合各类本科数学课程

    Book of Proof | #电子书
  6. Maxun - Web:数据采集自动化平台 | #爬虫

    爬虫 • 无代码 • 智能化 • 全自动化

    无代码网络数据提取平台, 用户可以在 2 分钟内训练一个网络爬虫机器人, 无需编程知识就能实现自动化的网页数据抓取, 支持将网站转换为 API 或直接导出到电子表格。

    主要特性:
    - 无代码方式提取数据
    - 支持处理分页和滚动
    - 可以按特定时间表运行机器人
    - 支持网站到 API 的转换
    - 支持网站到电子表格的转换
    - 允许用户连接外部代理以绕过反爬虫保护
    - 即将推出: 自适应网站布局变化、支持需要登录和双因素认证的网站抓取

    机器人动作类型:
    - Capture List: 用于提取结构化数据和批量项目
    - Capture Text: 用于提取单个文本内容
    - Capture Screenshot: 可获取全页面或可见区域截图
  7. MemenomeLM: 把 PDF 转化为易上瘾的视频

    针对学习过程, 通过 AI 技术将传统的 PDF 学习材料转换为更生动有趣的视频形式, 既保留了学习内容的专业性, 又强调提高效率、改善学习体验和趣味性, 网站显示已经有超过 10w 学生使用, 涵盖了非常多知名高校。
    Media is too big
    VIEW IN TELEGRAM
  8. 视觉模型集成: 改进 RAG 文档处理新方法

    - 传统 RAG 只处理文本内容, 而这个系统同时处理文本和图像
    - 对 PDF 文档的每一页同时提取文本和图像信息
    - 使用 Qdrant 向量数据库存储文本和图像的双重向量表示

    技术实现细节:
    - 文本处理: 使用文本嵌入模型处理提取的文本
    - 图像处理: 使用 CLIP 模型处理页面图像
    - 向量存储: Qdrant 支持每个文档存储多个向量
    - 视觉分析: 集成了 OpenAI 的视觉语言模型

    查询处理流程:
    - 接收用户查询
    - 使用向量相似度检索最相关的前 3 个结果
    - 将查询和检索到的图像传递给视觉语言模型
    - 聚合文本检索和视觉分析的结果
    - 生成综合的回答

    主要优势:
    - 可以"理解"文档的视觉布局和格式
    - 提供更丰富的上下文信息
    - 能够处理图表、图像等非文本内容
    - 回答更准确, 并能提供视觉证据支持