黑洞资源笔记
-
- 机器学习工程开放书:一系列开放的方法,可帮助成功训练大型语言模型和多模态模型。
这是一本适合LLM/VLM培训工程师和操作人员的技术材料,包含大量脚本和复制粘贴命令。
ML Engineering Online Book | #机器学习 -
-
- Edge 新特性:截图后与 AI 讨论截图内容
微软近日邀请处于 Canary 频道的部分 Edge 浏览器用户参与了新版截图工具的测试,受到邀请的用户可在截图完成后在工具栏中点击 AI 按钮,并就截图中的内容与 AI 展开聊天。根据 Neowin 的测试:当用户截图了一张狗狗的照片后,可以立即与 AI 就狗狗的品种、训练方案等内容进行聊天。 - 1KB 空间 1000 欧元,首款 DNA 存储卡上市
法国初创公司 Biomemory 近日宣布推出全球首款 DNA 存储卡,根据介绍,这款存储介质最高可存储 1KB 数据,售价达到了惊人的 1000 欧元(约 7840 元人民币)。| 详文
根据 Biomemory 的介绍:这款全新的存储设备相较于现有的存储介质而言,最大的优势在于其最高 150 年的数据保存时间。Biomemory 还计划于 2026 年推出「Biomemory Prime」 DNA 数据存储中心,该数据中心将能承载 100 PB 的数据量。 - 华硕确认停更 NUC Extreme 系列产品
华硕近日向科技媒体 fudzilla.com 透露:将停止「NUC Extreme」系列产品的后续开发计划,其在接手 Intel NUC 产品线后推出的「NUC 13 Extreme 猛禽峡谷」将成为该系列的绝唱。Intel 在去年 7 月宣布放弃对 NUC 业务的直接投资,华硕随后取得了英特尔非独家授权,并接手了 NUC 相关产品线。
本次停更的「NUC Extreme」是 NUC 系列中的高性能产品线,根据华硕的介绍:「NUC Extreme」的停更不会影响到普通 NUC 产品的后续迭代,之所以不再继续发展「NUC Extreme」产品,是因为其与华硕的「冰刃 X」以及「ROG NUC」产品产生了较大重叠。 - RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的链式推理能力增强文本到图像扩散模型的组合性。
该框架采用MLLM作为全局规划器,将复杂图像生成过程分解为多个子区域内的简单生成任务。同时提出了互补的区域扩散以实现区域化的组合生成。此外,在提出的RPG框架中闭环地集成了文本引导的图像生成和编辑,从而增强了泛化能力。
大量实验证明,RPG-DiffusionMaster在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。特别地,RPG框架与各种MLLM架构(例如MiniGPT-4)和扩散骨干(例如ControlNet)兼容性广泛。
需求人群:
"RPG-DiffusionMaster可用于文本到图像生成和编辑,特别擅长处理复杂的文本提示和多对象多属性关系。"
使用场景示例:
使用RPG-DiffusionMaster生成包含多个对象的图像
利用RPG-DiffusionMaster编辑图像以实现文本语义对齐
采用RPG-DiffusionMaster进行文本到图像生成的实验
产品特色:
利用多模态LLM进行全局规划
将复杂图像生成过程分解为简单生成任务
实现区域化的组合生成
闭环集成文本引导的图像生成和编辑
提高泛化能力
优于其他文本到图像扩散模型
RPG-DiffusionMaster | #框架 - Plock:可以从任何可以输入的地方使用LLM(大语言模型),默认情况下使用Ollama,但也可以与其他可以写入stdout的工具一起使用
- talebook 一个基于Calibre的简单的个人图书管理系统,支持在线阅读。主要特点是:
美观的界面:由于Calibre自带的网页太丑太难用,于是基于Vue,独立编写了新的界面,支持PC访问和手机浏览;
支持多用户:为了网友们更方便使用,开发了多用户功能,支持豆瓣(已废弃)、QQ、微博、Github等社交网站的登录;
支持在线阅读:借助Readium.js 库,支持了网页在线阅读电子书;
支持批量扫描导入书籍;
支持邮件推送:可方便推送到Kindle;
支持OPDS:可使用KyBooks等APP方便地读书;
支持一键安装,网页版初始化配置,轻松启动网站;
优化大书库时文件存放路径,可以按字母分类、或者文件名保持中文;
支持快捷更新书籍信息:支持从百度百科、豆瓣搜索并导入书籍基础信息;
支持私人模式:需要输入访问码,才能进入网站,便于小圈子分享网站; -
- Interconnects Tools for Multimodal Blogging!:将博客内容轻松转化为播客和YouTube内容,使用了两个先进的生成AI工具,分别是Elevenlabs.io的多语言模型用于音频生成以及OpenAI的DALLE3用于生成图像