Skip to main content

黑洞资源笔记

  1. InstructIR:按照人类指令进行高质量图像恢复

    你只需要使用文字描述就能修复和改善图片

    比如说,如果你有一张因为雨滴而看起来模糊的照片,你可以告诉它:请去掉照片上的雨滴,但保持图片内容不变”,它就能自动帮你操作。

    它能够处理包括去噪、去雨、去模糊、去雾以及(低光)图像增强等问题。

    主要功能:接收图像和人类书面指令作为输入,根据这些指令对图像进行改善;支持多种图像恢复任务,包括去噪、去雨、去模糊、去雾和图像增强;实现了状态最先进的恢复效果,提供了高质量的图像输出。

    工作原理:

    InstructIR使用一个文本编码器将人类提供的自然语言指令转换为模型可以理解的向量表示。这些指令明确指导模型关注图像的哪些退化问题,并提供改善的方向。

    全能图像恢复模型:采用NAFNet作为图像恢复的核心模型架构,它是一个高效且性能卓越的图像处理网络。NAFNet能够处理多种图像退化类型,为全方位图像恢复提供支持。

    指令条件块(ICB):InstructIR引入了ICB来实现任务特定的转换,根据文本编码器输出的指令向量,ICB能够调整图像模型的处理流程,使模型能够针对具体的退化类型进行专门的恢复处理。

    多任务学习与任务路由:通过利用任务路由技术,InstructIR能够在单一模型中学习并执行多种图像恢复任务。模型根据输入的人类指令自动判断需要执行的任务类型,并采取相应的恢复策略。

    项目地址 | paper | github | 在线体验
  2. 美图发布公告称宣布收购站酷。

    总价为3964.05万美元(约2.85亿元),其中1778.4万美元将以配发及发行52,992,166股代价股份支付,而余额约2185.6万美元将以现金支付。

    站酷成立于2006年,聚集了来自全球300多个城市的设计师、摄影师、插画师等视觉创意从业者,拥有近1700万注册用户。

    美图CEO吴欣鸿表示,随着站酷的加入,美图影像与设计产品业务将得到进一步升级,为自研AI视觉大模型MiracleVision(奇想智能)的生态带来优质的协同效应,同时帮助美图在专业设计领域进行业务扩展,在版权和共创等方面增强美图的服务能力。
  3. Gemini Ultra即将上线,Bard将更名为 Gemini

    一份泄露的文档显示,Google的Gemini Ultra模型将在2月7号上线,同时Google聊天机器人Bard将更名为Gemini。

    Gemini将开启付费计划:Gemini Advanced,这是一个类似ChatGPT Plus的付费模式,可以访问Gemini Ultra 1.0,Gemini Pro可能将继续免费。

    核心要点:

    界面优化:Gemini的用户界面经过优化,以减少视觉干扰,提高可读性,并简化导航。

    Gemini Advanced付费计划:提供访问Google最强大的AI模型Ultra 1.0的能力,可以执行复杂任务如编程、逻辑推理和创造性协作等。

    Gemini Advanced将引入新功能和独家特性,如增强的多模态能力和编程特性,以及上传和深入分析文件的能力。

    将推出Gemini APP,用户可以在手机上下载使用Gemini来学习、写信、规划活动等。该应用与Google的其他应用(如Gmail、Maps和YouTube)集成,支持文本、语音或图片交互。
  4. ML Blocks:无代码AI图像生成和分析工作流平台

    它提供了一个拖放式的界面,允许用户轻松地创建复杂的图像处理工作流,无需编写任何代码。

    你只根据需要将不同的功能块(如图像编辑功能和AI模型)组合在一起,即可实现个性化的图像自动化处理。

    该工具主要解决在电商领域遇到的批量处理图片问题。

    ML Blocks允许用户创建可以处理多步骤图像生成或分析管道的自定义图像处理工作流,使用基于图的工作流。用户只需按顺序连接几个块,如去背景 -> 裁剪 -> AI上采样,就可以在几分钟内得到完整的图像处理工作流。

    主要功能:
    生成图像:使用 Stable Diffusion 等 AI 模型生成或绘制图像。
    编辑图像:提供编辑功能,如裁剪、调整大小、重新着色等,来修改图像。
    分析图像:利用检测或分割模型从图像中提取数据。

    实际应用示例:基于提示模糊图像特定区域:传统方法需要使用DINO模型生成提示中提到的对象周围的边界框,然后使用像Segment Anything这样的分割模型生成这些区域的遮罩,最后使用Pillow或OpenCV库编写模糊功能来模糊遮罩区域。

    而使用ML Blocks,用户只需将分割、遮罩和模糊块连接起来,就能在2分钟内完成工作流程。

    你还可以自动生成博客帖子或推文的横幅图像、根据提示移除图像中的对象、去除背景并用AI创建新背景等多种工作流程。

    工作原理 | Home
  5. dockge:一个美观、易用的 Docker Compose 管理平台

    该项目提供了一个 Web 界面,用于管理 docker-compose.yaml 文件。它开箱即用、界面设计精美,支持交互式编辑 compose.yaml 文件、更新 docker 镜像,以及启动、停止、重启、删除 docker 等操作。
    Media is too big
    VIEW IN TELEGRAM
  6. Rawdog:根据提示生成和自动执行Python脚本的CLI助手,可执行各种任务,如统计home目录中的文件夹数量、绘制它们的磁盘大小、获取CSV文件的pd.describe()等。

    Rawdog采用了一种新的方法,通过运行脚本来选择上下文,将输出添加到对话中,然后再次调用自身。但需要注意,如果受到恶意指令,它有潜在的危害性。
  7. 一款开源高颜值 AI 客户端: Noi

    作者曾开源的 ChatGPT 第三方客户端,获得 45.2k Star。此次进行全面重构开发了一个集 AI + 工具 + 插件 + 社区一体的客户端。

    客户端界面设计参考了 Arc 浏览器风格,内置当前主流的 ChatGPT、Claude、Bard、Poe 等 AI 快速入口,此外,还有常见的 GitHub、HuggingFace 以及 VS Code 工具。

    具有如下特性:

    - 支持加载任意 URL(客户端实际相当于一个小浏览器)。
    - 支持多种个性化主题切换。
    - 支持多种语言。
    - 支持自定义 Prompt 管理。https://github.com/lencx/Noi/raw/main/website/static/readme/noi-theme-dark.png
    - 支持 AI 批量提问,比如同时 GPT、Claude、Bard 发起提问,方便对比结果。
    - 支持 MacOS、Windows、Linux 系统安装。
  8. Hugging Face发布Assistants:HuggingChat上的自定义助手,设定模型、名称和系统提示即可定制助手,打造基于开源LLM模型的GPT Store
  9. FONNX:一个 Flutter 库,用于运行 ONNX 模型,可以将 Pytorch、Tensorflow 等主流机器学习框架训练的模型轻松转换为 ONNX 格式,并可在 iOS、Android、Web、Linux、Windows 和 macOS 等平台上原生运行,无需进行任何修改