黑洞资源笔记

16:05 · Feb 2, 2024 · Fri

ChatLLM.cpp：纯C++实现的库，提供了几个模型，支持在计算机（CPU）上进行实时聊天。

这些模型包括 LlaMA 系列、CodeLlaMA、Yi、WizardLM、TigerBot、Baichuan、ChatGLM、InternLM、Mistral、OpenChat、NeuralBeagle14、Phi、QWenLM、BlueLM 和 Stable-LM。

这些模型经过量化，以便在 CPU 上高效运行。用户可以通过命令行界面与模型进行交互，并使用各种选项来定制聊天体验。
16:03 · Feb 2, 2024 · Fri

基于Vapoursynth的图形化视频批量压制处理工具，超分辨率，补帧，vs滤镜一应俱全。

Video SuperResolution Encode Tool | #工具

工具
15:57 · Feb 2, 2024 · Fri

MobileDiffusion是Google研究的一种新的移动端文本生成图像的方法，专为移动设备设计，是一种高效的潜在扩散模型，能够在半秒内生成高质量的512x512图像。

MobileDiffusion的设计遵循潜扩散模型，包括三个组件：文本编码器、扩散UNet和图像解码器。

MobileDiffusion通过优化模型架构，包括Diffusion UNet和图像解码器，展现了在计算效率上的出色表现，该技术有望在移动设备上推动快速图像生成体验，拓展了生成模型在提高用户体验和应对隐私问题方面的潜在应用。
Google Research

MobileDiffusion: Rapid text-to-image generation on-device

Posted by Yang Zhao, Senior Software Engineer, and Tingbo Hou, Senior Staff Software Engineer, Core ML Text-to-image diffusion models have shown ex...
15:55 · Feb 2, 2024 · Fri

Nomic Embed：最新的高性能全开源文本嵌入模型

Nomic发布了第一个完全开源的文本嵌入模型Nomic Embed，其文本长度可达8192，性能超过OpenAI的Ada和其他开源模型。

Nomic Embed的模型权重、训练代码和用于训练的数据集都是完全开源的，可以进行全面审计。

Nomic Embed可以通过Nomic Atlas嵌入API进行商业部署，提供100万免费调用量，也可以通过Nomic Atlas企业版进行可靠、合规的企业级部署。

文本嵌入是现代NLP中一个关键组件，Nomic Embed通过多阶段的对比训练获得。首先预训练BERT，然后在大规模非监督数据上进行对比训练，最后在小规模标注数据上微调。

Nomic Embed在多个基准测试中表现强劲，尤其是在长文本任务上优于Ada。它提供了一个高性能且可审计的开源文本嵌入方案。

Nomic还发布了所有用于训练的数据，以实现完全的模型可审计性。希望社区可以基于Nomic Embed继续推进开源AI。
15:52 · Feb 2, 2024 · Fri

MiniSearch：极简网络搜索应用，具有始终可用的 AI 助手，可直接在浏览器中运行，使用 Web-LLM、Transformers.js 和 SearXNG构建
15:51 · Feb 2, 2024 · Fri

利用LLM构建应用实践笔记 | llm-books
15:49 · Feb 2, 2024 · Fri

contrastors是一个对比学习工具包，使研究人员和工程师能够有效地训练和评估对比模型。

特征：
建立在Flash Attention之上，可实现快速高效的训练
支持在多个 GPU 上进行训练
GradCache支持在受限内存环境中进行大批量训练
Huggingface 支持轻松加载常见模型（Pythia/GPTNeoX、BERT 等）
掩码语言建模 (MLM) 预训练
15:47 · Feb 2, 2024 · Fri

Lockbox：正向代理服务器(forward proxy)，用于执行第三方API调用
15:45 · Feb 2, 2024 · Fri

IntelliScraper是一个先进的 Python 网页抓取项目，旨在进行精确的 HTML 内容解析和特征匹配，以从特定网页中提取关键信息。利用 BeautifulSoup 和 scikit-learn 等强大的库，它提供了一种高效灵活的方式来抓取和处理 Web 数据。

用法
数据提取与分析：从各种网页中提取必要的数据，支持数据分析和市场研究。
内容监控：监控经常更新的网站内容的变化，例如新闻、价格更新等。
自动化测试：对于 Web 开发人员自动测试 Web 内容和布局很有用。

特点和优点
高定制性：定义数据列表（wanted_list）以进行有针对性的数据提取。
智能匹配：利用余弦相似度算法进行智能网页元素匹配，提高准确性。
用户友好：尽管潜在的复杂性，但易于使用。只需提供 URL、所需数据和规则路径即可开始抓取。
灵活性：支持直接通过URL获取HTML或使用现有的HTML内容，适应不同的场景。
可扩展性：核心功能在类中实现，易于继承和扩展以满足特定需求。
15:43 · Feb 2, 2024 · Fri

人形机器人学习相关资源列表 | awesome-humanoid-learning
15:35 · Jan 31, 2024 · Wed

Code Llama 70B在线体验，Code Llama 70B由Meta推出的最新AI编程模型，标志着AI辅助代码生成领域的重大升级，用于处理更复杂的编程任务，具有更高的准确性和效率
15:28 · Jan 31, 2024 · Wed

WhisperKit：一个Swift开发包，它将OpenAI流行的Whisper语音识别模型与Apple的CoreML框架集成在一起，可在 Apple 设备上进行高效的本地推理，可通过Swift软件包管理器集成到 Swift 项目中。
15:26 · Jan 31, 2024 · Wed

一个通用的、自动的图像增强和超分辨率框架，可以应用于各种场景和质量的图像。通过我们提供的演示，用户只需上传一张低质量的图片，即可一键生成增强的图片。无需选择SR型号或调整参数。

DreaMoving-Phantom | #框架

框架