Skip to main content

黑洞资源笔记

  1. ChatLLM.cpp:纯C++实现的库,提供了几个模型,支持在计算机(CPU)上进行实时聊天。

    这些模型包括 LlaMA 系列、CodeLlaMA、Yi、WizardLM、TigerBot、Baichuan、ChatGLM、InternLM、Mistral、OpenChat、NeuralBeagle14、Phi、QWenLM、BlueLM 和 Stable-LM。

    这些模型经过量化,以便在 CPU 上高效运行。用户可以通过命令行界面与模型进行交互,并使用各种选项来定制聊天体验。
  2. MobileDiffusion是Google研究的一种新的移动端文本生成图像的方法,专为移动设备设计,是一种高效的潜在扩散模型,能够在半秒内生成高质量的512x512图像。

    MobileDiffusion的设计遵循潜扩散模型,包括三个组件:文本编码器、扩散UNet和图像解码器。

    MobileDiffusion通过优化模型架构,包括Diffusion UNet和图像解码器,展现了在计算效率上的出色表现,该技术有望在移动设备上推动快速图像生成体验,拓展了生成模型在提高用户体验和应对隐私问题方面的潜在应用。
  3. Nomic Embed:最新的高性能全开源文本嵌入模型

    Nomic发布了第一个完全开源的文本嵌入模型Nomic Embed,其文本长度可达8192,性能超过OpenAI的Ada和其他开源模型。

    Nomic Embed的模型权重、训练代码和用于训练的数据集都是完全开源的,可以进行全面审计。

    Nomic Embed可以通过Nomic Atlas嵌入API进行商业部署,提供100万免费调用量,也可以通过Nomic Atlas企业版进行可靠、合规的企业级部署。

    文本嵌入是现代NLP中一个关键组件,Nomic Embed通过多阶段的对比训练获得。首先预训练BERT,然后在大规模非监督数据上进行对比训练,最后在小规模标注数据上微调。

    Nomic Embed在多个基准测试中表现强劲,尤其是在长文本任务上优于Ada。它提供了一个高性能且可审计的开源文本嵌入方案。

    Nomic还发布了所有用于训练的数据,以实现完全的模型可审计性。希望社区可以基于Nomic Embed继续推进开源AI。
  4. contrastors是一个对比学习工具包,使研究人员和工程师能够有效地训练和评估对比模型。

    特征:
    建立在Flash Attention之上,可实现快速高效的训练
    支持在多个 GPU 上进行训练
    GradCache支持在受限内存环境中进行大批量训练
    Huggingface 支持轻松加载常见模型(Pythia/GPTNeoX、BERT 等)
    掩码语言建模 (MLM) 预训练
  5. IntelliScraper是一个先进的 Python 网页抓取项目,旨在进行精确的 HTML 内容解析和特征匹配,以从特定网页中提取关键信息。利用 BeautifulSoup 和 scikit-learn 等强大的库,它提供了一种高效灵活的方式来抓取和处理 Web 数据。

    用法
    数据提取与分析:从各种网页中提取必要的数据,支持数据分析和市场研究。
    内容监控:监控经常更新的网站内容的变化,例如新闻、价格更新等。
    自动化测试:对于 Web 开发人员自动测试 Web 内容和布局很有用。

    特点和优点
    高定制性:定义数据列表(wanted_list)以进行有针对性的数据提取。
    智能匹配:利用余弦相似度算法进行智能网页元素匹配,提高准确性。
    用户友好:尽管潜在的复杂性,但易于使用。只需提供 URL、所需数据和规则路径即可开始抓取。
    灵活性:支持直接通过URL获取HTML或使用现有的HTML内容,适应不同的场景。
    可扩展性:核心功能在类中实现,易于继承和扩展以满足特定需求。
  6. WhisperKit:一个Swift开发包,它将OpenAI流行的Whisper语音识别模型与Apple的CoreML框架集成在一起,可在 Apple 设备上进行高效的本地推理,可通过Swift软件包管理器集成到 Swift 项目中。
  7. 一个通用的、自动的图像增强和超分辨率框架,可以应用于各种场景和质量的图像。通过我们提供的演示,用户只需上传一张低质量的图片,即可一键生成增强的图片。无需选择SR型号或调整参数。

    DreaMoving-Phantom | #框架