Skip to main content

黑洞资源笔记

  1. Hand Talk: 利用AI将语音和文字翻译为手语

    只需要输入文本或说话,Hand Talk应用会自动将其翻译成美国手语(ASL)或巴西手语(Libras)。

    该应用被联合国选为“世界上最佳的社交应用”,目前已翻译了近20亿个单词。

    Hand Talk的一些核心功能:

    自动手语翻译
    -文本和语音到手语:用户可以输入文本或说话,Hand Talk应用会自动将其翻译成美国手语(ASL)或巴西手语(Libras)。
    -使用虚拟翻译者:通过虚拟角色Hugo和Maya进行动态手语翻译,让学习和交流更加互动和有趣。

    学习和教育工具
    -手语学习:应用不仅是一个翻译工具,也是一个学习平台,用户可以在实践中学习新
    的手语。
    -教室资源:作为教育资源,适用于教师、学生和口译人员,作为辅助交流工具。

    个性化和互动
    -保存和评价翻译:用户可以保存他们最喜欢的翻译,并对翻译进行评价。
    -自定义虚拟翻译者:在应用的商店中,用户可以为Hugo和Maya选择不同的服装和背景,使交流更个性化。

    离线访问:即使在没有网络的情况下,用户也可以访问他们保存的翻译,使得Hand Talk应用更加便捷。

    多元化的使用环境: Hand Talk应用被广泛用于教室、家庭以及手语学习者之间,帮助提高词汇量和交流能力。

    免费下载和使用: Hand Talk应用可以免费下载和使用,虽然也提供了去除广告的付费选项。

    使用方式:
    使用Hand Talk App非常简单。在主屏幕上,用户只需输入或录制想要查询的单词的音频,发送后不久Hugo或Maya就会用手语翻译你的句子。用户还可以通过屏幕底部的菜单探索应用的其他部分,如商店,以个性化地定制Hand Talk App。

    Home | 下载地址
  2. AI图像编辑工具Facet AI 实时图像生成,可精确控制图像元素

    🎨 操作简单,直接拖拽就可以调整图像元素,实现精确控制,而且实时展示

    🖼 实时的修改图像中的任意位置和元素,比如杯子的朝向,花的颜色,以及放在哪个区域等

    🌟 可以向任何提示添加图像参考,以便快速获取符合特定主题或风格的图像。

    Facet | #工具
  3. 一款开源免费平替 Perplexity AI 工具

    这是一款完全免费基于搜索的问答 AI 工具,可本地运行且无需 GPU 硬件支持,能很好确保隐私安全。

    只需输入问题,工具便会通过 SearXNG 进行多引擎搜索,并利用 GPT-3.5 处理搜索结果,总结并生成答案。
    主要特性:

    🈚️ 完全免费:无需支付任何费用或申请任何 API 密钥。
    💻 本地化操作:不需 GPU 支持,任何电脑均可运行。
    🔐 保障隐私:所有操作均在本地执行,确保隐私安全。
    👻 无需专门的大语言模型硬件:免 GPU!
    🤩 支持免费的 GPT-3.5 API:无需 API 密钥即可使用。
    🚀 快速部署:支持 Docker Compose,便捷部署。
    🌐 适配网络和移动端:无论是通过电脑还是移动设备,都能轻松访问。

    项目提供了 docker-compose 快速部署方式,并且是在熟悉的 NextChat 页面上使用,可快速上手。

    FreeAskInternet | #工具 #替代品
  4. 开源大模型使用指南 | #指南

    本项目是一个围绕开源大模型、针对国内初学者、基于 AutoDL 平台的中国宝宝专属大模型教程,针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导,简化开源大模型的部署、使用和应用流程,让更多的普通学生、研究者更好地使用开源大模型,帮助开源、自由的大模型更快融入到普通学习者的生活中。

    本项目的主要内容包括:

    基于 AutoDL 平台(可扩展,例如阿里云)的开源 LLM 环境配置指南,针对不同模型要求提供不同的详细环境配置步骤;
    针对国内外主流开源 LLM 的部署使用教程,包括 LLaMA、ChatGLM、InternLM 等;
    开源 LLM 的部署应用指导,包括命令行调用、在线 Demo 部署、LangChain 框架集成等;
    开源 LLM 的全量微调、高效微调方法,包括分布式全量微调、LoRA、ptuning 等。

    本项目适合以下学习者:

    想要使用或体验 LLM,但无条件获得或使用相关 API;
    希望长期、低成本、大量应用 LLM;
    对开源 LLM 感兴趣,想要亲自上手开源 LLM;
    NLP 在学,希望进一步学习 LLM;
    希望结合开源 LLM,打造领域特色的私域 LLM;
    以及最广大、最普通的学生群体。
  5. 128k上下文+多语言+工具:Cohere开放企业级应用大模型Command R+

    Cohere推出Command R+模型,一个为应对企业级工作负载而构建的最强大、最具可扩展性的大型语言模型(LLM)。
    - Command R+首先在Microsoft Azure上推出,旨在加速企业AI的采用。它加入了Cohere的R系列LLM,专注于在高效率和强准确性之间取得平衡,使企业能从概念验证走向生产。
    - Command R+具有128k token的上下文窗口,旨在提供同类最佳的性能,包括:
    - 先进的检索增强生成(RAG)和引用,以减少幻觉
    - 支持10种关键语言的多语言覆盖,以支持全球业务运营
    - 工具使用,以实现复杂业务流程的自动化
    - Command R+在各方面都优于Command R,在类似模型的基准测试中表现出色。
    - 开发人员和企业可以从今天开始在Azure上访问Cohere的最新模型,很快也将在Oracle云基础设施(OCI)以及未来几周内的其他云平台上提供。Command R+也将立即在Cohere的托管API上提供。
    - Atomicwork等企业客户可以利用Command R+来改善数字工作场所体验,加速企业生产力。

    思考:
    - Cohere推出Command R+,进一步丰富了其企业级LLM产品线,展现了其在企业AI市场的雄心和实力。与微软Azure的合作有望加速其企业客户的拓展。
    - Command R+在Command R的基础上进行了全面升级,128k token的上下文窗口、多语言支持、工具使用等特性使其能够胜任更加复杂多样的企业应用场景。这表明Cohere对企业需求有着深刻洞察。
    - RAG和引用功能有助于提高模型输出的可靠性,减少幻觉,这对于企业级应用至关重要。可以看出Cohere在兼顾性能的同时,也非常重视模型的可控性。
    - 与微软、甲骨文等云计算巨头合作,使Command R+能够在多个主流云平台上快速部署,降低了企业的采用门槛。这种开放的生态策略有利于加速其市场渗透。
    - Atomicwork等企业客户的支持表明Command R+具有显著的商业价值。将LLM与企业数字化转型相结合,有望催生更多创新性的应用。
    - Command R+的推出标志着Cohere在企业级AI市场的发力,其强大的性能和完善的生态有望帮助其在竞争中占据优势地位。不过,企业AI的落地仍面临数据安全、伦理合规等诸多挑战,Cohere还需要在这些方面持续投入。
  6. stylellm 是一个基于大语言模型(llm)的文本风格迁移(text style transfer)项目。项目利用大语言模型来学习指定文学作品的写作风格(惯用词汇、句式结构、修辞手法、人物对话等),形成了一系列特定风格的模型。

    利用stylellm模型可将学习到的风格移植至其他通用文本上,即:输入一段原始文本,模型可对其改写,输出带有该风格特色的文本,达到文字修饰、润色或风格模仿的效果。
  7. 通过结构化文献调研,全面系统地总结和分析了生成式AI在假新闻生成与检测中的应用现状、关键技术、主要课题和未来方向。 ​​​| arXiv
  8. MiraData:大规模视频数据集,具有长时长和结构化描述

    视频数据集在视频生成(如 sora)中发挥着至关重要的作用。然而,现有的文本视频数据集在处理长视频序列和捕捉镜头转换方面往往存在不足。为了解决这些局限性,我们引入了 MiraData(迷你索拉数据),这是一个专门为长视频生成任务设计的大规模视频数据集。

    MiraData 的主要特点
    长视频时长: 以往的数据集通常视频片段很短(通常少于 6 秒),而 MiraData 则不同,它侧重于未剪切的视频片段,持续时间从 1 分钟到 2 分钟不等。这种延长的持续时间可以对视频内容进行更全面的建模。
    结构化字幕: MiraData 中的每段视频都配有结构化字幕。这些标题从不同角度进行了详细描述,增强了数据集的丰富性。标题平均长度为 349 个字,确保了视频内容的全面呈现。
  9. 从0到1构建一个MiniLLM

    本项目旨在构建一个小参数量的llm,走完预训练 -> 指令微调 -> 奖励模型 -> 强化学习 四个阶段,以可控的成本完成一个可以完成简单聊天任务的chat模型,目前完成前两个阶段。

    使用bert4torch训练框架,代码简洁高效;
    训练的checkpoint可以无缝衔接transformers,直接使用transformers包进行推理;
    优化了训练时候文件读取方式,优化内存占用;
    提供了完整训练log供复现比对;
    增加自我认知数据集,可自定义机器人名称作者等属性。
    chat模型支持多轮对话。
  10. Kyoo:基于网页的媒体库解决方案,旨在提供一个简单但功能强大的平台,用于组织和管理数字媒体内容

    动态转码: 将媒体转码为任何质量,使用自动质量功能即时更改,无需等待转码器即可轻松查找。

    自动观看历史: 享受自动观看历史和继续观看功能,让您快速恢复连续剧或发现新剧集。

    智能元数据检索: 借助 guessit 和 themoviedb 的强大功能,体验智能元数据检索,即使是名称奇怪的文件也不例外。它甚至使用 thexem 来增强动漫处理能力。

    跨平台访问: 通过 Android 和 Web 客户端访问 Kyoo,确保你的媒体随时随地触手可及。

    Meilisearch驱动的搜索: 利用由 Meilisearch 提供支持的先进、抗错别字搜索系统,以闪电般的速度获得搜索结果。

    支持快速擦除: 支持快速擦写,轻松浏览媒体,增强对播放的控制。

    下载和离线支持: 享受下载和离线观看的自由,当你重新连接时,观看历史记录会无缝更新。

    增强字幕支持: Kyoo 不仅支持基本的字幕,还增强了字幕支持,包括 SSA/ASS 格式和自定义字体。

    支持 OIDC 和擦除: 使用你的收藏夹服务(Google、Discord 或任何兼容 OIDC 的服务)登录,并自动将剧集标记为已在链接服务(SIMKL 和即将推出的其他服务)上观看。