Skip to main content

黑洞资源笔记

  1. AI Gateway(AI 网关):通过统一简单的 API,让你轻松快速接入 100 多种大语言模型,如 OpenAI、Anthropic、Mistral、LLama2、Google Gemini 等。| #工具
    特点:

    占用空间极小,仅仅约 45kb,但其处理速度极快,达到快 9.9 倍。可以同时连接多个模型,并能处理多个模型、服务提供商和密钥之间的负载平衡。

    设置故障转移机制,当一个模型出现无法使用情况,可自动切换到可用模型,确保你的应用持续稳定运行。默认配置自动重试,并采用指数回退策略,进一步提高请求的稳定性。

    可根据需求添加中间件,满足你个性化需求。已经在超过 100B Tokens 上进行了实战测试。
  2. 文生视频软件 Pika 官方近日宣布推出视频画面扩充功能,用户输入文字生成图像后,若需要一些额外的画面,可以点击 Expand Canvas 功能按钮扩展画面。同时,Pika 还支持调整视频风格,点击编辑按钮,输入用户想要的风格提示,就可以轻松切换视频的风格。

    Pika是一个视频制作平台,用户可以上传自己的创意想法,Pika会自动生成相关的视频。主要功能有:支持多种创意想法转视频,视频效果专业,操作简单易用。平台采用免费试用模式,定位面向创意者和视频爱好者。

    需求人群:"适用于需要快速制作推广视频的个人和中小企业;适用于有视频创意但缺乏制作能力的创意者。"

    使用场景示例:

    用户输入旅游博客文章,Pika自动生成相关的旅游推广视频
    用户上传产品设计草图,Pika快速呈现产品特性的展示视频
    用户提供婚礼主题和音乐,Pika制作完整的婚礼视频

    产品特色:

    支持文字、素描、音频等方式输入创意
    人工智能生成高质量视频
    提供多个视频模板和特效选择
    支持在线视频编辑和发布
  3. McAfee推出Mockingbird项目来阻止AI语音克隆诈骗 | YouTube | 文章

    McAfee推出了Project Mockingbird,以检测使用生成式AI制作的深度伪造音频和视频。这些伪造内容正在被网络犯罪分子用来进行诈骗和操纵公众舆论。

    该技术可以检测出音频是否真的是某人的声音,或者是AI生成的。它可以帮助消费者识别视频和信息的真伪,避免上当受骗。

    McAfee表示这项技术应用广泛,可以帮助消费者应对AI生成的诈骗和虚假信息的增加。它可以赋予消费者区分数字世界中真假内容的能力。McAfee进行的一项调查显示,68%的美国人比去年更担心深度伪造,33%的人表示遇到过或知道深度伪造诈骗。

    大众最担心深度伪造会被用来影响选举、网络欺凌、破坏公众对媒体的信任等。McAfee希望通过这项技术来增强在线隐私、身份和福祉。McAfee在CES 2024上首次公开展示了Project Mockingbird。该技术被比作知更鸟的鸣叫来欺骗的行为,同样地网络犯罪分子也利用AI来欺骗消费者谋取利益。

    McAfee的这项技术旨在帮助消费者识破AI生成的语音和视频欺骗,提高数字世界的安全性。它具有广泛的应用前景。
    Media is too big
    VIEW IN TELEGRAM
  4. 大型语言模型基础知识可视化学习指南 | link | 翻译版 | #指南 #可视化

    本文收集了一系列工具和文章,通过直观的可视化方式解释大型语言模型(LLM)的基础概念。

    Jay Alammar的《图解Transformer》以生动的可视化说明了Transformer架构的工作原理。由于Transformer是所有语言模型的基石,理解它的基础尤为重要。《图解GPT-2》直观地展示了GPT-2的内部结构,如注意力机制等,有助于理解LLM的组成部分。
    Brendan Bycroft的LLM可视化工具允许直观地探索不同LLM内部状态的变化。
    Financial Times的文章解释了Transformer的重要性,以及它如何促成了生成式AI的发展。
    OpenAI的Tokenizer工具演示了Tokenizer在文本处理中的作用。
    Simon Wilson的文章深入解释了GPT Tokenizer的工作原理。
    Greg Kamradt的Chunkviz工具展示了文本是如何被LLM处理成“块”的。
    PAIR的“机器学习模型记忆还是泛化?”交互式介绍了两种学习方式及其对LLM的影响。

    这些资源从多个维度直观地说明了LLM的核心概念和机制,有助于科技从业者和爱好者更好地理解LLM技术的本质。
  5. Samantha:自主对话Agent,具备自由思考和连续说话的能力,创造出极高的逼真感和动态性,具有以下特点:

    1.动态语音,可以根据上下文自主发言,不仅限于回答问题
    2.实时视觉能力,只有在相关时才直接提到和处理视觉信息,但视觉始终影响其思维和行为
    3.外部分类记忆,可以动态地读写记忆,选择最相关的信息
    4.每时每刻都在发展,存储在记忆中的经验可以影响和塑造Samantha的行为,包括个性、说话频率和风格等。