Skip to main content

黑洞资源笔记

  1. 128k上下文+多语言+工具:Cohere开放企业级应用大模型Command R+

    Cohere推出Command R+模型,一个为应对企业级工作负载而构建的最强大、最具可扩展性的大型语言模型(LLM)。
    - Command R+首先在Microsoft Azure上推出,旨在加速企业AI的采用。它加入了Cohere的R系列LLM,专注于在高效率和强准确性之间取得平衡,使企业能从概念验证走向生产。
    - Command R+具有128k token的上下文窗口,旨在提供同类最佳的性能,包括:
    - 先进的检索增强生成(RAG)和引用,以减少幻觉
    - 支持10种关键语言的多语言覆盖,以支持全球业务运营
    - 工具使用,以实现复杂业务流程的自动化
    - Command R+在各方面都优于Command R,在类似模型的基准测试中表现出色。
    - 开发人员和企业可以从今天开始在Azure上访问Cohere的最新模型,很快也将在Oracle云基础设施(OCI)以及未来几周内的其他云平台上提供。Command R+也将立即在Cohere的托管API上提供。
    - Atomicwork等企业客户可以利用Command R+来改善数字工作场所体验,加速企业生产力。

    思考:
    - Cohere推出Command R+,进一步丰富了其企业级LLM产品线,展现了其在企业AI市场的雄心和实力。与微软Azure的合作有望加速其企业客户的拓展。
    - Command R+在Command R的基础上进行了全面升级,128k token的上下文窗口、多语言支持、工具使用等特性使其能够胜任更加复杂多样的企业应用场景。这表明Cohere对企业需求有着深刻洞察。
    - RAG和引用功能有助于提高模型输出的可靠性,减少幻觉,这对于企业级应用至关重要。可以看出Cohere在兼顾性能的同时,也非常重视模型的可控性。
    - 与微软、甲骨文等云计算巨头合作,使Command R+能够在多个主流云平台上快速部署,降低了企业的采用门槛。这种开放的生态策略有利于加速其市场渗透。
    - Atomicwork等企业客户的支持表明Command R+具有显著的商业价值。将LLM与企业数字化转型相结合,有望催生更多创新性的应用。
    - Command R+的推出标志着Cohere在企业级AI市场的发力,其强大的性能和完善的生态有望帮助其在竞争中占据优势地位。不过,企业AI的落地仍面临数据安全、伦理合规等诸多挑战,Cohere还需要在这些方面持续投入。
  2. stylellm 是一个基于大语言模型(llm)的文本风格迁移(text style transfer)项目。项目利用大语言模型来学习指定文学作品的写作风格(惯用词汇、句式结构、修辞手法、人物对话等),形成了一系列特定风格的模型。

    利用stylellm模型可将学习到的风格移植至其他通用文本上,即:输入一段原始文本,模型可对其改写,输出带有该风格特色的文本,达到文字修饰、润色或风格模仿的效果。
  3. 通过结构化文献调研,全面系统地总结和分析了生成式AI在假新闻生成与检测中的应用现状、关键技术、主要课题和未来方向。 ​​​| arXiv
  4. MiraData:大规模视频数据集,具有长时长和结构化描述

    视频数据集在视频生成(如 sora)中发挥着至关重要的作用。然而,现有的文本视频数据集在处理长视频序列和捕捉镜头转换方面往往存在不足。为了解决这些局限性,我们引入了 MiraData(迷你索拉数据),这是一个专门为长视频生成任务设计的大规模视频数据集。

    MiraData 的主要特点
    长视频时长: 以往的数据集通常视频片段很短(通常少于 6 秒),而 MiraData 则不同,它侧重于未剪切的视频片段,持续时间从 1 分钟到 2 分钟不等。这种延长的持续时间可以对视频内容进行更全面的建模。
    结构化字幕: MiraData 中的每段视频都配有结构化字幕。这些标题从不同角度进行了详细描述,增强了数据集的丰富性。标题平均长度为 349 个字,确保了视频内容的全面呈现。
  5. 从0到1构建一个MiniLLM

    本项目旨在构建一个小参数量的llm,走完预训练 -> 指令微调 -> 奖励模型 -> 强化学习 四个阶段,以可控的成本完成一个可以完成简单聊天任务的chat模型,目前完成前两个阶段。

    使用bert4torch训练框架,代码简洁高效;
    训练的checkpoint可以无缝衔接transformers,直接使用transformers包进行推理;
    优化了训练时候文件读取方式,优化内存占用;
    提供了完整训练log供复现比对;
    增加自我认知数据集,可自定义机器人名称作者等属性。
    chat模型支持多轮对话。
  6. Kyoo:基于网页的媒体库解决方案,旨在提供一个简单但功能强大的平台,用于组织和管理数字媒体内容

    动态转码: 将媒体转码为任何质量,使用自动质量功能即时更改,无需等待转码器即可轻松查找。

    自动观看历史: 享受自动观看历史和继续观看功能,让您快速恢复连续剧或发现新剧集。

    智能元数据检索: 借助 guessit 和 themoviedb 的强大功能,体验智能元数据检索,即使是名称奇怪的文件也不例外。它甚至使用 thexem 来增强动漫处理能力。

    跨平台访问: 通过 Android 和 Web 客户端访问 Kyoo,确保你的媒体随时随地触手可及。

    Meilisearch驱动的搜索: 利用由 Meilisearch 提供支持的先进、抗错别字搜索系统,以闪电般的速度获得搜索结果。

    支持快速擦除: 支持快速擦写,轻松浏览媒体,增强对播放的控制。

    下载和离线支持: 享受下载和离线观看的自由,当你重新连接时,观看历史记录会无缝更新。

    增强字幕支持: Kyoo 不仅支持基本的字幕,还增强了字幕支持,包括 SSA/ASS 格式和自定义字体。

    支持 OIDC 和擦除: 使用你的收藏夹服务(Google、Discord 或任何兼容 OIDC 的服务)登录,并自动将剧集标记为已在链接服务(SIMKL 和即将推出的其他服务)上观看。
  7. AI生成内容泛滥冲击Google Books

    Google Books作为索引已出版资料的重要学术工具,正在收录大量低质量、由AI生成的书籍内容,并会出现在Google Books的搜索结果中。

    大量索引AI生成的垃圾内容,可能会影响Google Ngram Viewer的结果准确性。Ngram Viewer是研究人员用来追踪历史语言使用情况的重要工具,它基于Google Books的数据。这反映出在AI技术快速发展的背景下,学术界对付AI生成的大规模垃圾内容还缺乏应对之策。图书出版和学术搜索工具的把关机制亟待升级,以应对AI带来的挑战。

    谷歌官方表示会删除所有低质量内容,无论是AI还是人工创作。但AI生成内容的泛滥,对搜索引擎和学术工具构成了前所未有的冲击。

    思考:
    - AI生成内容正以超乎想象的速度渗透到方方面面。作为知识索引的基础设施,Google Books这样的工具首当其冲受到冲击,凸显出AI时代学术规范和内容把关面临的困境。
    - 海量的AI垃圾内容会稀释优质内容的密度,误导读者,破坏学术生态。Ngram Viewer等研究工具也会受到污染,影响学术研究的准确性。学术界需要高度重视这一问题。
    - 识别AI生成内容本身就是一个技术挑战。传统的人工审核已然不敷使用,平台和工具方需要研发更智能的AI技术来对抗恶意的AI生成内容。
    - 从源头治理,完善AI伦理规范,加强对AI滥用的监管,需要学界、业界、政府多方合力。在拥抱AI红利的同时,也要警惕其负面影响,建立科学的AI治理体系。
  8. 由 Libra-AI 开发的一个开源工具,用于将事实验证过程自动化。它提供了一个全面的管道,用于将长文本剖析成单独的主张、评估其验证的价值、生成证据搜索的查询、爬取证据并最终验证主张。

    该工具对于记者、研究人员和任何对信息真实性感兴趣的人特别有用。

    Loki | #工具
  9. twitter-web-exporter:使用 TypeScript 开发的开源项目,可用于从 Twitter 网页应用程序导出 tweets、书签、列表、搜索结果、用户关注列表等

    局限性
    该脚本仅适用于网络应用程序 (twitter.com)。它不适用于移动应用程序。

    基本上,脚本“看到”你在页面上看到的内容。如果你看不到页面上的数据,则脚本也无法访问它。例如,Twitter 在个人资料页面上仅显示最新的 3200 条推文,并且脚本无法导出早于此的推文。

    网页上的数据是动态加载的,这意味着脚本在加载之前无法访问数据。需要继续向下滚动以加载更多数据。确保在导出之前加载所有数据。

    导出过程不是自动化的(没有第三方工具的帮助)。它依靠人类交互来触发 Twitter Web 应用程序的数据获取过程。该脚本本身不会向 Twitter API 发送任何请求。

    该脚本不依赖官方 Twitter API,因此没有相同的速率限制。然而,Twitter 网络应用程序确实有其自身的局限性。如果达到该速率限制,请在几分钟后重试。

    相反,该脚本可以导出官方API无法提供的数据。例如,官方API在访问书签时有800个限制。该脚本可以导出所有书签,不受该限制,直到受到 Twitter Web 应用程序本身的限制。

    下载媒体文件也有限制。目前,该脚本将图片和视频下载到浏览器内存,然后将它们压缩到单个存档中。如果媒体文件太大,可能会导致浏览器崩溃。它可以处理的最大存档大小取决于浏览器和计算机的可用内存。 (Chrome 上为 2GB,Firefox 上为 800MB)