Skip to main content

黑洞资源笔记

  1. 微软最近的研究集中在通过模仿学习来提高较小模型的能力,利用大型基础模型(LFMs)产生的输出。许多问题影响这些模型的质量,从来自浅LFM输出的有限模仿信号;小规模同质训练数据;最明显的是缺乏严格的评估,导致高估了小模型的能力,因为他们倾向于学习模仿风格,而不是LFM的推理过程。

    为了解决这些挑战,微软开发了 Orca,一个130亿美元的参数模型,可以学习模拟lfm的推理过程。Orca从GPT-4的丰富信号中学习,包括解释痕迹;一步一步的思维过程;以及其他复杂的指令,由ChatGPT的老师指导。为了促进这种渐进式学习,微软利用明智的抽样和选择来获取大规模和多样化的模仿数据。在复杂的零射击推理基准(BBH)中,Orca比传统的最先进的指令调优模型,如Vicuna-13B上超过了100%,在AGIEval上超过了42%。此外,Orca在BBH基准上与ChatGPT持平,并在SAT、LSAT、GRE和GMAT等专业和学术考试中表现出竞争力(与优化系统信息差距4分),都是在没有CoT的零射击设置中而落后于GPT-4。

    研究表明,从循序渐进的解释中学习,无论这些解释是由人类还是更先进的人工智能模型生成的,都是提高模型能力和技能的一个很有前途的方向。

    paper下载
  2. 微软推出的免费人工智能入门课 | AI-For-Beginners

    共8个主题、24节内容。 课程除了为每个主题绘制「知识要点漫画」外,还包括多样性的测验和实践项目,确保学习者有机会进行实践。课程思维导图可以清晰地查看每部分的知识要点。
  3. 一名男子称自己在海口坐轮渡时被海关和警察抽检,仅凭身份证号获取了他的微信聊天记录。
  4. 一个在线知识库 WaytoAGI.com

    搜刮了网络上大量的一手信息源,包括书籍、名词解释、深度好文、入门指南、最新动态等等,基本上长期保持活跃更新。
  5. 一个强大的图像标记基础模型:Recognize Anything Model (RAM)

    RAM 采用一种新的图像标记范例,可高精度地识别任何常见类别,并利用大规模图像文本对进行训练,而不是手动注释。

    RAM 的开发包括四个关键步骤:

    1. 通过自动文本语义解析大规模获取无注释图像标签;
    2. 使用统一标题和标记任务,训练初步模型进行自动注释,分别由原始文本和解析标签监督;
    3. 利用数据引擎生成额外注释并清除不正确的注释;
    4. 利用处理后的数据对模型进行再训练,并使用更小但质量更高的数据集进行微调。

    经过众多基准测试评估,RAM 的标记能力颇为优秀,效果明显优于 CLIP 和 BLIP。值得注意的是,RAM 甚至超越了完全监督的方式,甚至可媲美 Google API。
  6. OpenCore Legacy Patcher 项目的负责人 Mykola Grymalyuk 分享了他正在进行的工作:将不再受到新版系统支持的 2013 款 Mac Pro,通过 OpenCore 升级至 macOS Sonoma。Mykola 表示,适用于大众的成熟版方案也许能在 6 个月内公开。

    OpenCore 是一个安全且轻量化的 Hackintosh 引导方案,基于这套方案,普通的 PC 也能模拟出 Mac 电脑特有的硬件与固件来诱骗 macOS 正常通过引导并运行。而 Mykola 所领导的 OC Legacy Patcher 项目则是基于 OpenCore 技术,让较老的 Intel Mac 也能运行新版本 macOS。