Skip to main content

黑洞资源笔记

  1. CryAnalyzer:可以听懂婴儿为什么哭。

    它记录并分析超过20000种婴儿哭闹的声音,5秒左右会告诉你婴儿哭闹的原因。识别婴儿情绪状态的准确率超过80%。

    该应用程序的运行方式是记录宝宝的哭声 5 秒钟,然后根据应用程序中存储的历史数据进行分析,以匹配宝宝的特定需求。推荐0-6个月大的婴儿
  2. BrainMagick:通过分析脑电活动来推断一个人正在听什么,并将其转化为语音。

    由Facebook Research 研究的项目,该研究使用非侵入性的电子脑图(EEG)和磁脑图(MEG)技术来解码大脑波并将其转化为语音。这一研究成果已经发表在2023年的 Nature 上,而且项目是开源的。

    该模型通过预测与相应大脑活动模式匹配的语音音频的表示来解码语音。该研究在准确性方面取得了显著的改进,特别是在使用MEG记录时,准确性高达73%。

    这一成果对于那些因神经系统疾病而失去说话能力的人来说是一个巨大的希望,因为它为恢复他们的沟通能力提供了一条新途径。

    工作原理:

    1、数据输入与表示: BrainMagick 使用两种类型的数据输入:一是脑电活动数据(EEG或MEG),二是与之相关的音频数据。这些音频数据通过Wav2Vec 2.0模型转换成特定的表示形式。

    2、对比损失: 项目使用对比损失(Contrastive Loss)作为训练的目标函数。简单来说,对比损失试图最小化正样本(即与当前脑电活动匹配的音频)与脑电活动表示之间的距离,同时最大化负样本(即与当前脑电活动不匹配的音频)与脑电活动表示之间的距离。

    3、多数据集验证: 该方法在4个不同的数据集上进行了验证,包括2个MEG数据集和2个EEG数据集。这些数据集涵盖了175名志愿者和超过160小时的脑电活动记录。

    4、性能评估: 在Gwilliams数据集上,该方法达到了41%的top-1准确率。这意味着该模型能够在超过1300个未见过的候选句子中,准确地识别出受试者当前正在听哪个句子,以及该句子中的哪个单词。

    在MEG记录的3秒语音片段中,模型能够从超过1500个可能的片段中识别出匹配的片段,准确率高达73%。

    技术细节与实现:

    依赖与环境: 项目推荐使用NVIDIA GPU进行训练,并且具体列出了所需的软件包和环境设置步骤。

    数据预处理与缓存: 项目代码中包含了数据预处理的步骤,包括潜在的下采样和低/高通滤波等。为了提高效率,最耗时的计算被缓存起来。

    配置与实验管理: 项目使用Hydra进行配置管理,并使用Dora进行实验的启动和管理。

    Nature报道 | 项目地址 | paper Decoding speech perception from non-invasive brain recordings
  3. Google Photo带来了三个很实用的AI功能:自动优化合影画面的人脸效果,比如给你AI算出一些笑容、更自然的表情等等。还有移动画面中的一些元素到你喜欢的位置。另外也能够通过算法,将画面中一些原本模糊、缺失的部分进行补齐。
  4. 一份开源的医院开放数据,该项目的意图是收集汇总与国内一些医疗机构有关的开放数据,供广大寻医问药的患者及家属参考。| link
  5. Class Companion:利用生成式AI为学生提供高质量反馈的AI平台

    ☀️Class Companion刚刚公开发布并宣布获得了Index Ventures领投的400万美元种子轮融资。
    ☀️Class Companion从一开始就以教师为关注重点。提供及时反馈对学生学习非常重要,但传统的作业方式很难做到这一点。
    ☀️Class Companion可以即时评估学生的写作并提供针对性反馈,而不需要学生完成作业后再等待老师批改。
    ☀️及时的反馈可以帮助学生在最佳的心智状态下理解并改进自己的工作,也可以避免学生在存在困惑时重复错误。
    ☀️Class Companion将错误视为学习的机会,而不是简单地扣分。学生可以无限次迭代完善作业,在反馈的帮助下不断进步。
    ☀️Class Companion为教师提供了高度灵活性。教师可以选择现有的作业模板或添加自己的作业,并可以自定义每个学生的反馈侧重点。
  6. MLAgentBench:一套端到端机器学习 (ML) 研究任务,用于对 AI 研究agent进行基准测试,其中agent的目标是获取给定的数据集和机器学习任务描述,并自主开发或改进 ML 模型。