黑洞资源笔记
-
-
-
- SeamlessExpressive:高质量的语音到语音翻译,在翻译输出中保持原始说话者的声音风格、语气和独特的表达方式。
SeamlessExpressive模型由两个主要模块组成:(1)Prosody UnitY2,它是基于UnitY2架构的韵律感知语音到单元翻译模型;(2)PRETSSEL,它是一种具有跨语言表达性保存的单元到语音模型。 -
- OpenWRT 将推出官方路由器
为庆祝项目诞生 20 周年,OpenWRT 将推出首款官方路由器产品:「OpenWRT One / AP-24.XY」。根据 OpenWRT 团队的介绍,该项目在 17 - 18 年的 OpenWRT 峰会立项,但直到上个月才确定最终方案。
根据目前公布的硬件提案,「OpenWRT One」将使用 MT7981B SOC 配合 1GB DDR4 内存组成运算核心,RF 芯片则会选用成熟的 MT7976C 方案。除此以外,这款产品还将配备 2.5 G + 1G 的 RJ45 电口、2042 规格的 M.2 硬盘位、以及支持 PD 协议的电源输入接口。OpenWRT 团队宣称这款产品将完全开源,并力争将价格控制在 100 美元以下。 - 介绍了一种更高效的方法来收集和标注图像数据,以用于视觉和视觉-语言应用。
通过在电子商务网站上收集图像和描述文本,构建了一个名为Let's Go Shopping (LGS)的大规模公共数据集,包含1500万个图像-描述对。
与现有的通用数据集相比,LGS图像更注重前景对象,背景较简单。实验结果表明,现有基准数据集上训练的分类器不容易推广到电子商务数据,而特定的自监督视觉特征提取器可以更好地泛化。
此外,LGS具有高质量的电子商务焦点图像和双模态特性,在视觉语言双模态任务中具有优势,可以生成更丰富的图像描述并实现电子商务风格转换。
为了使LGS可供公众使用,将以"BSD 3-Clause"许可证共享筛选后的图像-描述链接,并提供下载工具以便复现数据集。| paper - MagicVideo-V2是一个多阶段的视频生成流程,将文本转图像、视频动作生成、参考图像嵌入和帧插值等模块集成到一个端到端的视频生成流水线中,能生成具有出色保真度和流畅度的高分辨率视频。
MagicVideo-V2在美学质量和用户评估方面优于其他文本到视频系统。这一流程为从文本描述生成高质量视频提供了一种新的方法。