Skip to main content

黑洞资源笔记

  1. 深度学习数学工程 | YouTube | #机器学习 #电子书

    本书提供了深度学习的完整且简明的数学工程概述。内容包括卷积神经网络、递归神经网络、transformer、生成式对抗网络、强化学习、图神经网络等。

    书中聚焦于深度学习模型、算法和方法的基本数学描述,很大程度上与编程代码、神经科学关系、历史视角无关。数学基础的读者可以快速掌握现代深度学习算法、模型和技术的本质。

    深度学习可以通过数学语言在许多专业人员可理解的层面上进行描述。工程、信号处理、统计、物理、纯数学等领域的读者可以快速洞察该领域的关键数学工程组成部分。

    书里包含深度学习的基础原理、主要模型架构、优化算法等内容。另外还提供了相关课程、工作坊、源代码等资源。

    本内容面向想要从数学工程视角理解深度学习的专业人员,内容覆盖了深度学习的主要技术,使用简明的数学语言描述深度学习的关键组成部分,是了解深度学习数学本质的很好资源。
  2. TACO(Topics in Algorithmic COde Generation dataset)是一个专注于算法代码生成的数据集,旨在为代码生成模型领域提供更具挑战性的训练数据集和评估基准。

    该数据集由难度更大、更接近真实编程场景的编程竞赛题组成。它强调在实际应用场景中提高或评估模型的理解和推理能力,而不仅仅是实现预定义的函数功能。

    规模更大:TACO 包括训练集(25,443 个问题)和测试集(1,000 个问题),使其成为当前可用的最大的代码生成数据集。

    更高质量:TACO 数据集中的每个问题都旨在匹配一组不同的解决方案答案,答案大小高达 1.55M。这保证了模型在训练过程中不易出现过拟合,并验证了评估结果的有效性。

    细粒度标签:TACO 数据集中的每个问题都包含细粒度标签,例如任务主题、算法、技能和难度级别。这些标签为代码生成模型的训练和评估提供了更准确的参考。
  3. VoiceStreamAI:通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录

    VoiceStreamAI 是一种基于 Python 3 的服务器和 JavaScript 客户端解决方案,可使用 WebSocket 实现近实时音频流和转录。该系统采用 Huggingface 的语音活动检测 (VAD) 和 OpenAI 的 Whisper 模型来实现准确的语音识别和处理。

    特征
    通过 WebSocket 进行实时音频流。
    使用 Huggingface 的 VAD 进行语音活动检测。
    使用 OpenAI 的 Whisper 模型进行语音转录。
    可定制的音频块处理。
    支持多语言转录。
  4. XunziALLM:为响应古籍活化利用号召,推动大语言模型与古籍处理深度融合,以古籍智能化的研究为目的,南京农业大学国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”课题组与中华书局古联公司推出了一系列古籍处理领域大语言模型:荀子古籍大语言模型。

    荀子系列专为古籍智能处理而设计,这一系列模型的推出将推动古籍研究与保护工作的新发展,提高中华传统文化传承的效率与质量。

    模型亮点:
    古籍智能标引,荀子模型具备强大的古籍文献标引能力,能够对古籍中的内容进行高质量主题标引,帮助研究人员快速了解文章主题。

    古籍信息抽取,荀子模型能够自动从古籍中抽取关键信息,如人物、事件、地点等,大大节省了研究人员的信息整理时间。

    诗歌生成:荀子模型还具备诗歌生成的能力,能够根据给定的主题或关键词,自动生成符合语法规则和韵律要求的古诗,为诗词爱好者提供创作灵感。

    古籍高质量翻译:对于那些难以理解的古籍文献,荀子模型能够提供高质量的翻译服务,帮助研究人员更好地理解原文含义。

    阅读理解:荀子模型能够对给出的古文文本进行分析解释,实现对古籍文本的自动阅读。

    词法分析:荀子模型可以完成古籍文本的自动分词和词性标注,能够有效提升语言学工作者的研究效率。

    自动标点:荀子大模型可以快速完成古籍文本的断句和标点,提升研究者以及业余爱好者对古籍文本的阅读体验。

    用户也可以根据自己的需求,使用本地的训练语料微调荀子基座模型,使得其能够在古籍下游处理任务上取得更佳的处理性能。| #古籍
  5. 用于Python逆向工程的工具包,特点包括高级反混淆、执行Python代码、字符串提取、移除退出函数、获取所有函数、Pyshell图形界面等功能,支持GUI和命令行,还有文件分析和行为监控功能。

    de4py | #工具
  6. Information Assistant Accelerator:使用Azure OpenAI服务和行业加速器构建的信息助手,结合了Azure AI Search和OpenAI的大型语言模型,提供了自然语言的问答交互,帮助用户查询相关信息,还提供了个性化的AI交互和可自定义的设置,以及解释思维过程、引用和验证内容的功能
  7. 一个开源的取证框架,可以分析工业PLC元数据和项目文件,提供了方便的方式来扫描PLC并识别ICS环境中的可疑痕迹,用于手动检查、自动监控任务或响应事件以检测受损设备。通过开源工具,调查人员可以审查输出并根据自己的特定需求进行定制。

    ICSpector | #框架
  8. IT之家:机械革命旷世 15 Pro 游戏本将在12月29日20点正式开卖,i7-13620H + RTX 4060 + 16G + 512G 首发5999 元。

    15 Pro 游戏本重量 2.1kg,机身 A 面使用了 5052 号阳极氧化铝合金材质,并经过了精细的喷砂工艺处理。

    配置方面,这款游戏本采用 i7-12620H 处理器,6P+4E 核心规模,配备 16GB 内存与 512GB SSD。显卡为 RTX 4060,具备多达 3072 个 CUDA 流处理器和 8GB GDDR6。

    屏幕方面,旷世 15 Pro 游戏本搭载了 2560x1440 分辨率屏,具备了 100% sRGB 高色域覆盖、ΔE<2 的色准,刷新率为 165Hz。
  9. 简明英汉必应版:全网收词量最多的离线词典,词频考纲标注(432万词条)内容包含:

    MDX 版本(及去音标版):支持 GoldenDict / mdict / BlueDict
    欧陆 Eudic 版(及去音标版):欧陆词典(桌面,手机)
    Kindle 版本
    MDX CSS 美化版本:支持 GoldenDict / mdict / BlueDict
    StarDict 版本:支持 StarDict,多看系统

    因作者能力有限,该词典追求的是快速查词和查得率,让你在最短的时间内掌握一个单词的基本含义。整合了市面上各类免费和开源资料,利用 BNC/COCA 语料库进行词频矫正,并使用 NodeBox, WordNet 等自然语言处理工具包对各类时态语态,派生词等进行补充和标注。再根据考试大纲和柯林斯星级还有牛津 3000核心词进行标注,让你一眼就能看出这个单词的重要性。

    词典是在340万收词量的开源词典《简明英汉增强版》(支持 GoldenDict, 欧陆词典,BlueDict,mdict,edwin,Kindle 等)的基础上,补充了更多短语、谚语、新词、俚语和专业术语,并对前20万基础词汇使用必应释义进行了校对并发布。

    词典制作使用的工具:

    开发语言用的 Python,以及 beautifulsoup4, lxml, requests 等常用模块,自然语言处理用到了 WordNet 和 NodeBox 两个包。

    以及,作者自己写的开源的 ECDICT 项目(Python 词典数据库及相关脚本)和其他包括自然语言处理,BNC / COCA 的分析程序,十多个不同类型的爬虫,等大大小小几十个脚本程序。数据库使用 SQLite,CSV 等。

    ECDICT项目 | 简明必应版v6下载 | 作者知乎原文介绍 | #词典