Skip to main content

黑洞资源笔记

  1. 本书对硕士论文写作的整个过程——从开题报告、文献综述到研究方法、研究结果和结论,从论文写作、参考文献和避免剽窃到论文答辩和评分——进行层层解构,提供了撰写硕士论文全过程的必备技巧,以及清晰、直接和实用的建议与范例,让学生能够清晰了解写作规范和常见陷阱,充分发挥专业上的潜力,成功完成硕士论文的写作。

    此外,本书还专门为计算机科学、艺术和表演专业学生提供了不同于一般学科的关于背景综述和研究方法的新资料,并系统介绍了大学图书馆数据库和社交媒体的有效利用,适用于所有学科的研究生、导师和考虑读研的本科生。| #论文 #电子书
    研究生高分论文写作(第四版)(研究生阶段全学科、全流程、高水平的论文写作案头书,为你撰写硕士论文深度赋能!_英_约翰·比加姆_.azw3
    11.1 MB
  2. RAG(Retrieval Augmented Generation)是一种将检索到的信息作为上下文提供给大语言模型来产生回答的技术。它是2022年后最流行的大语言模型系统架构之一,有很多产品都是基于RAG构建的。LangChain和LlamaIndex是两个流行的开源RAG库。

    RAG由搜索和大语言模型提示组成,可以看作是搜索+大语言模型的结合。基本流程包括:将文本分块,用Transformer Encoder模型将这些块嵌入为向量,将向量放入索引,构造提示,让大语言模型基于检索到的上下文来回答用户查询。

    本文详细介绍和说明了RAG中的各种高级技术和算法,以及对这些技术的参考实现,旨在帮助开发者更深入地了解RAG技术。
  3. 深度学习数学工程 | YouTube | #机器学习 #电子书

    本书提供了深度学习的完整且简明的数学工程概述。内容包括卷积神经网络、递归神经网络、transformer、生成式对抗网络、强化学习、图神经网络等。

    书中聚焦于深度学习模型、算法和方法的基本数学描述,很大程度上与编程代码、神经科学关系、历史视角无关。数学基础的读者可以快速掌握现代深度学习算法、模型和技术的本质。

    深度学习可以通过数学语言在许多专业人员可理解的层面上进行描述。工程、信号处理、统计、物理、纯数学等领域的读者可以快速洞察该领域的关键数学工程组成部分。

    书里包含深度学习的基础原理、主要模型架构、优化算法等内容。另外还提供了相关课程、工作坊、源代码等资源。

    本内容面向想要从数学工程视角理解深度学习的专业人员,内容覆盖了深度学习的主要技术,使用简明的数学语言描述深度学习的关键组成部分,是了解深度学习数学本质的很好资源。
  4. TACO(Topics in Algorithmic COde Generation dataset)是一个专注于算法代码生成的数据集,旨在为代码生成模型领域提供更具挑战性的训练数据集和评估基准。

    该数据集由难度更大、更接近真实编程场景的编程竞赛题组成。它强调在实际应用场景中提高或评估模型的理解和推理能力,而不仅仅是实现预定义的函数功能。

    规模更大:TACO 包括训练集(25,443 个问题)和测试集(1,000 个问题),使其成为当前可用的最大的代码生成数据集。

    更高质量:TACO 数据集中的每个问题都旨在匹配一组不同的解决方案答案,答案大小高达 1.55M。这保证了模型在训练过程中不易出现过拟合,并验证了评估结果的有效性。

    细粒度标签:TACO 数据集中的每个问题都包含细粒度标签,例如任务主题、算法、技能和难度级别。这些标签为代码生成模型的训练和评估提供了更准确的参考。
  5. VoiceStreamAI:通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录

    VoiceStreamAI 是一种基于 Python 3 的服务器和 JavaScript 客户端解决方案,可使用 WebSocket 实现近实时音频流和转录。该系统采用 Huggingface 的语音活动检测 (VAD) 和 OpenAI 的 Whisper 模型来实现准确的语音识别和处理。

    特征
    通过 WebSocket 进行实时音频流。
    使用 Huggingface 的 VAD 进行语音活动检测。
    使用 OpenAI 的 Whisper 模型进行语音转录。
    可定制的音频块处理。
    支持多语言转录。
  6. XunziALLM:为响应古籍活化利用号召,推动大语言模型与古籍处理深度融合,以古籍智能化的研究为目的,南京农业大学国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”课题组与中华书局古联公司推出了一系列古籍处理领域大语言模型:荀子古籍大语言模型。

    荀子系列专为古籍智能处理而设计,这一系列模型的推出将推动古籍研究与保护工作的新发展,提高中华传统文化传承的效率与质量。

    模型亮点:
    古籍智能标引,荀子模型具备强大的古籍文献标引能力,能够对古籍中的内容进行高质量主题标引,帮助研究人员快速了解文章主题。

    古籍信息抽取,荀子模型能够自动从古籍中抽取关键信息,如人物、事件、地点等,大大节省了研究人员的信息整理时间。

    诗歌生成:荀子模型还具备诗歌生成的能力,能够根据给定的主题或关键词,自动生成符合语法规则和韵律要求的古诗,为诗词爱好者提供创作灵感。

    古籍高质量翻译:对于那些难以理解的古籍文献,荀子模型能够提供高质量的翻译服务,帮助研究人员更好地理解原文含义。

    阅读理解:荀子模型能够对给出的古文文本进行分析解释,实现对古籍文本的自动阅读。

    词法分析:荀子模型可以完成古籍文本的自动分词和词性标注,能够有效提升语言学工作者的研究效率。

    自动标点:荀子大模型可以快速完成古籍文本的断句和标点,提升研究者以及业余爱好者对古籍文本的阅读体验。

    用户也可以根据自己的需求,使用本地的训练语料微调荀子基座模型,使得其能够在古籍下游处理任务上取得更佳的处理性能。| #古籍
  7. 用于Python逆向工程的工具包,特点包括高级反混淆、执行Python代码、字符串提取、移除退出函数、获取所有函数、Pyshell图形界面等功能,支持GUI和命令行,还有文件分析和行为监控功能。

    de4py | #工具