黑洞资源笔记
-
- 持续更新的中文指令微调数据集,支持双语微调和数据修正。
本数据集包括中文和英文的混合数据集,方便双语微调,以及后续做持续的数据修正。
原始的Alpaca英文数据集也存在不少的问题,个别的数学类的sample是错的,有少部分output字段需要修正,一些的标签没有对齐等。本数据集会对原始的数据集进行修改和修正。再此基础上,翻译出对应的中文版本,中文版基本是原始sample的翻译,但是对于一些比如押韵类、时态类的一些instruction,直接翻译导致韵脚丢失,时态不一致等。需要对应的进行人工改写。主要分为以下几个方面:
修改原始英文数据集的一些问题
翻译为中文数据集
调整直译导致的一些sample
code等一些特殊的输出不进行翻译
对齐一些特殊的标签 或者拒绝生成等输出
Alpaca中文指令微调数据集 | #数据集 - Box64Droid:在Android上运行x86_64应用程序,支持Box64、Box86、Wine Stable 8.0、DXVK、D8VK,原为Box4Droid的Box64分支
-
-
- minbpe:用于大型语言模型(LLM)分词的简洁干净的字节对编码(BPE)算法实现,支持自定义训练和与GPT-4分词器的比较验证
- Make-An-Audio 2音频生成助手:基于文本条件的扩散概率模型,能生成高保真音频,适用于文本到音频的生成任务,提供预训练模型和开源实现
- Firebase Genkit:AI驱动应用开发框架,支持构建、测试、部署和监控AI功能,优化云环境和代码中心设计,免费开源,集成Firebase或Google Cloud服务,支持TypeScript和Go语言 | #框架
- KVCachePapers:深度学习领域中键值缓存技术的研究论文集合,专注于Transformer模型解码效率和内存优化,促进模型性能提升和资源优化
-
- Awesome-LLM-for-NLP:自然语言处理领域大型语言模型(LLM)的精选资源列表,提供综述、论文和未来研究方向,促进NLP领域内LLM的应用和研究
- 系列博文:Let's code a TCP/IP stack
这一系列文章详细讲解了如何从零开始编写一个TCP/IP协议栈(用C语言),涵盖了以太网、ARP、IPv4、ICMPv4、TCP握手、TCP数据流和TCP重传等多个方面。
第一篇:以太网和ARP
本文介绍了以太网帧结构和ARP协议的基本原理,以及如何在代码中实现以太网和ARP协议,以便设备在局域网内进行通信。
第二篇:IPv4和ICMPv4
这篇文章详细讨论了IPv4数据包的结构和ICMPv4协议,并通过编写代码展示了如何实现IPv4数据包的处理和ICMPv4的基本功能,如回显请求和回显应答。
第三篇:TCP握手
本文介绍了TCP协议的基本概念,重点讲解了TCP连接的三次握手过程,并提供了代码示例展示如何实现TCP连接的建立和管理。
第四篇:TCP数据流和Socket API
这篇文章探讨了TCP数据流的管理,包括数据的发送和接收过程。同时介绍了Socket API如何用于应用程序进行网络通信,并通过代码示例展示了如何发送简单的HTTP请求。
第五篇:TCP重传
本文深入分析了TCP重传机制,讨论了TCP窗口管理和重传超时处理,并通过代码演示了如何应对网络中数据包丢失、乱序等问题。 -
- Tutorial: Transforming a QLC SSD into an SLC SSD 介绍了如何将QLC SSD转换为SLC SSD,以显著提高其耐用性和性能(让SSD的耐久性从120TB提升到4000TB
- Win11Debloat,win10/win11优化脚本 | #脚本
一款简单易用的PowerShell脚本,用于移除Windows中的臃肿应用,禁用遥测和Windows搜索中的Bing,同时进行各种其他更改,以清理和改善Windows体验。该脚本适用于Windows 10和Windows 11 - The Linux Kernel Module Programming Guide | Linux 内核模块编程指南 | #电子书 #指南
本书最初由 Ori Pomerantz 为 Linux v2.2 编写。随着 Linux 内核的发展,Ori 的维护时间减少,Peter Jay Salzman 接任并更新至 Linux v2.4。Linux v2.6 版本后,Peter 面临类似问题,Michael Burian 加入共同维护。Bob Mottram 更新了 Linux v3.8 及以后的示例,Jim Huang 则更新了 v5.0 及以后的内容,并修订了 LaTeX 文档。