Skip to main content

黑洞资源笔记

  1. 持续更新的中文指令微调数据集,支持双语微调和数据修正。

    本数据集包括中文和英文的混合数据集,方便双语微调,以及后续做持续的数据修正。

    原始的Alpaca英文数据集也存在不少的问题,个别的数学类的sample是错的,有少部分output字段需要修正,一些的标签没有对齐等。本数据集会对原始的数据集进行修改和修正。再此基础上,翻译出对应的中文版本,中文版基本是原始sample的翻译,但是对于一些比如押韵类、时态类的一些instruction,直接翻译导致韵脚丢失,时态不一致等。需要对应的进行人工改写。主要分为以下几个方面:

    修改原始英文数据集的一些问题
    翻译为中文数据集
    调整直译导致的一些sample
    code等一些特殊的输出不进行翻译
    对齐一些特殊的标签 或者拒绝生成等输出

    Alpaca中文指令微调数据集 | #数据集
  2. minbpe:用于大型语言模型(LLM)分词的简洁干净的字节对编码(BPE)算法实现,支持自定义训练和与GPT-4分词器的比较验证
  3. 系列博文:Let's code a TCP/IP stack

    这一系列文章详细讲解了如何从零开始编写一个TCP/IP协议栈(用C语言),涵盖了以太网、ARP、IPv4、ICMPv4、TCP握手、TCP数据流和TCP重传等多个方面。

    第一篇:以太网和ARP
    本文介绍了以太网帧结构和ARP协议的基本原理,以及如何在代码中实现以太网和ARP协议,以便设备在局域网内进行通信。

    第二篇:IPv4和ICMPv4
    这篇文章详细讨论了IPv4数据包的结构和ICMPv4协议,并通过编写代码展示了如何实现IPv4数据包的处理和ICMPv4的基本功能,如回显请求和回显应答。

    第三篇:TCP握手
    本文介绍了TCP协议的基本概念,重点讲解了TCP连接的三次握手过程,并提供了代码示例展示如何实现TCP连接的建立和管理。

    第四篇:TCP数据流和Socket API
    这篇文章探讨了TCP数据流的管理,包括数据的发送和接收过程。同时介绍了Socket API如何用于应用程序进行网络通信,并通过代码示例展示了如何发送简单的HTTP请求。

    第五篇:TCP重传
    本文深入分析了TCP重传机制,讨论了TCP窗口管理和重传超时处理,并通过代码演示了如何应对网络中数据包丢失、乱序等问题。
  4. Win11Debloat,win10/win11优化脚本 | #脚本

    一款简单易用的PowerShell脚本,用于移除Windows中的臃肿应用,禁用遥测和Windows搜索中的Bing,同时进行各种其他更改,以清理和改善Windows体验。该脚本适用于Windows 10和Windows 11
  5. The Linux Kernel Module Programming Guide | Linux 内核模块编程指南 | #电子书 #指南

    本书最初由 Ori Pomerantz 为 Linux v2.2 编写。随着 Linux 内核的发展,Ori 的维护时间减少,Peter Jay Salzman 接任并更新至 Linux v2.4。Linux v2.6 版本后,Peter 面临类似问题,Michael Burian 加入共同维护。Bob Mottram 更新了 Linux v3.8 及以后的示例,Jim Huang 则更新了 v5.0 及以后的内容,并修订了 LaTeX 文档。