📢 太强了!这个项目从零实现了 Meta 的开源大模型 llama3!

🧩 从 #tokenizer 到 #attention,再到 #feedforward 层,这个 notebook 详细展示了如何从零开始实现 #llama3 的每一个模块。它直接从 #Meta 为 llama3 提供的模型文件加载 tensor,通过一个 #tensor、一次矩阵乘法来构建模型的每一个部分。

🔍 亮点:

1️⃣ 使用 #tiktoken 作为 tokenizer,将输入文本转换为模型可读的 token
2️⃣ 详细展示了如何将 token 映射为对应的 #embedding 向量
3️⃣ 利用 RoPE(Rotary Positional Embedding) 对 embedding 进行位置编码,为 attention 模块提供位置信息
4️⃣ 从头实现了 self-attention 模块,包括 query、key、value 矩阵的计算和注意力分数的计算
5️⃣ 使用 #SwiGLU 作为前馈网络,为模型引入非线性能力
6️⃣ 将 attention 和前馈层堆叠为一个完整的 #transformer 模型,实现了 llama3 的整体架构

📚 无论你是想学习如何从零实现一个大模型,还是想知道 llama、alpaca、vicuna 等大型语言模型的技术细节,这份 #notebook 都是一个绝佳的学习资源。

https://github.com/naklecha/llama3-from-scratch

📢关注频道:@cloud_native_share
💬加入群聊:@cloudnativer
📮欢迎投稿:@cloud_native_yang
🎁访问主页: icloudnative.io GitHub - naklecha/llama3-from-scratch: llama3 implementation one matrix multiplication at a time
 
 
Back to Top