这份优质的Youtube英语学习频道,涵盖了从入门到精通的各个阶段,包含可理解性输入英文、生活实用英文、小孩家庭日常、Vlog、兴趣频道、多人对话频道、播客等等 | notion | #英语
YouTube 生活场景类学习英语博主 | #英语
Gemini 3 Pro 在 Gemini CLI 的 5 个必试玩法 | 帖子

1. 一句话生成完整可运行的超高质量 3D Web 应用
直接丢给它一个极度复杂的创意+技术需求(照片级金门大桥 3D 模拟,含昼夜光照、体积雾、GLSL 水体着色器、实例化 400 辆车、船、飞鸟等),它能一次性输出**单个 HTML 文件**,无需任何构建工具,打开 Chrome 就能跑,性能还保持 60FPS。
→ 利用了 Gemini 3 Pro 超强的“智能体式编码”能力:理解创意意图 → 制定执行计划 → 完整实现。

2. 拖一张手绘草图到终端,瞬间变成可用前端代码
把 UI 草图直接拖进终端,Gemini 3 Pro 就能多模态识别布局、控件、配色风格,然后用 Tailwind CSS 等生成完整可运行代码。
→ 典型的多模态 + 智能体编码组合场景。

3. 用自然语言完成复杂 Git 操作
例如:“我什么时候把默认主题改成深色的?帮我 git bisect 找出来。”
Gemini CLI 会自动执行完整 bisect 流程,只把最终犯错的 commit hash 告诉你。

4. 给完全没有文档的大型开源项目自动生成高质量用户文档
它会先通读全部代码,再输出结构清晰、带搜索功能的完整文档,包括架构说明、用户功能、贡献指南等(还特别强调不能输出成单文件 HTML)。
btw... 也可以使用 Google 的 Code Wiki 来实现

5. 一键诊断并修复线上 Cloud Run 服务的性能问题
用户只说:“有人反馈‘Save Changes’按钮慢,帮我查 tech-stack 服务”。
Gemini CLI 会自动:
· 调用 Cloud Run 日志、指标
· 调用 Snyk 安全扫描
· 结合源码定位瓶颈
· 提出修复方案并直接部署
全程一步完成,跨越多个工具和服务。
Gemini 3 提示词工程:通用最佳实践指南

Gemini 3 更偏好直接、逻辑性强的内容,而非冗长的说教。提示词核心原则与三大关键实践:

核心原则 (Core Principles)
· 指令要精准 (Precise Instructions):去除废话,直接清晰地陈述你的目标。Gemini 3 对简洁明了的指令反应最好。
· 保持一致性 (Consistency):在提示词中维持统一的结构(例如统一使用 XML 标签),并明确定义模棱两可的术语。
· 多模态融合 (Multimodal Coherence):文本、图像、音频或视频应被视为同等重要的输入。指令中要明确引用特定的模态,让模型进行综合分析,而不是孤立处理。
· 约束前置 (Constraint Placement):将行为约束和角色定义放在“系统指令”中或提示词的最顶端,作为模型推理的锚点。
· 长上下文处理 (Context Anchoring):处理大量数据时,将具体指令放在末尾。在数据和问题之间使用过渡句(如“基于上述信息……”)来桥接。

三大关键实践
1. 推理与规划 (Reasoning and Planning)
不要让模型直接给出答案,而是强制它先“思考”。
· 显式拆解:要求模型在回答前,先将目标拆解为子任务,检查信息是否完整,并构思结构化的提纲。
· 自我更新的任务清单 (TODO Tracker):让模型创建一个 TODO 列表,在执行过程中自我追踪进度(例如:[ ] 任务1,[x] 任务2)。
· 自我批判:要求模型在输出最终响应前,先对照用户的原始约束进行自我审查(例如:“我是否回应了用户的真实意图,而不仅仅是字面意思?”)。

2. 结构化提示 (Structured Prompting)
使用清晰的标记语言(XML 或 Markdown)来界定提示词的边界。这能帮助模型区分哪里是“指令”,哪里是“数据”。
· XML 示例:使用 <rules> 定义规则,<context> 放入背景资料,<planning_process> 展示思考过程。
· Markdown 示例:使用标题如 # Identity(身份),# Constraints(约束)来组织内容。
· 建议:选择一种格式并保持一致,不要混用。

3. 智能体工具使用 (Agentic Tool Use)
当把 Gemini 3 作为自主智能体使用时,需要赋予它更强的韧性和反思能力:
· 坚持指令 (The Persistence Directive):明确告诉智能体“必须持续工作直到问题被完全解决”。如果工具调用失败,它应该分析错误并尝试替代方案,而不是直接放弃或把问题抛回给用户。
· 预计算反思 (Pre-Computation Reflection):在调用任何工具之前,要求智能体明确陈述:
1. 为什么要调用这个工具?
2. 期望获取什么具体数据?
3. 这个数据如何帮助解决用户的问题?

场景应用与模板
文章还提供了针对不同领域的具体策略:
· 研究分析:先拆解问题,独立搜索,最后综合并强制引用来源。
· 创意写作:明确目标受众,如果是为了通过图灵测试或显得自然,需明确禁止使用“企业黑话”(如 synergy, protocols)。
· 解决问题:要求模型先找出“标准方案”,再找出“高手方案”(Power User Solution),提供最优解。
The Life of a Packet in the Linux kernel:Linux中数据包的一生

这篇文章以curl 访问一个网站为例,介绍了数据包在Linux系统中从应用程序发送到接收的完整路径。

包括Linux网络数据包从send()到recv()的九大核心步骤,涵盖套接字、TCP/IP协议栈、路由、ARP、队列管理、DMA、NAPI、防火墙、NAT等关键机制,结合命令实践,帮助开发者理解底层网络通信原理,可以看作是Linux网络栈入门指南。
一篇非常神奇、非常暴力的论文:零错误解决百万步级大语言模型任务

我们知道现有的 LLM 虽然在写诗或回答独立问题上表现出色,但在执行需要连续数千甚至数百万个步骤的复杂任务时,它们几乎注定会失败,比如让大模型一步步的解“汉诺塔”。

为了解决这个问题,Cognizant AI Lab 的研究团队提出了一种名为 MAKER 的架构。他们没有等待更聪明的模型出现,而是通过改变工作流程,成功让现有的模型完成了一个包含超过 100万个步骤 的任务(解20层汉诺塔),且实现了 零错误 。

原理也不复杂,就是三个核心步骤:

1. 原子化拆解
这是整个系统的基础。研究者不让一个 AI 智能体去负责一长串的任务,而是将整个宏大的任务切碎,直到切分出逻辑上不可再分的最小单元。

2. 投票机制
为了解决模型偶尔“抽风”或随机出错的问题,系统引入了基于统计学的竞争机制。系统是让多个平行的智能体同时对同一个步骤进行计算。系统会不断抽取新的回答,直到出现一个答案的票数比第二名多出 K 票为止。这样就极大地稀释了随机错误的概率,确保被采纳的每一步几乎都是绝对正确的。

3. 插旗式熔断与过滤
这是一个识别并剔除“相关性错误”的防御机制。研究者发现,当模型开始出错时,往往会有一些预兆,比如回答变得异常冗长啰嗦,或者输出的格式不符合要求。
系统设定了一些规则,一旦智能体的输出表现出这些特征(即被插旗),系统根本不会去尝试修复或理解它,而是直接将这个样本丢弃,然后重新让模型生成。这种做法相当于在错误毒化整个流程之前就将其掐断,不仅提高了单步成功率,还防止了模型陷入错误的逻辑死循环。
机器学习工程师的智能助手:Karpathy,一个利用Claude Code SDK和Google ADK训练前沿机器学习模型的轻量级实现。它展示了Claude Scientific Skills在机器学习领域的强大能力,帮助开发者快速构建和运行智能代理。| #机器学习

主要特点包括:

- 依赖Python 3.13+,通过uv包管理器安装依赖;
- 支持环境变量配置API密钥,保证代理稳定运行;
- 启动脚本自动创建沙箱环境,集成PyTorch、transformers等主流ML库;
- Web界面交互,方便模型管理和操作;
- 支持自定义数据集和脚本手动导入沙箱;
- 集成Claude Scientific Skills,扩展多种科学计算和机器学习流程;
- 提供多代理系统,后续发布更强大功能。

适合喜欢探索最前沿代理式机器学习工程师工具的开发者和研究人员。项目开源托管于GitHub:
Heretic 是目前最先进的去审查(uncensor)大型语言模型(LLM)库。它采用树搜索(TPE)算法,精准寻找最佳参数,并以拒绝率和KL散度两大指标评估性能。这套工具不仅优雅简洁,还基于一年多的开源积累,代表了去审查技术的新高度。

实践中,针对中小模型,TPE的速度表现令人满意,体现了理论与工程的完美结合。社区反馈极佳,称其为“最精致的去审查工具包”,设计清晰、指标科学,真正具备实用价值。有人戏称这就是“提示语风水”,凸显其优化艺术感。

Heretic的出现,意味着我们开始拥有更智能、更可控的方式,突破传统模型限制,释放更富创造力的对话潜力。它不仅是技术创新,更是推动AI开放与自由表达的重要里程碑。
开源免费3D高斯点云编辑器SuperSplat震撼登场!无需下载安装,直接在浏览器中运行,极大降低了3D环境原型设计的门槛。 | #编辑器

这不仅让创作者可以随时随地快速实验和调整场景,也预示着浏览器游戏和实时3D内容开发的新纪元。想象工作室能即时在网页上完成环境搭建,开发流程将更灵活高效。

SuperSplat的出现,是技术与创意结合的典范,体现了未来数字内容制作向轻量化、开放化的趋势迈进。它让3D设计不再被复杂工具束缚,释放更多创新可能。

这款工具的潜力远超预期,值得每一个游戏开发者、设计师和数字艺术爱好者关注。未来的3D创作,将不再是高门槛的专业操作,而是人人可触达的创意乐园。
Awesome Spatial Intelligence in VLMs:多模态视觉语言模型(VLM)在空间智能领域的研究和应用正快速发展。这个开源项目汇总了最新的空间推理方法、数据集和评测基准,为研究者和工程师提供了全面的资源索引,助力提升模型的空间感知与推理能力。

涵盖内容包括:

- 最新空间推理方法与代码实现,支持3D感知、多视角理解等前沿技术;
- 丰富的空间智能数据集与基准测试,覆盖动态场景、多尺度空间等多样任务;
- 重要研究成果与应用案例,揭示多模态模型空间能力的挑战与进展。

适合从事视觉语言、机器人导航、3D理解等领域的研究人员和开发者参考使用。
Andrej Karpathy分享了他用大语言模型(LLM)辅助阅读各种文本(博客、文章、书籍章节等)的三步法: 第一遍人工阅读,第二遍让LLM解释和总结,第三遍通过问答深化理解。这样不仅提升了阅读效率,还能获得比单纯阅读更深刻的认知,成为他最重要的学习方式之一。| 帖子

他也指出,随着这种方式兴起,写作者的心态可能会改变——从“写给人看”转向“写给LLM看”。因为当LLM理解了内容,它能为不同读者定制和传递信息,实现更精准的沟通。

Karpathy还开源了一个名为reader3的工具,方便用户用LLM逐章阅读电子书(EPUB格式)。他强调目前还没有专门工具,自己通常就是复制粘贴到不同的LLM里轮换使用。

社区回应中,有人分享了类似经验:
- 用LLM辅助读书能大幅提升信息保留和理解深度,变被动阅读为主动思考。
- AI将教育从“一刀切”转变为个性化辅导,学生能随时通过对话拆解难题。
- 未来写作可能陷入“为AI优化”的循环,导致信息自我引用,创新受限。
- 有人开发工具让AI帮忙筛选和索引长文档,提升查阅效率。

也有人提醒,写作过度迎合AI可能让文字缺乏人性和灵魂。真正的学习和交流,依赖人类间的互动和思考,而非单纯AI的反馈。

此外,使用LLM读书的关键在于“提问的艺术”:
善问问题,AI才能激发更深入的洞见和持续的好奇心,创造自然流畅的对话,从而推动认知升级。
Google 的 Code Wiki 是一个由 Gemini AI 驱动的代码理解工具,于 2025 年 11 月 13 日以公共预览版发布。它提供自动化、智能化的 wiki 平台,用于代码仓库的文档维护和交互,帮助开发者快速理解代码库,支持与代码“聊天”查询,并生成持续更新的结构化文档。

目前完全免费,支持公共仓库,未来将扩展到私有仓库和Gemini CLI。

这不仅是DeepWiki的升级版,更为复杂项目提供了极佳支持,极大降低了代码学习和维护的门槛。开发者们对其表现出极大期待,称其可能彻底改变团队协作和代码管理方式。

类似工具还有DeepWiki、DeepGraph和GitDiagram,分别侧重代码库可视化和理解,形成了AI辅助代码理解的生态圈。

这场由AI驱动的代码理解革命,不仅节省了大量学习时间,也推动了软件开发效率的飞跃。未来,理解代码不再是负担,而是轻松的对话与探索。
Guided lab sessions:一套深度学习主题的引导式实验笔记本合集,涵盖从基础知识、PyTorch、JAX,到自动微分和模型可解释性,适合系统学习和动手实践。每个笔记本独立成篇,方便逐个攻克,适合初学者和进阶者。

这套资源不仅涵盖理论与算法实现,更注重“从零开始”的实操体验,帮助你真正理解深度学习的每个环节。学深学透,方能不被工具所奴役。
Back to Top