<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>技术深度 on AI收藏夹</title><link>https://study.helloaidev.com/tags/%E6%8A%80%E6%9C%AF%E6%B7%B1%E5%BA%A6/</link><description>Recent content in 技术深度 on AI收藏夹</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Fri, 03 Apr 2026 23:30:00 +0800</lastBuildDate><atom:link href="https://study.helloaidev.com/tags/%E6%8A%80%E6%9C%AF%E6%B7%B1%E5%BA%A6/index.xml" rel="self" type="application/rss+xml"/><item><title>你不知道的大模型训练：原理、路径与新实践</title><link>https://study.helloaidev.com/posts/tw93-llm-training-2026-04-03/</link><pubDate>Fri, 03 Apr 2026 23:30:00 +0800</pubDate><guid>https://study.helloaidev.com/posts/tw93-llm-training-2026-04-03/</guid><description>&lt;h1 id="你不知道的大模型训练原理路径与新实践"&gt;你不知道的大模型训练：原理、路径与新实践&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;来源&lt;/strong&gt;: &lt;a href="https://x.com/hitw93/status/2040047268221608281?s=46"&gt;X.com - @HiTw93&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;作者&lt;/strong&gt;: Tw93 (@HiTw93)&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;备份时间&lt;/strong&gt;: 2026-04-03&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;原文标题&lt;/strong&gt;: 你不知道的大模型训练：原理、路径与新实践&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="太长也要读"&gt;太长也要读&lt;/h2&gt;
&lt;p&gt;在写完《你不知道的 Claude Code：架构、治理与工程实践》、《你不知道的 Agent：原理、架构与工程实践》后，我想着继续来写第三篇，这次打算挑战下自己来梳理一下大模型训练到底怎么回事，这篇文章争取让非专业背景的人也能读得懂。&lt;/p&gt;
&lt;p&gt;2026 年来看大模型效果真正拉开差距的地方，慢慢不再是预训练本身了，而在它更后面的那一大段：后训练、评测、奖励、Agent 训练、蒸馏，每一个步骤都在影响用户实际感受效果。你发现某个模型突然变强了，背后可能是这几块一起优化到位了，而非单一因素导致。&lt;/p&gt;
&lt;p&gt;下文按大模型训练链路顺序来讲，重点放在厂商怎么通过后半段训练栈来提升最终上线效果。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="大模型训练其实是一条流水线"&gt;大模型训练其实是一条流水线&lt;/h2&gt;
&lt;p&gt;过去几年，一般会用参数、数据、算力的堆积来解释模型进步，但很多用户真正感受到的提升，并不是来自再多训一点基础语料，而是来自预训练后面那整套训练流程。模型怎么说话、怎么听指令、怎么推理、怎么用工具，这些都不是多喂一点互联网文本就能自然长出来的。&lt;/p&gt;
&lt;p&gt;InstructGPT 当年给过一个很直接的例子：一个只有 1.3B 参数、做过对齐和偏好优化的模型，在人类偏好评测里能赢过 175B 的 GPT-3，参数量差了两个数量级，用户最后却更喜欢那个小很多的版本，训练后半段是真的会改写用户感知。&lt;/p&gt;
&lt;p&gt;训练过程其实是一条流水线，数据、算法、系统、反馈这几层高度耦合，一层变化通常会传导到其他层，2026 年的模型能力和产业价值，也越来越集中在预训练后面的几层。&lt;/p&gt;
&lt;p&gt;这也是我们平时为啥感觉豆包不太去争排名，但大家日常用起来却更符合心意的原因，是后训练做到位了。&lt;/p&gt;
&lt;p&gt;这六层只是为了看分工，下图的九个阶段是更详细的版本：原始数据和系统配方单独拆开，Agent harness 和 Deployment 也是后半段的细分。还有两条反馈回路贯穿始终：生产流量回到数据工程，离线评测结果回到预训练。&lt;/p&gt;
&lt;p&gt;&lt;img alt="大模型训练六层架构" loading="lazy" src="https://pbs.twimg.com/media/GoG1_-6bwAAX5OF.jpg"&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="预训练只是模型底座"&gt;预训练只是模型底座&lt;/h2&gt;
&lt;p&gt;预训练仍然是训练链路的起点，搞清楚它到底在做什么，才能理解后面的每一层都在补充什么。没有这一步，就没有语言建模能力，没有知识压缩，也没有后面那些能力迁移的空间。在工程上，它要做的不只是让模型学会预测下一个 token：把语言分布学进去，把大规模文本里的知识和模式压进参数，还要给后面的能力激活留出空间。下一个 token 预测只描述了训练形式，解释不了为什么规模上来之后，模型会突然多出一些之前没有的能力。&lt;/p&gt;
&lt;p&gt;GPT-3 之后，不少模型调优的工作会更加考虑到预算和配比，模型不是越大越好，参数量、训练 token 数和总计算预算之间有配比问题，很多模型不是做小了，而是训练量不足，在既定预算下没有训到更合适的点。&lt;/p&gt;
&lt;p&gt;真到训练决策里，更实际的问题是：如果有人给你一万张 H100 和一个月时间，你会如何去训一个足够好的开源模型？规模定律在这里更像一个预算分配工具，不是那种论文里的抽象曲线，最后还是需要静下心来考虑这些问题：下一轮训练到底该多堆参数，还是多喂数据？当前模型到底是能力不够，还是只是欠训练？有限 GPU 预算下，什么配比更值？&lt;/p&gt;
&lt;p&gt;预训练更像是给模型能力打地基，决定知识范围、泛化潜力和模式归纳能力，也决定后训练有没有可以利用的空间。但听不听指令、配不配合用户、关键任务跑起来稳不稳，这些预训练都是管不到的。&lt;/p&gt;
&lt;p&gt;预训练阶段不只是在决定学多少知识，它还在提前决定模型以后能长成什么样。tokenizer 的切分方式会直接影响后续训练，context window 拉到多长也要在前面定下来。要不要继续做多模态预训练，要不要把单卡可运行当成一开始就定下来的要求，这些取舍在训练阶段就写进配方了，不是发布时再补的功能 feature。Gemma 3 同时强调了 single accelerator、128K context、视觉能力和量化，背后反映的也是这类取舍。用户最终看到的那些能力，比如能在本地电脑上跑、能看图、能理解长文档，其实很多在训练阶段就已经定下来了。&lt;/p&gt;
&lt;p&gt;通过 Chinchilla 给出的数据最优点来看，对于 8B 参数的模型大约是 200B tokens，但 Llama3 8B 实际用了 15T tokens，超出约 75 倍。这类过训练配方通常能在同等参数下换来更高的能力密度，最后换来一个更小、推起来也更省的模型。衡量这件事，看总 FLOP（浮点运算次数）比看参数量更靠谱，下图直观展示了这个差距。&lt;/p&gt;</description></item></channel></rss>