第 12 章 · 内存分配器

12.9 过去、现在与未来

分配器不是一蹴而就的，它随 Go 的演化不断被打磨。回顾这条演进线，能看清当前设计是从哪些权衡里长出来的，也能瞥见未来的方向。一个值得先记住的判断是：分配器的每一次大改动，几乎都不是为了「分配本身更快」，而是为了在分配速度、内存占用、与垃圾回收的协同这三者之间重新落子。读懂这条主线，下面几次重写就不再是孤立的版本琐事，而是同一道工程命题被反复求解的过程。

12.9.1 过去：从 tcmalloc 到 Go 化

Go 分配器最初是 tcmalloc（12.1）的一个 Go 移植：继承了线程缓存、尺寸类、中心仓库这套骨架（12.2 的 mcache / mcentral / mheap 正是它的三层对应）。这套骨架解决的是同一个老问题：多线程下 malloc 的锁争用。tcmalloc 的答案是把绝大多数分配挡在每线程的本地缓存里，无锁完成，Go 原样继承了这个判断，只是把「每线程」换成了更贴合其调度模型的「每 P」（9.3）。

但 Go 分配器逐步「Go 化」，长出了 tcmalloc 没有、也不需要的东西。最根本的一处，是为 精确垃圾回收服务的元数据。C 的 tcmalloc 服务于手动 free：调用者明确告诉它「这块还给你」，它无须知道对象内部哪里是指针、哪里是标量，一块内存在它眼里只是一段待复用的字节。Go 没有手动 free，回收由 GC 接管，而精确 GC 要能从任意一个堆地址出发，判断「这里是不是一个指针、它指向的对象是否存活」。这就要求分配器在交出每一块内存的同时，附带足够的类型与存活信息：每个 span 的指针位图（哪些字是指针）、尺寸类里是否含指针的 noscan 标记、以及与清扫共用的标记位（12.2 里 mspan 的 gcmarkBits、13.5）。

这层元数据是 Go 分配器与其祖先最深的分野。它不是锦上添花，而是「与 GC 共生」这条设计原则（12.1）在数据结构上的兑现：分配器交出内存的那一刻，就已经为日后的扫描与回收铺好了路。代价也实打实，每一块堆内存都要为这层信息付出额外的空间，而这层信息存在哪里、怎样组织，恰恰成了后续多次重写的战场。

放进谱系里看，这一分野并非 Go 独有的怪癖，而是「带 GC 的语言」与「手动管理内存的语言」之间的必然差别。tcmalloc、jemalloc 这类 C/C++ 分配器从不记录对象内部的指针布局，因为它们的客户（C/C++ 程序）自己负责 free，分配器无须、也无权过问对象的语义。Java 的 HotSpot、Go 这类带精确 GC 的运行时则相反，对象的类型信息要么编码在对象头（HotSpot 的 mark word + klass pointer），要么记录在堆的旁路元数据里。Go 早期选了后者（arena 旁路位图），近年又部分转向前者（12.9.2 的分配头部）,这趟「元数据该贴着对象、还是另存一处」的来回，本身就是带 GC 的运行时反复打磨的经典议题。

12.9.2 现在：几次关键重写

把近十年的演进按版本铺开，会看到三条线索交替推进：归还内存给操作系统的节奏、页一级的扩展性、以及对象元数据的布局。

归还节奏：Go 1.12 的平滑回收

早期分配器向操作系统归还空闲内存（scavenging）的策略偏向「攒一批、猛地还回去」，结果是内存占用曲线出现锯齿，归还动作本身也可能在不合时宜的时刻造成停顿。Go 1.12 把这件事做得平滑：改为更连续、按需的后台归还，让进程的常驻内存（RSS）更贴近真实用量，而不是大起大落。这是「内存占用」这一维度上的一次校准，它没有改变分配快路径，却显著改善了长时间运行的服务在监控曲线上的观感与真实开销。

页分配器：Go 1.14 的位图加基数树

mcentral 之下，mheap 要回答一个看似简单的问题：「哪一段连续的页是空闲的？」早期实现用一棵基于树堆（treap）的结构维护空闲区间，全局一把锁。堆一大、并发一高，这把锁与树操作的开销就浮上来，成为大堆服务的扩展性瓶颈。Go 1.14 把页分配器整体重写为位图加基数树（radix tree）的结构（12.7）：用一张位图直接记录每一页的空闲状态，按位扫描即可成片地找到连续空闲页；再用一棵多层基数树为这张位图建立稀疏索引，使「在巨大的地址空间里跳过整块已用区域」变成几次数组访问。

1
2
3
4
5
6
7
8
9
// 页分配器的核心抽象（速写，见 12.7）
type pageAlloc struct {
    // 多层基数树：每个结点用一组打包的计数概括其子树里
    // 「最长连续空闲页」与边界状况，逐层收窄搜索范围
    summary [summaryLevels][]pallocSum

    // 位图（chunk 的二维索引）：每一位对应一页是否空闲
    chunks [1 << pallocChunksL1Bits]*[1 << pallocChunksL2Bits]pallocData
}

这次重写直击「扩展性」这一维度。它让大堆、高并发下的页级分配从「争一把锁加树操作」降为「按位扫描加几层索引」，多核同时申请内存时不再被同一棵树串行化。它也是后续 GOMEMLIMIT 等机制的地基：只有当页一级的会计足够廉价，运行时才负担得起频繁地审视与归还内存。

可观测与可控：Go 1.16 的 runtime/metrics、Go 1.19 的 GOMEMLIMIT

光有好的分配策略不够，运行其上的服务还需要看得见、调得动内存行为。Go 1.16 引入 runtime/metrics（12.8），用一套带语义、可演进的指标接口取代了零散的 MemStats 字段，让堆大小、归还量、GC 触发等内部状态成为程序可稳定查询的量。

Go 1.19 在此之上加入了软内存上限 GOMEMLIMIT。它回答的是一个长期困扰生产部署的问题：在容器里，Go 进程只看 GOGC 这个相对触发比例，无法感知「宿主只给了我 512MB」这条硬约束，于是要么 OOM 被杀，要么为了避险把 GOGC 调得过保守而浪费 CPU。GOMEMLIMIT 给运行时一个总内存的软目标：

1
2
# 让运行时把堆总用量控制在约 600 MiB 以内（软上限）
GOMEMLIMIT=600MiB ./server

逼近这个目标时，GC 会更积极地触发以压低堆，必要时也更主动地把内存归还操作系统。它「软」在不保证绝不超出，而是把 GC 的触发从纯比例式改为兼顾绝对上限,这是「内存占用」与「GC 频率（即 CPU 开销）」之间一个可由部署者拨动的旋钮。值得一提的是，为防止逼近上限时 GC 陷入连续回收、把 CPU 全耗在 GC 上的「死亡螺旋」，运行时还设了 GC 的 CPU 用量上限（约 50%）作为兜底。

对象元数据的搬家：Go 1.22 的分配头部

前面说过，为 GC 服务的指针位图是 Go 分配器最特殊的负担，而它存在哪里，长期是个有取舍的选择。早期方案是把位图集中存放在每个 arena 的堆外元数据区（12.2 的 arena 元数据），扫描一个对象时，GC 要先算出它属于哪个 arena、再去那片独立内存里取对应的位图。问题在于局部性：对象数据在一处，描述它的位图在另一处，扫描时两处内存来回跳，缓存命中率受损。

Go 1.22 改变了小对象的存放方式，引入分配头部（allocation headers）。对于超过一定尺寸的含指针对象，把描述其指针布局的信息（一个指向类型的指针）直接放进对象的第一个字，紧贴对象数据本身：

1
2
3
4
5
// runtime/internal/gc 中的关键常量（go1.26 源码）
const (
    MallocHeaderSize       = 8                        // 头部占一个字
    MinSizeForMallocHeader = goarch.PtrSize * goarch.PtrBits // 64 位上为 512 字节
)

设计的精妙在于按尺寸分流：足够小的含指针对象（heapBitsInSpan 为真，即不大于 MinSizeForMallocHeader）继续用紧凑的 span 内位图，不付头部那一个字的开销；只有较大的对象才带头部，因为对它们而言，一个字的相对开销可忽略，换来的却是扫描时「类型信息就在对象眼前」的局部性。GC 扫描这类对象，先从对象首字读出类型，再据此遍历指针，元数据与数据同处一片缓存行附近，省去了往堆外位图的那次远程访问。这是又一次在「内存占用」（多出的头部）与「GC 扫描效率」（更好的局部性）之间的精细权衡，而它选择按对象大小区别对待，正体现了分配器对元数据布局的斤斤计较。

12.9.3 未来：与 GC 的协同演进

分配器的未来，与垃圾回收器（13 垃圾回收）的未来紧紧绑在一起，因为二者本是一体（12.1）。这一点在已经落地的 Green Tea GC（13.11）上体现得淋漓尽致。

Green Tea 是 Go 1.25 引入、Go 1.26 起默认开启的一套标记算法（可用 GOEXPERIMENT=nogreenteagc 关闭回退，见 runtime/mgcmark_greenteagc.go）。它的核心思路一句话能说清：推迟扫描、按 span 成批处理。传统的三色标记一遇到指针就立刻去扫描目标对象，对象在堆上四散，扫描就成了对内存的随机访问，缓存与预取都帮不上忙。Green Tea 反其道而行：见到指向某 span 的指针时，先只标记、并把该 span 入队，等同一个 span 上攒够了待扫描的对象，再一次性把它们扫完。

1
2
传统标记：见指针 → 立刻扫描该对象 → 顺着它的指针再跳走（随机访问堆）
Green Tea：见指针 → 标记并把所在 span 入队 → 稍后整块 span 一起扫（顺序访问，可预取）

为在批处理的同时保持回收的精确性，Green Tea 给每个 span 备了两套标记位：一套是常规的「已标记」（marks），另一套表示「已扫描」（scans）。出队处理一个 span 时，取两者的并集写回 scans、用差集挑出「标记了但还没扫」的对象去扫，既不重复扫描、也不漏标。span 的工作队列还特意用了 FIFO 而非工作缓冲常见的 LIFO，因为经验上 FIFO 更利于把同一 span 的对象攒到一起。

这套算法对分配器提出了明确要求：对象要以利于「成块扫描」的方式组织。span 一级的标记位、元数据按尺寸类统一存放在 span 末尾、对象在 span 内的紧凑排布，这些原本就是分配器的安排，现在成了 GC 取得局部性的前提。换句话说，分配器怎样摆放对象，直接决定了 Green Tea 能榨出多少缓存与预取的红利,文档里甚至提到，进一步按尺寸类特化扫描循环、乃至引入 SIMD 成片扫描，都是建立在这种规整布局之上的后续可能。

Green Tea 也不是没有代价。多备一套 scans 位、维护 span 工作队列、推迟扫描带来的额外簿记，都是为局部性付出的开销；它在「对象稀疏散布、攒不成批」的工作负载上未必占优，这也是它从 1.25 的实验开关到 1.26 默认开启、中间隔了一轮大规模实测校准的原因之一。这恰好印证了那条主线：没有一种摆放对象的方式对所有负载都最优，分配器与 GC 的每一次协同调整，都是押注于某一类典型负载，再用实测去校准这个赌注。

回看整条历史，会发现一条不变的主线：每一次改动，都是在分配速度、内存占用、GC 友好这三者之间重新寻找平衡。Go 1.12 调的是归还节奏，Go 1.14 解的是页级扩展性，Go 1.16 / 1.19 给的是可观测与可控的旋钮，Go 1.22 搬的是元数据的家，Go 1.25 / 1.26 则让分配布局直接服务于更快的扫描。它们求解的是同一道题,这正是 12.1 立下的那组目标，在时间里被反复重新平衡的过程。可以预见，分配器会继续朝着「更好的局部性、更低的元数据开销、与 GC 更紧的协同」演进，而它每一步往哪走，都要看坐在它对面的那个 GC 想要什么。

延伸阅读的文献

The Go Authors. Go 1.12 Release Notes（更平滑的内存归还 / scavenging）. https://go.dev/doc/go1.12#runtime
The Go Authors. Go 1.14 Release Notes（页分配器重写为位图加基数树）. https://go.dev/doc/go1.14#runtime ；Michael Knyszek. Scaling the Go page allocator. https://go.googlesource.com/proposal/+/master/design/35112-scaling-the-page-allocator
The Go Authors. Go 1.16 Release Notes（runtime/metrics）. https://go.dev/doc/go1.16#runtime
The Go Authors. Go 1.19 Release Notes（软内存上限 GOMEMLIMIT）. https://go.dev/doc/go1.19#runtime ；Michael Knyszek. Soft memory limit. https://go.googlesource.com/proposal/+/master/design/48409-soft-memory-limit
The Go Authors. Go 1.22 Release Notes（分配头部，allocation headers）. https://go.dev/doc/go1.22#runtime
The Go Team. Green Tea GC 设计讨论（go1.25 / 1.26）. https://github.com/golang/go/issues/73581 ；源码见 runtime/mgcmark_greenteagc.go.
本书 12.1 设计原则、12.2 组件、 12.7 页分配器与归还、13 垃圾回收.