为什么能有上百万个Goroutines，却只能有上千个Java线程？

本文最初发表于Russell Cohen的个人站点，经原作者授权由InfoQ中文站翻译并分享。

很多有经验的工程师在使用基于JVM的语言时，都会看到这样的错误：

[error] (run-main-0) java.lang.OutOfMemoryError: unable to create native thread: 
[error] java.lang.OutOfMemoryError: unable to create native thread: 
[error]     at java.base/java.lang.Thread.start0(Native Method)
[error]     at java.base/java.lang.Thread.start(Thread.java:813)
...
[error]     at java.base/java.lang.Thread.run(Thread.java:844)

呃，这是由线程所造成的 OutOfMemory 。在我的笔记本电脑上运行Linux操作系统时，仅仅创建11500个线程之后，就会出现这个错误。

如果你在Go语言上做相同的事情，启动永远处于休眠状态的Goroutines，那么你会看到非常不同的结果。在我的笔记本电脑上，在我觉得实在乏味无聊之前，我能够创建七千万个Goroutines。那么，为什么Goroutines的数量能够远远超过线程呢？要揭示问题的答案，我们需要一直向下沿着操作系统进行一次往返旅行。这不仅仅是一个学术问题，它对你如何设计软件有现实的影响。在生产环境中，我曾经多次遇到JVM线程的限制，有些是因为糟糕的代码泄露线程，有的则是因为工程师没有意识到JVM的线程限制。

那到底什么是线程？

术语“线程”可以用来描述很多不同的事情。在本文中，我会使用它来代指一个逻辑线程。也就是：按照线性顺序的一系列操作；一个执行的逻辑路径。CPU的每个核心只能真正并发同时执行一个逻辑线程[1]。这就带来一个固有的问题：如果线程的数量多于内核的数量，那么有的线程必须要暂停以便于其他的线程来运行工作，当再次轮到自己的执行的时候，会将任务恢复。为了支持暂停和恢复，线程至少需要如下两件事情：

某种类型的指令指针。也就是，当我暂停的时候，我正在执行哪行代码？
一个栈。也就是，我当前的状态是什么？栈中包含了本地变量以及指向变量所分配的堆的指针。同一个进程中的所有线程共享相同的堆[2]。

鉴于以上两点，系统在将线程调度到CPU上时就有了足够的信息，能够暂停某个线程、允许其他的线程运行，随后再次恢复原来的线程。这种操作通常对线程来说是完全透明的。从线程的角度来说，它是连续运行的。线程能够感知到重新调度的唯一方式是测量连续操作之间的计时[3]。

回到我们最原始的问题：我们为什么能有这么多的Goroutines呢？

JVM使用操作系统线程

尽管并非规范所要求，但是据我所知所有的现代、通用JVM都将线程委托给了平台的操作系统线程来处理。在接下来的内容中，我将会使用“用户空间线程（user space thread）”来代指由语言进行调度的线程，而不是内核/OS所调度的线程。操作系统实现的线程有两个属性，这两个属性极大地限制了它们可以存在的数量；任何将语言线程和操作系统线程进行1:1映射的解决方案都无法支持大规模的并发。

在JVM中，固定大小的栈

使用操作系统线程将会导致每个线程都有固定的、较大的内存成本

采用操作系统线程的另一个主要问题是每个OS线程都有大小固定的栈。尽管这个大小是可以配置的，但是在64位的环境中，JVM会为每个线程分配1M的栈。你可以将默认的栈空间设置地更小一些，但是你需要权衡内存的使用，因为这会增加栈溢出的风险。代码中的递归越多，就越有可能出现栈溢出。如果你保持默认值的话，那么1000个线程就将使用1GB的RAM。虽然现在RAM便宜了很多，但是几乎没有人会为了运行上百万个线程而准备TB级别的RAM。

Go的行为有何不同：动态大小的栈

Golang采取了一种很聪明的技巧，防止系统因为运行大量的（大多数是未使用的）栈而耗尽内存：Go的栈是动态分配大小的，随着存储数据的数量而增长和收缩。这并不是一件简单的事情，它的设计经历了多轮的迭代 [4]。我并不打算讲解内部的细节（关于这方面的知识，有很多的博客文章和其他材料进行了详细的阐述），但结论就是每个新建的Goroutine只有大约4KB的栈。每个栈只有4KB，那么在一个1GB的RAM上，我们就可以有250万个Goroutine了，相对于Java中每个线程的1MB，这是巨大的提升。

在JVM中：上下文切换的延迟

从上下文切换的角度来说，使用操作系统线程只能有数万个线程

因为JVM使用了操作系统线程，所以依赖操作系统内核来调度它们。操作系统有一个所有正在运行的进程和线程的列表，并试图为它们分配“公平”的CPU运行时间[5]。当内核从一个线程切换至另一个线程时，有很多的工作要做。新运行的线程和进程必须要将其他线程也在同一个CPU上运行的事实抽象出去。我不会在这里讨论细节问题，但是如果你对此感兴趣的话，可以阅读更多的材料。这里比较重要的就是，切换上下文要消耗1到100微秒。这看上去时间并不多，相对现实的情况是每次切换10微秒，如果你想要每秒钟内至少调度每个线程一次的话，那么每个核心上只能运行大约10万个线程。这实际上还没有给线程时间来执行有用的工作。

Go的行为有何不同：在一个操作系统线程上运行多个Goroutines

Golang实现了自己的调度器，允许众多的Goroutines运行在相同的OS线程上。就算Go会运行与内核相同的上下文切换，但是它能够避免切换至 ring-0 以运行内核，然后再切换回来，这样就会节省大量的时间。但是，这只是纸面上的分析。为了支持上百万的Goroutines，Go需要完成更复杂的事情。

即便JVM将线程放到用户空间，它也无法支持上百万的线程。假设在按照这样新设计系统中，新线程之间的切换只需要100纳秒。即便你所做的只是上下文切换，如果你想要每秒钟调度每个线程十次的话，你也只能运行大约100万个线程。更重要的是，为了完成这一点，我们需要最大限度地利用CPU。要支持真正的大并发需要另外一项优化：当你知道线程能够做有用的工作时，才去调度它。如果你运行大量线程的话，其实只有少量的线程会执行有用的工作。Go通过集成通道（channel）和调度器（scheduler）来实现这一点。如果某个Goroutine在一个空的通道上等待，那么调度器会看到这一点并且不会运行该Goroutine。Go更近一步，将大多数空闲的线程都放到它的操作系统线程上。通过这种方式，活跃的Goroutine（预期数量会少得多）会在同一个线程上调度执行，而数以百万计的大多数休眠的Goroutine会单独处理。这样有助于降低延迟。

除非Java增加语言特性，允许调度器进行观察，否则的话，是不可能支持智能调度的。但是，你可以在“用户空间”中构建运行时调度器，它能够感知线程何时能够执行工作。这构成了像Akka这种类型的框架的基础，它能够支持上百万的Actor[6].

结论

操作系统线程模型与轻量级、用户空间的线程模型之间的转换在不断发生，未来可能还会继续[7]。对于高度并发的用户场景来说，这是唯一的选择。然而，它具有相当的复杂性。如果Go选择采用OS线程而不是采用自己的调度器和递增的栈模式的话，那么他们能够在运行时中减少数千行的代码。对于很多用户场景来说，这确实是更好的模型。复杂性可以被语言和库的编写者抽象出去，这样软件工程师就能编写大量并发的程序了。

感谢Leah Alpert阅读了本文的初稿。

补充材料：

超线程会将核心的效果加倍。指令流（instruction pipelining）也能增加CPU的并行效果。但是就当前来说，它还是O(numCores)。
可能在有些特殊场景中，这种说法是不正确的，我想肯定有人会提醒我这一点。
这实际上是一种攻击。JavaScript可以检测键盘中断所导致的在计时上的细微差别。恶意的站点用它来监听计时，而不是监听击键。参见： https://mlq.me/download/keystroke_js.pdf 。
Golang首先采用了一个分段的栈模型，在这个模型中，栈实际上会扩展至单独的内存区域，这个过程中使用非常聪明的记录功能进行跟踪。随后的实现在特定的场景下提升了性能，使用连续的栈来取代对栈的拆分，这很像对hashtable重新调整大小，分配一个新的更大的栈，并通过一些非常有技巧的指针操作，所有的内容都能够仔细地复制到新的、更大的栈中。
线程可以通过调用 nice （参见 man nice ）来标记优先级，从而能够更好地控制它们调度的频率。
Actor通过支持大规模并发，为Scala/Java实现了与Goroutines相同目的的特性。与Goroutines类似，Actor调度器能够看到哪个Actor的收件箱中有消息，从而只运行那些能够执行真正有用工作的Actor。我们所能拥有的Actor的数量甚至还能超过Goroutines，因为Actor并不需要栈。但是，这也意味着，如果Actor无法快速处理消息的话，调度器将会阻塞（因为Actor没有自己的栈，所以它无法在Actor处理消息的过程中暂停）。阻塞的调度器意味着消息不能进行处理，系统很快会出现问题。这就是一种权衡。
在Apache中，每个请求都是由一个OS线程来处理的，这限制了Apache只能有效处理数千个并发连接。Nginx选择了另外一种模型，一个OS线程能够应对上百个甚至上千的并发连接，从而允许更高程度的并发。Erlang使用了一个类似的模型，它允许数百万Actor并发执行。Gevent为Python带来了greenlet(用户空间线程)，它能够实现比以往更高程度的并发性(Python线程是OS线程)。

感谢张婵对本文的审校。

那到底什么是线程？

JVM使用操作系统线程

在JVM中，固定大小的栈

使用操作系统线程将会导致每个线程都有固定的、较大的内存成本

Go的行为有何不同：动态大小的栈

在JVM中：上下文切换的延迟

从上下文切换的角度来说，使用操作系统线程只能有数万个线程

Go的行为有何不同：在一个操作系统线程上运行多个Goroutines

结论

补充材料：

Recommend

VTA：一个开放、高度可定制化的深度学习加速器平台

猫、量子位和远距传动：令人匪夷所思的量子计算世界（第二部分）

Kotlin string interpolation gotchas – Pravin Sonawane – Medium

Android Jetpack – Basic Data Binding Tutorial in Android – i...

GitHub - xmartlabs/fountain: Android Kotlin paged endpoints made easy

Android Jetpack – Handling Lifecycles Using Lifecycle Library &#82...

Animated Stars on Canvas for Android – Nadav Fima – Medium

Kotlin Platform Types – Mr.Anderson

Moving Your Gradle Build Scripts to Kotlin | Inside PSPDFKit

Fabrice Bellingard on Twitter: "Today is a great day for all @kotlin fans:...

About Joyk