65

为什么能有上百万个Goroutines,却只能有上千个Java线程?

 5 years ago
source link: http://www.infoq.com/cn/articles/a-million-go-routines-but-only-1000-java-threads?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

本文最初发表于Russell Cohen的 个人站点 ,经原作者授权由InfoQ中文站翻译并分享。

很多有经验的工程师在使用基于JVM的语言时,都会看到这样的错误:

[error] (run-main-0) java.lang.OutOfMemoryError: unable to create native thread: 
[error] java.lang.OutOfMemoryError: unable to create native thread: 
[error]     at java.base/java.lang.Thread.start0(Native Method)
[error]     at java.base/java.lang.Thread.start(Thread.java:813)
...
[error]     at java.base/java.lang.Thread.run(Thread.java:844)

呃,这是由线程所造成的 OutOfMemory 。在我的笔记本电脑上运行Linux操作系统时,仅仅创建11500个线程之后,就会出现这个错误。

如果你在Go语言上做相同的事情,启动永远处于休眠状态的Goroutines,那么你会看到非常不同的结果。在我的笔记本电脑上,在我觉得实在乏味无聊之前,我能够创建七千万个Goroutines。那么,为什么Goroutines的数量能够远远超过线程呢?要揭示问题的答案,我们需要一直向下沿着操作系统进行一次往返旅行。这不仅仅是一个学术问题,它对你如何设计软件有现实的影响。在生产环境中,我曾经多次遇到JVM线程的限制,有些是因为糟糕的代码泄露线程,有的则是因为工程师没有意识到JVM的线程限制。

那到底什么是线程?

术语“线程”可以用来描述很多不同的事情。在本文中,我会使用它来代指一个逻辑线程。也就是:按照线性顺序的一系列操作;一个执行的逻辑路径。CPU的每个核心只能真正并发同时执行一个逻辑线程[1]。这就带来一个固有的问题:如果线程的数量多于内核的数量,那么有的线程必须要暂停以便于其他的线程来运行工作,当再次轮到自己的执行的时候,会将任务恢复。为了支持暂停和恢复,线程至少需要如下两件事情:

  1. 某种类型的指令指针。也就是,当我暂停的时候,我正在执行哪行代码?
  2. 一个栈。也就是,我当前的状态是什么?栈中包含了本地变量以及指向变量所分配的堆的指针。同一个进程中的所有线程共享相同的堆[2]。

鉴于以上两点,系统在将线程调度到CPU上时就有了足够的信息,能够暂停某个线程、允许其他的线程运行,随后再次恢复原来的线程。这种操作通常对线程来说是完全透明的。从线程的角度来说,它是连续运行的。线程能够感知到重新调度的唯一方式是测量连续操作之间的计时[3]。

回到我们最原始的问题:我们为什么能有这么多的Goroutines呢?

JVM使用操作系统线程

尽管并非规范所要求,但是据我所知所有的现代、通用JVM都将线程委托给了平台的操作系统线程来处理。在接下来的内容中,我将会使用“用户空间线程(user space thread)”来代指由语言进行调度的线程,而不是内核/OS所调度的线程。操作系统实现的线程有两个属性,这两个属性极大地限制了它们可以存在的数量;任何将语言线程和操作系统线程进行1:1映射的解决方案都无法支持大规模的并发。

在JVM中,固定大小的栈

使用操作系统线程将会导致每个线程都有固定的、较大的内存成本

采用操作系统线程的另一个主要问题是每个OS线程都有大小固定的栈。尽管这个大小是可以配置的,但是在64位的环境中,JVM会为每个线程分配1M的栈。你可以将默认的栈空间设置地更小一些,但是你需要权衡内存的使用,因为这会增加栈溢出的风险。代码中的递归越多,就越有可能出现栈溢出。如果你保持默认值的话,那么1000个线程就将使用1GB的RAM。虽然现在RAM便宜了很多,但是几乎没有人会为了运行上百万个线程而准备TB级别的RAM。

Go的行为有何不同:动态大小的栈

Golang采取了一种很聪明的技巧,防止系统因为运行大量的(大多数是未使用的)栈而耗尽内存:Go的栈是动态分配大小的,随着存储数据的数量而增长和收缩。这并不是一件简单的事情,它的设计经历了 多轮的迭代 [4]。我并不打算讲解内部的细节(关于这方面的知识,有很多的博客文章和其他材料进行了详细的阐述),但结论就是每个新建的Goroutine只有大约4KB的栈。每个栈只有4KB,那么在一个1GB的RAM上,我们就可以有250万个Goroutine了,相对于Java中每个线程的1MB,这是巨大的提升。

在JVM中:上下文切换的延迟

从上下文切换的角度来说,使用操作系统线程只能有数万个线程

因为JVM使用了操作系统线程,所以依赖操作系统内核来调度它们。操作系统有一个所有正在运行的进程和线程的列表,并试图为它们分配“公平”的CPU运行时间[5]。当内核从一个线程切换至另一个线程时,有很多的工作要做。新运行的线程和进程必须要将其他线程也在同一个CPU上运行的事实抽象出去。我不会在这里讨论细节问题,但是如果你对此感兴趣的话,可以阅读 更多的材料 。这里比较重要的就是,切换上下文要消耗1到100微秒。这看上去时间并不多,相对现实的情况是每次切换10微秒,如果你想要每秒钟内至少调度每个线程一次的话,那么每个核心上只能运行大约10万个线程。这实际上还没有给线程时间来执行有用的工作。

Go的行为有何不同:在一个操作系统线程上运行多个Goroutines

Golang实现了自己的调度器,允许众多的Goroutines运行在相同的OS线程上。就算Go会运行与内核相同的上下文切换,但是它能够避免切换至 ring-0 以运行内核,然后再切换回来,这样就会节省大量的时间。但是,这只是纸面上的分析。为了支持上百万的Goroutines,Go需要完成更复杂的事情。

即便JVM将线程放到用户空间,它也无法支持上百万的线程。假设在按照这样新设计系统中,新线程之间的切换只需要100纳秒。即便你所做的只是上下文切换,如果你想要每秒钟调度每个线程十次的话,你也只能运行大约100万个线程。更重要的是,为了完成这一点,我们需要最大限度地利用CPU。要支持真正的大并发需要另外一项优化:当你知道线程能够做有用的工作时,才去调度它。如果你运行大量线程的话,其实只有少量的线程会执行有用的工作。Go通过集成通道(channel)和调度器(scheduler)来实现这一点。如果某个Goroutine在一个空的通道上等待,那么调度器会看到这一点并且不会运行该Goroutine。Go更近一步,将大多数空闲的线程都放到它的操作系统线程上。通过这种方式,活跃的Goroutine(预期数量会少得多)会在同一个线程上调度执行,而数以百万计的大多数休眠的Goroutine会单独处理。这样有助于降低延迟。

除非Java增加语言特性,允许调度器进行观察,否则的话,是不可能支持智能调度的。但是,你可以在“用户空间”中构建运行时调度器,它能够感知线程何时能够执行工作。这构成了像Akka这种类型的框架的基础,它能够支持上百万的Actor[6].

结论

操作系统线程模型与轻量级、用户空间的线程模型之间的转换在不断发生,未来可能还会继续[7]。对于高度并发的用户场景来说,这是唯一的选择。然而,它具有相当的复杂性。如果Go选择采用OS线程而不是采用自己的调度器和递增的栈模式的话,那么他们能够在 运行时 中减少数千行的代码。对于很多用户场景来说,这确实是更好的模型。复杂性可以被语言和库的编写者抽象出去,这样软件工程师就能编写大量并发的程序了。

感谢Leah Alpert阅读了本文的初稿。

补充材料:

  1. 超线程 会将核心的效果加倍。指令流(instruction pipelining)也能增加CPU的并行效果。但是就当前来说,它还是O(numCores)。
  2. 可能在有些特殊场景中,这种说法是不正确的,我想肯定有人会提醒我这一点。
  3. 这实际上是一种攻击。JavaScript可以检测键盘中断所导致的在计时上的细微差别。恶意的站点用它来监听计时,而不是监听击键。参见: https://mlq.me/download/keystroke_js.pdf
  4. Golang首先采用了一个分段的栈模型,在这个模型中,栈实际上会扩展至单独的内存区域,这个过程中使用非常聪明的记录功能进行跟踪。随后的实现在特定的场景下提升了性能,使用连续的栈来取代对栈的拆分,这很像对hashtable重新调整大小,分配一个新的更大的栈,并通过一些非常有技巧的指针操作,所有的内容都能够仔细地复制到新的、更大的栈中。
  5. 线程可以通过调用 nice (参见 man nice )来标记优先级,从而能够更好地控制它们调度的频率。
  6. Actor通过支持大规模并发,为Scala/Java实现了与Goroutines相同目的的特性。与Goroutines类似,Actor调度器能够看到哪个Actor的收件箱中有消息,从而只运行那些能够执行真正有用工作的Actor。我们所能拥有的Actor的数量甚至还能超过Goroutines,因为Actor并不需要栈。但是,这也意味着,如果Actor无法快速处理消息的话,调度器将会阻塞(因为Actor没有自己的栈,所以它无法在Actor处理消息的过程中暂停)。阻塞的调度器意味着消息不能进行处理,系统很快会出现问题。这就是一种权衡。
  7. 在Apache中,每个请求都是由一个OS线程来处理的,这限制了Apache只能有效处理数千个并发连接。Nginx选择了另外一种模型,一个OS线程能够应对上百个甚至上千的并发连接,从而允许更高程度的并发。Erlang使用了一个类似的模型,它允许数百万Actor并发执行。Gevent为Python带来了greenlet(用户空间线程),它能够实现比以往更高程度的并发性(Python线程是OS线程)。

感谢张婵对本文的审校。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK