目录

  1. 前言
  2. 最直白的冷启动解释
  3. 理论上的冷启动
  4. 常见的冷启动对抗方案
  5. 作为用户的我们可以参与的对抗手段
    1. 合理的代码包规格
    2. 合理利用实例的复用
    3. 善于利用函数特性
      1. Pre-freeze & Pre-stop
      2. 单实例多并发

前言

Serverless架构发展速度是飞速的,收到很多人的追捧同时也暴露出来了很多严峻的问题,例如冷启动的问题就是老生常谈的。那么什么是函数计算的冷启动你了解么?他是如何产生又要如何规避/缓解呢?

最直白的冷启动解释

我和张三说:张三啊,帮我运行一下这个代码,发给你了。

此时,张三会可能会有两个可能性:

  • 好的,宇哥,我现在来运行一下。
  • 宇哥,等一下,我电脑没开机,我开机运行一下,稍等哈。

针对第一种“好的,宇哥,我现在来运行一下”,这个时候实际上是资源准备妥当,只需要执行代码即可,这个是理想状态,也是所谓的热启动(当然如果有杠精说,这个时候还没下载代码,还没启动进程,所以是温启动,也没毛病,反正知道他不是冷启动就可以了);

针对第二种“宇哥,等一下,我电脑没开机,我开机运行一下,稍等哈”,这个时候需要开启,打开程序,创建代码程序,执行出结果,这个长长的流程,就是冷启动,涉及到一个资源从零或者近乎于零拉起的过程。

这两者很明显的差异就是“用时不一样”,前者很快,后者在前者很快的基础上,增加了开机等一系列的流程。

理论上的冷启动

事物并没有十全十美的,Serverless架构也不例外,在Serverless架构为使用者提供全新的编程范式的同时,当用户在享受Serverless带来的第一波技术红利的时候,Serverless的缺点也逐渐地暴露出来,例如函数的冷启动为题,就是如今颇为严峻且备受关注的问题。
由于Serverless架构具有弹性伸缩的能力,Serverless服务的供应商会根据用户服务的流量波动进行实例的增加或缩减:

image

以阿里云函数计算为例,当系统接收到第一个触发函数的事件时,它将启动一个容器来运行代码。如果此时收到了新的事件,而第一个容器仍在处理上一个事件,平台将启动第二个代码实例来处理第二个事件,Serverless架构的这种自动的零管理水平缩放,将持续到有足够的代码实例来处理所有的工作负载为止。当然,不仅仅是并发情况下会比较容易触发函数冷启动,在函数的前后两次触发时间间隔超过了实例释放时间的阈值,也会触发函数的冷启动,例如:

image

然而这里就涉及到一个问题,当新的请求或者说是事件到来时,在广义上可能出现两种情况:

  • 存在空闲且可以直接复用的实例:热启动
  • 不存在空闲且可以直接复用的实例:冷启动

我们在本地执行一个函数,通常情况下是环境都已经准备妥当,每次执行只需要执行函数对应的方法即可,但是Serverless架构下并不是:

image

Serverless架构下,开发者提交代码之后,通常情况下,代码只会被持久化并不会为其准备执行环境,所以当函数第一次被触发时会有一个比较漫长的准备环境的过程,这个过程包括把网络的环境全部打通、将所需的文件和代码等资源准备好,这个从准备环境开始到函数被执行的过程,被称为函数的冷启动。New Relic 官方博客《Understanding AWS Lambda Performance—How Much Do Cold Starts Really Matter?》 曾对AWS Lambda的冷启动时间进行了研究和分析:

image

在研究的结果中发现,当对模型性对AWS Lambda发起请求时,大部分的请求都落在了50ms以内,但还是有很多请求超过100ms甚至是150ms,这也充分说明了冷启动的存在,在这篇文章中作者只对AWS的Lambda进行了冷启动的分析和研究,但是实际上不同厂商对于冷启动的优化程度是不同的,以文章《Serverless:Cold Start War》为例,在文章中,作者对AWS Lambda,Azure Function以及Google Cloud Function等三个工业级的Serverless架构产品进行冷启动测试。作者将函数启动划分成四个部分:

image

通过这四个部分,我们其实可以简单的区分出冷启动和热启动的区别。所谓的冷启动就是包括准备环境的过程,就是当请求或者事件到来的时候没有可复用的实例资源时,系统将会初始化环境,包括网络环境等,实例资源等,然后进行一些文件的下载,系统配置,然后再装载代码和一些依赖,最后执行代码;而相对热启动而言,热启动将会变得流程更短,他更多出现在厂商完成了实例的预热或者是实例的复用的情况下,相对冷启动而言,他的环境,配置,代码都是准备好的,只需要执行代码即可,通常情况下,热启动都是毫秒级启动,而冷启动可能是百毫秒级、秒级。在《Serverless:Cold Start War》文章中,作者通过对多种语言的“Hello World”与是否有依赖等进行搭配,进行测试:

image

常见的冷启动对抗方案

通过《Understanding AWS Lambda Performance—How Much Do Cold Starts Really Matter?》与《Serverless:Cold Start War》这两个文章的分析可以看到不仅仅不同厂商对于冷启动的优化程度是不同的,包括同一厂商对不同语言的冷启动优化、同一种语言不同尺寸大小的依赖的优化都是不同的。这也充分说明,各个厂商也在通过一些规则和策略努力降低冷启动率。除此之外文章《Understanding Serverless Cold Start》、《Everything you need to know about cold starts in AWS Lambda》、《Keeping Functions Warm》、《I’m afraid you’re thinking about AWS Lambda cold starts all wrong》等也均对冷启动现象等进行描述和深入的探讨,并且提出了一些业务侧应对函数冷启动的解决方案和策略。如图所示,通常情况下,冷启动的解决方案包括几个部分:实例的复用,实例的预热以及资源池化。

image

从资源复用层面来说,对实例的复用相对来说是比较重要的,一个实例并不是在触发完成之后就结束其生命周期,而是会继续保留一段时间,当在这段时间内如果函数再次被触发,那么可以优先分配该实例来完成相应的触发请求,在这种情况下可以认为函数的所有的资源是准备妥当的,只需要再执行对应的方法即可,所以实例的有效服用时大多数厂商都会采取的一个措施;在实例资源复用的方案中,实例静默状态下要被保留多久,是一个成本话题,也是厂商不断探索的话题之一,因为如果保留时间过短会导致请求出校较为严重的冷启动问题,影响用户体验,如果实例长期不被释放则很难被合理的利用起来,会对成本造成极大的影响;

在预热层面来讲,解决函数冷启动问题可以通过某些手段判断用户的函数在下一个时间段可能需要多少实例,并且进行实例资源的提前准备;函数预热的方案是大部分云厂商所重视并不断深入探索的方向,常见的预热方案有几种:

image

被动预热通常指的是非用户主动行为预热,是系统自动预热函数的行为。这一部分主要包括了规则预热、算法预热以及混合预热;所谓的规则预热是指设定一个实例数量范围(例如每个函数同一时间点最低0个实例,最多300个实例),然后通过一个或几个比例关系进行函数下一时间段的实例数量的扩缩,例如设定某个比例为1.3倍,当前实例数量为110,实际活跃实例数量为100,那么实际活跃数量*所设定的比例的结果为130个实例,与当前实际存在时110个实例相比是需要额外扩容20个实例,那么系统就会自动将实例数量从110个提升到130个;这种做法再实例数量较多的和较少的情况下会出现阔缩数量过大或过小的问题(所以有部分厂商引入不同实例范围内采用不同的比例来解决这个问题),在流量波动较频繁且波峰波谷相差较大的时候该方案会出现预热滞后的问题;算法预热实际上是根据函数之间的关系、函数的历史特征进行,通过深度学习等算法,进行下一时间段的实例的扩缩操作,但是在实际生产过程中,环境是非常复杂的,对流量进行一个较为精确的预测是非常困难的,所以算法预测的方案是很多人在探索,但是却在很多厂商迟迟没有落地的一个重要原因;还有一种方案是混合预热,即将规则预热与算法预热进行一个权重划分,共同预测下一时间段的实例数量,并决定提前扩缩行为,以及扩缩数量等;

主动预热通常指的是用户主动进行预热的行为,由于被动预热在复杂环境下的不准确性,所以很多云厂商提供了用户手动预留的能力,目前来说主要分为简单配置和指标配置两种,所谓的简单配置就是设定预留的实例数量,或者某个时间范围内的预留实例数量,所预留的实例将会一直保持存活状态,不会被释放掉;还有另一种是指标配置,即在简单配置基础上,可以增加一些指标,例如当前预留的空闲容器数量小于某个值时进行某个规律的扩容,反之进行某个规律的缩容等;通常情况下用户主动预留模式比较适用于有计划的活动,例如某平台在双十一期间要进行促销活动,那么可以设定双十一期间的预留资源以保证高并发下系统良好的稳定性和优秀的响应速度;通常情况下主动预留可能会产生额外的费用;

混合预热,即将被动预热和主动预热按照一个权重关系进行结合;当用户配置了主动预热优先主动预热规则,辅助被动预热规则;如果用户没有配置主动预热规则,则使用默认的被动预热规则;

最后一种解决冷启动问题的方法是资源池化,但是通常情况下这种所谓的资源池化带来的效果可能不是热启动,可能是温启动,所谓的温启动就是说实例所需要的相关资源是已经被提前准备了,但是并没有完全准备的情况。所谓的池化就是在实例成成过程中的任何一步,进行一些预留准备:

image

例如,当我们在做底层资源准备的时候,我们可以准备一些底层资源作为池化;我们在进行运行时准备的时候,也可以准备一些运行时资源作为池化资源;如果可以精确到用户代码层面,也可以在一些实例中,加载用户代码(业务逻辑)等资源作为池化;池化的好处是,可以降低冷启动的链路,例如运行时层面的池化,可以避免底层资源准备是产生的时间的消耗,让启动速度更快,同时池化也可以更加灵活的面对更多情况,例如在运行时层面的池化,可以讲池化的实例分配给不同的函数,不同函数被触发的时候,可以优先使用池化资源,达到更快启动速度;当然池化也是一门学问,例如池化的资源的规格,运行时的种类等,以及池化的数量,资源的分配和调度等,这些问题也都是各个厂商在对自身冷启动问题优化时会考虑到的问题。
通常情况下,在冷启动的过程中,比较耗时的环节包括网络资源的打通(很多函数平台都是函数容器里绑定弹性网卡去访问开发者其他的资源,这个网络的部署需要秒的级别),实例的底层资源的准备过程,以及运行时等准备;除此之外对一个实例冷启动有一定影响的还有代码包的大小,过大的代码包可能会导致下载代码时间变长,进一步导致冷启动现象严重。

作为用户的我们可以参与的对抗手段

合理的代码包规格

在各个云厂商的FaaS平台中,都有着对代码包大小的限制,抛掉云厂商对代码包的限制,就单纯的说代码包的规格可能会产生什么影响,通过函数的冷启动流程可以看到:

image

在函数启动的过程中,有一个过程是加载代码的过程,那么当我们所上传的代码包过大,或者说文件过多导致解压速度过慢,就会直接导致加载代码这个过程变长,进一步直接导致冷启动时间变久。

可以设想一下,当我们有两个压缩包,一个是只有100KB的代码压缩包,另一个是200MB的代码压缩包,两者同时在千兆的内网带宽下理想化(即不考虑磁盘的存储速度等)下载,即使最大速度可以达到125MB/S,那么前者的下载速度只有不到0.01秒,后者需要1.6秒,除了下载时间之外,还有文件的解压时间,那么两者的冷启动时间可能就相差2秒。一般情况下,一个传统的Web接口,如果要2秒以上的响应时间,实际上对很多业务来说是不能接受的,所以在我们打包代码时就要尽可能的降低压缩包大小。以Node.js项目为例,打包代码包时,可以采用Webpack等方法,来压缩依赖包大小,进一步降低整体代码包的规格,提升函数的冷启动效率。

合理利用实例的复用

在各个云厂商的FaaS平台中,为了更好的解决冷启动的问题,为了更合理的利用资源,是存在“实例”复用情况的。所谓的实例复用,就是当一个实例完成一个请求,他并不会释放,而是进入一个“静默”的状态,在一定时间范围内,如果有新的请求被分配过来,则会直接调用对应的方法,而不需要再初始化各类资源等,这个过程很大程度上降低了函数冷启动的情况出现。为了验证,我们可以创建两个函数:

函数1:

1
2
3
4
5
# -*- coding: utf-8 -*-

def handler(event, context):
print("Test")
return 'hello world'

函数2:

1
2
3
4
5
6
# -*- coding: utf-8 -*-

print("Test")

def handler(event, context):
return 'hello world'

我们在控制台多次点击测试按钮,对这两个函数进行测试,判断其是否在日志中输出了“Test”,我们可以统计结果:

image

根据上面的情况,我们可以看到,其实实例复用的情况是存在的,因为函数2并不是每次都会执行入口函数之外的一些语句。根据函数1和函数2,我们也可以进一步思考,如果print(“Test”)语句是一个初始化数据库连接,或者是加载一个深度学习的模型,是不是函数1的写法就是每次请求都会执行,而函数2的写法是可以存在复用已有对象的情况?

所以在实际的项目中,有一些初始化操作,是可以按照函数2来进行实现的,例如:

  • 机器学习场景下,在初始化的时候加载模型,避免每次函数被触发都会加载模型带来的效率问题,提高实例复用场景下的响应效率;
  • 数据库等链接操作,可以在初始化的时候进行链接对象的建立,避免每次请求都创建链接对象;
  • 其他一些需要首次加载时下载文件,加载文件的场景,在初始化的时候进行这部分需求的实现,可以在实例复用的时候效率更高;

善于利用函数特性

各个云厂商的FaaS平台都有一些“平台特性”,所谓的平台特性就是说这些功能可能并不是《CNCF WG-Serverless Whitepaper v1.0》中规定的能力,或者描述的能力,仅仅是作为云平台根据自身业务发展和诉求,从用户角度出发挖掘出来,并且实现的功能,可能只在某个云平台或者某几个云平台所拥有的功能,这类功能一般情况下如果利用得当会让我们的业务性能等有质的提升。

Pre-freeze & Pre-stop

以阿里云函数计算为例,在平台发展过程中,挖掘出用户痛点(尤其是都碍传统应用平滑迁移至Serverless架构):

  • 异步背景指标数据延迟或丢失:如果在请求期间没有发送成功,则可能被延迟至下一次请求,或者数据点被丢弃。
  • 同步发送指标增加延迟:如果在每个请求结束后都调用类似Flush接口,不仅增加了每个请求的延迟,对于后端服务也产生了不必要的压力。
  • 函数优雅下线:实例关闭时应用有清理连接,关闭进程,上报状态等需求。在函数计算中实例下线时机开发者无法掌握,也缺少Webhook通知函数实例下线事件。

根据这些痛点发布了运行时扩展(runtime extensions)功能。该功能在现有的HTTP服务编程模型上扩展,在已有的HTTP服务器的模型中增加了PreFreeze和PreStop webhooks。扩展开发者实现HTTP handler,监听函数实例生命周期事件

image

PreFreeze:在每次函数计算服务决定冷冻当前函数实例前,函数计算服务会调用HTTP GET /pre-freeze路径,扩展开发者负责实现相应逻辑以确保完成实例冷冻前的必要操作,例如等待指标发送成功等。函数调用InvokeFunction的时间不包PreFreeze hook的执行时间。

image

PreStop:在每次函数计算决定停止当前函数实例前,函数计算服务会调用HTTP GET /pre-stop路径,扩展开发者负责实现相应逻辑以确保完成实例释放前的必要操作,如关闭数据库链接,以及上报、更新状态等。

image

单实例多并发

众所周知,各个厂商的函数计算通常是请求级别的隔离,即当客户端同时发起三个请求到函数计算,理论上会产生三个实例来进行应对,这个时候可能会涉及到冷启动问题,可能会涉及到请求之间状态关联问题等,但是部分云厂商提供了单实例多并发的能力(例如阿里云函数计算),该能力允许用户为函数设置一个实例并发度(InstanceConcurrency),即单个函数实例可以同时处理多少个请求。

如图下图,假设同时有3个请求需要处理,当实例并发度设置为1时,函数计算需要创建3个实例来处理这3个请求,每个实例分别处理1个请求;当实例并发度设置为10时(即1个实例可以同时处理10个请求),函数计算只需要创建1个实例就能处理这3个请求。

单实例多并发的优势:

  • 减少执行时长,节省费用。例如,偏I/O的函数可以在一个实例内并发处理,减少实例数从而减少总的执行时长。
  • 请求之间可以共享状态。多个请求可以在一个实例内共用数据库连接池,从而减少和数据库之间的连接数。
  • 降低冷启动概率。由于多个请求可以在一个实例内处理,创建新实例的次数会变少,冷启动概率降低。
  • 减少占用VPC IP在相同负载下,单实例多并发可以降低总的实例数,从而减少VPC IP的占用。

单实例多并发的应用场景时比较广泛的,例如函数中有较多时间在等待下游服务的响应的场景就比较适合使用该种功能,但是单实例多并发也并不适合全部应用场景,例如当函数中有共享状态且不能并发访问的场景,单个请求的执行要消耗大量CPU及内存资源的场景,就不适合使用单实例多并发这个功能。

image

欢迎您关注我的博客,也欢迎转载该博客,转载请注明本文地址: http://bluo.cn/serverless-code-start/ 。有关于Serverless等相关问题欢迎联系我:80902630

微信号抖音号