发布信息

AI睡觉也能思考?睡眠时计算技术提高LLM推理效率

作者:软荐小编      2025-05-03 21:02:02     87

AI「睡觉」时也能思考了?

Letta与加州大学伯克利分校的研究者提出了一项名为「睡眠时计算」的技术,该技术的目的在于提升大语言模型的推理效率,使模型能够在空闲时间段进行思考 。

网易云飙升榜计算__睡眠书推荐

在过去的一年里,推理模型极其火爆。在回答问题以前,它会先自行思考一番。

然而,测试时进行扩展计算存在明显弊端,这会导致高延迟,还会使推理成本大幅增加。

睡眠时计算让模型在空闲时也「动动脑筋」。

_网易云飙升榜计算_睡眠书推荐

简单来说,在模型处于没有接收用户查询的空闲时段时,它会提前对上下文信息展开分析,还会进行推理 。

预先对用户可能提出的问题进行预测,进而算出有用结果,如此一来,当用户提问时,模型便能够更快且更高效地给出答案。

网易云飙升榜计算__睡眠书推荐

这项技术保持了准确性,降低了推理成本,给AI系统提供了全新的方向。

网易云飙升榜计算_睡眠书推荐_

论文链接:

研究发现:

睡眠时计算

在标准的测试时计算当中,用户输入提示,该提示包含上下文c和查询q,之后模型进行推理,最后输出答案a,此过程可表示为。

但在实际情况中,很多时候,在q到来以前,就已经有了c,这个时候,模型通常处于空闲的状态。

睡眠时计算会利用这段空闲时间,让模型仅仅基于上下文c来进行推理,进而生成一个新的、更有助于回答查询的上下文c',这个过程被表示为

在测试时,用c'代替c,模型通过给出答案。

因为事先做了许多准备工作,所以这时进行测试所需的预算b会远远小于原来的B,进而大幅减少了计算量。

_睡眠书推荐_网易云飙升榜计算

举个例子,你是一名图书管理员(模型),有人前来询问图书馆的藏书(上下文)。

以往,有人问了之后,才去图书馆找答案,如此一来效率非常低。如今,你能够在空闲的时候,先对书籍进行整理分类,预测读者可能会提出的问题,并且做好相应的笔记(预计算) 。

这样读者提问时,就能根据笔记和整理好的书籍迅速回答。

网易云飙升榜计算__睡眠书推荐

实验结果

为验证睡眠时计算的有效性,研究人员进行了一系列实验。

Stateful GSM-Symbolic 是从 GSM-Symbolic 的 P1 拆分出来的,Stateful GSM-Symbolic 也是从 GSM-Symbolic 的 P2 拆分出来的,这增加了问题的难度。

Stateful AIME从2024年美国数学邀请赛题目中选取了部分问题,还从2025年美国数学邀请赛题目中选取了部分问题,总共选了60个问题,这些问题同样被拆分成上下文和问题。

网易云飙升榜计算_睡眠书推荐_

Multi-QueryGSM-Symbolic数据集的目的是研究共享上下文的影响,其中每个上下文包含多个查询。

在GSM - Symbolic数据集上开展实验,使用的模型是GPT - 4o - mini和GPT - 4o。在AIME数据集上进行实验,所使用的模型包括OpenAI的o1、o3 - mini,Anthropic的Claude Sonnet 3.7 Extended Thinking以及Deepseek - R1等 。

基线在标准测试时进行计算,也就是说,在测试的时候,会将上下文c和查询q同时提供给模型 。

改善帕累托边界

睡眠时计算能否改变测试时计算与准确率之间的帕累托边界?

在Stateful GSM-Symbolic和Stateful AIME里,睡眠时计算展现出强大优势,它可以把达到相同准确率所需的测试时计算量减少大约5倍!

这意味着,在资源有限的情况下,通过睡眠时计算,能够让模型保证准确率,并且大幅减少计算资源的消耗。

从图中能够看出,在低测试预算的情况下,睡眠时进行计算,其性能远远超过了基线。

睡眠书推荐__网易云飙升榜计算

应用睡眠时计算后,测试时间和准确率有显著的帕累托偏移。

睡眠书推荐_网易云飙升榜计算_

扩展睡眠时计算

扩展睡眠时计算规模,能否进一步优化帕累托边界?

在Stateful GSM-Symbolic任务里,扩展睡眠时的计算能够让帕累托曲线向外移动,在相似的测试时间预算条件下,性能最高可以提升13%。

睡眠书推荐_网易云飙升榜计算_

在有状态的AIME任务里,进行扩展睡眠时的计算,性能得到显著提升,提升幅度高达18%。

这说明,借助合理增加睡眠时投入的计算资源,能够进一步优化模型性能 。

分摊睡眠时计算

单个上下文对应多个关联问题时,分摊测试时进行计算,睡眠时也进行计算,这样做能否带来总体token效率提升?

研究人员想要知道,在每个上下文存在多个查询的设置情形下,怎样去应用睡眠时计算,以此来改善推理的总成本 。

在Multi-Query GSM-Symbolic数据集中,当每个上下文有10个查询,通过分摊睡眠时计算的成本,每个查询的平均成本降低到原来的五分之一。

睡眠书推荐_网易云飙升榜计算_

这对于实际应用有着重大意义,在处理大量相关查询的情况下,能够大幅度降低计算成本。

相关内容 查看全部