Vous appuyez sur «Run» sur un assistant puissant GPT, puis regardez le spinner. Les secondes s’étendent en minutes, les compteurs en jeton grimpent et le compteur de votre facture Openai se glisse plus haut. La latence et le coût sont devenus la taxe invisible sur le boom du modèle de langue, en particulier lorsqu’une seule requête difficile peut déclencher des milliers de jetons à inférence frais. Une nouvelle proposition de recherche appelée calcul du sommeil Soutient que ces jetons sont souvent dépensés dans la mauvaise phase du flux de travail. Au lieu de s’entasser dans tout le raisonnement dans le moment où l’utilisateur arrive entre, pourquoi ne pas laisser le modèle «penser» pendant ses heures d’inactivité, transformer le contexte brut en une perspicacité réutilisable et réduire le projet de loi lorsque la vraie question arrive enfin?
L’idée semble familière à quiconque a jamais programmé un index de base de données ou un code compilé avant l’expédition: prétraitement pendant que personne ne cherche, répondez instantanément quand ils le sont. Pourtant, l’application de cet état d’esprit aux modèles de langue nécessite de nouveaux repères, une comptabilité minutieuse et une preuve que les efforts hors ligne se transfèrent à la précision en ligne. Kevin Lin et ses collègues de Letta et UC Berkeley fournissent exactement ces preuves dans «Calcul du sommeil: au-delà de la mise à l’échelle des inférences à l’heure du test»Et leurs chiffres suggèrent une repensation de la façon dont les cycles GPU à budget des produits de l’IA d’entreprise.
La mise à l’échelle traditionnelle des temps de test dit à un LLM de travailler plus dur lorsque la question est difficile: échantillonner plusieurs chaînes de pensée, étendre la trace de raisonnement, les réponses RERANK ou des dizaines de réponses candidates en parallèle. Ces astuces renforcent la précision des tâches mathématiques, codantes et de connaissances, mais elles gonflent également la latence et le drain du portefeuille. Les utilisateurs attendent; Les vendeurs paient. Pire, le paradigme suppose que chaque requête est un apatride qui arrive avec son contexte complet dans la même demande.
Dans le monde réel, les contextes persistent. Les robots de soutien client relue la même base de connaissances, les agents de codage naviguent dans le même référentiel et les copilotes de recherche revisitent un corpus de document partagé. Les auteurs soutiennent que dans ces contextes avec état, d’énormes morceaux de raisonnement sont effectués de manière redondante. Le calcul du sommeil exploite cette redondance en permettant au modèle de pré-évaluer le contexte pendant les fenêtres inactives, de créer une représentation distillée et prête à inférer et de la stocker pour une réutilisation ultérieure. Lorsque l’utilisateur demande enfin, le LLM répond dans une fraction des jetons car une grande partie du levage de lourds est déjà cuite dans l’invite.
Pourquoi le calcul du sommeil réécrit la courbe de coût
Les chercheurs formalisent le flux de travail en deux phases. Pendant temps de sommeil Le modèle ne voit que le contexte cprédit des angles d’intérêt probables et produit un contexte réécrit C ′ qui contient des déductions intermédiaires, des résumés structurés ou des extraits de chaîne en cache. Pendant temps de test la requête de l’utilisateur q arrive. Le modèle reçoit maintenant C ′ au lieu du contexte brut et peut atteindre la bonne réponse avec un budget de calcul beaucoup plus petit b. Étant donné que les heures d’inactivité sont bon marché et parallélisables, l’organisation paie des taux de faible priorité pour le prétraitement et préserve la capacité d’inférence premium pour la réactivité de l’effacement des utilisateurs.
Pour quantifier l’avantage, l’équipe a divisé deux suites de rénovation mathématiques classiques – GSM-symbolic et AIME – Avec état variantes où chaque problème est décomposé en un paragraphe de contexte et une question distincte. Ils ont également construit GSM-symbolique multi-gsmdans lequel chaque contexte engendre plusieurs questions connexes, imitant un utilisateur qui continue de pivoter dans le même document. La matrice d’évaluation a comparé le GPT-4O de base, le GPT – 4O – Mini, l’O1, l’O3-Mini, le Sonnet Claude et la profondeur-R1 dans trois conditions: échelle de test standard, calcul de temps de sommeil avec différents budgets hors ligne et passer – @ @ @ @ @k Échantillonnage parallèle.
Ce que montrent les expériences
À travers chaque modèle sauf le plus petit O1, la stratégie du sommeil a poussé la frontière à l’extérieur de l’exactitude vers l’extérieur. Sur GSM-symbolique avec état et AIME avec état Le rapport des auteurs:
- 5 × plus bas Les jetons de test pour frapper la même précision que les courses séquentielles de la chaîne séquentielle.
- 13% Gain de précision sur GSM lorsque le budget hors ligne a augmenté jusqu’à cinq générations parallèles du sommeil.
- 18% Gain de précision sur AIME avec des traces de raisonnement hors ligne d’efforts plus élevés.
- 2,5 × réduction En coût moyen par requête, lorsque dix questions connexes partageaient le même contexte prétraité.
Peut-être plus frappant, calcul du sommeil battre le pass canonique – @k Trick à des budgets d’égalité des temps de test. Passer-@k Supposons qu’un vérificateur Oracle peut choisir instantanément le meilleur de k Réponses échantillonnées, une béquille irréaliste en production. Le calcul du temps de sommeil atteint une précision plus élevée sans ce luxe parce que le raisonnement lourd vit déjà C ′.
Le gain est sensible à la prévision de la question éventuelle. Lorsque les chercheurs ont vanté des éléments GSM par la probabilité de journal que LLAMA – 2 a attribué à la question étant donné le contexte, la précision delta entre le sommeil et la ligne de base s’est élargie pour le quintile le plus prévisible. En anglais simple: plus la question de suivi est évidente, plus la victoire est grande de la préparation de vos devoirs à l’avance.
Les nombres sont une chose; Les implications du produit en sont une autre. Les auteurs exécutent un véritable test de référentiel appelé Swe-Feures dans lequel un agent doit modifier trois fichiers ou plus pour implémenter une fonctionnalité. Avec seulement des budgets à temps de test faible, l’utilisation de jetons coupés en temps de sommeil d’environ 50% tout en faisant correspondre F1, ce qui signifie des fusions plus rapides et des factures de GPU inférieures sur les robots d’intégration continue. À des budgets très élevés, le raisonnement classique des temps de test a retrouvé un léger avantage de précision, suggérant une politique hybride: allouer des calculs hors ligne de manière agressive lorsque la latence est importante ou lorsque les contextes seront réutilisés, se repliez à de riches chaînes en ligne uniquement pour les requêtes en une seule ou hautement imprévisibles.
Le cadre ouvre également des portes pour la génération de données synthétiques. Si le raisonnement en temps de sommeil produit de riches représentations de la langue naturelle d’une base de code ou d’un document, ces artefacts eux-mêmes deviennent des données de formation pour les futures fins finales – une boucle vertueuse où les graines de réflexion hors ligne la prochaine génération d’améliorations de modèle sans gratter plus de texte Internet.
Sur le plan opérationnel, la technique invite les questions d’ingénierie. À quelle fréquence le contexte de contexte devrait-il actualiser? Quelle est la taille C ′ grandir avant d’annuler les économies de jeton? Quels cycles d’inactivité sont vraiment gratuits dans un cluster partagé? Pourtant, aucun de ces obstacles ne semble aussi formidable que la réalité actuelle de payer les prix en temps réel pour le raisonnement redondant. Les entreprises qui planifient déjà les constructions nocturnes, les rampes de recherche-index ou les vues matérialisées ont des modèles mentaux pour cette optimisation.
Comment les LLM deviennent tranquillement les historiens de la ville ultime
Où la pensée hors ligne s’adapte ensuite
Le calcul du sommeil n’est pas une solution miracle. Les requêtes qui aveuglent le système ou les contextes qui mutent trop rapidement exigeront toujours de nouvelles chaînes de pensée. Le document lui-même signale la recherche sur les politiques adaptatives qui prédisent lorsque l’investissement hors ligne sera payant, peut-être en estimant l’entropie de contexte ou la distribution de l’intention des utilisateurs. Même ainsi, le noyau à retenir est: les modèles de grands langues n’ont pas besoin de penser uniquement lorsque l’utilisateur regarde. En empruntant une astuce informatique à l’âge – faites le travail de demain ce soir – les développeurs peuvent réduire la latence, rétrécir les factures et encore gravir l’échelle de précision.
Le résultat: Votre prochaine fonctionnalité LLM peut ne pas nécessiter un modèle plus important ou un budget de raisonnement plus profond. Il pourrait simplement nécessiter de laisser le modèle dormir d’abord sur le problème.