scaling - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月23日

推理缩放定律（Inference Scaling Laws）：测试时计算量（Test-Time Compute）与模型性能的帕累托前沿

推理缩放定律：测试时计算量与模型性能的帕累托前沿大家好，今天我们要深入探讨一个在深度学习领域至关重要的话题：推理缩放定律。具体来说，我们将研究测试时计算量与模型性能之间的关系，以及如何确定帕累托前沿，从而在计算资源和模型精度之间找到最佳平衡点。 1. 缩放定律回顾与背景缩放定律最初主要关注训练阶段，描述了模型大小、训练数据量和计算量如何影响模型的性能。这些定律帮助我们理解，为了获得更好的性能，我们需要更大的模型、更多的数据和更多的计算资源。然而，随着模型规模的不断增大，推理成本也变得越来越重要。大型模型虽然精度高，但在实际部署中，其高昂的推理成本可能会成为瓶颈。因此，我们需要关注推理阶段的缩放定律，即测试时计算量与模型性能之间的关系。 2. 测试时计算量的定义与衡量测试时计算量是指模型在进行单次推理时所需的计算资源。它通常可以用浮点运算次数（FLOPs）来衡量。然而，FLOPs只是一个理论指标，实际的推理时间还受到硬件架构、软件优化等多种因素的影响。因此，在实际应用中，我们还需要考虑延迟（Latency）、吞吐量（Throughput）等指标。 FLOPs (Floating P …

继续阅读“推理缩放定律（Inference Scaling Laws）：测试时计算量（Test-Time Compute）与模型性能的帕累托前沿”

2025年11月23日

Best-of-N采样的帕累托前沿：推理计算量与生成质量之间的Scaling Law

Best-of-N采样的帕累托前沿：推理计算量与生成质量之间的Scaling Law 大家好，今天我们来探讨一个在生成模型领域非常重要的主题：Best-of-N采样策略，以及它与推理计算量和生成质量之间的Scaling Law。在深度学习模型，尤其是生成模型中，采样策略的选择对最终生成结果的质量有着至关重要的影响。Best-of-N采样作为一种常见的策略，通过生成多个候选样本并选择其中最优的样本来提升生成质量。但是，这种策略的计算成本也相应增加。因此，理解Best-of-N采样背后的Scaling Law，也就是推理计算量与生成质量之间的关系，对于在实际应用中进行权衡至关重要。 1. 生成模型中的采样策略在深入Best-of-N采样之前，我们先简单回顾一下生成模型中常用的采样策略。生成模型，例如Variational Autoencoder (VAE)、Generative Adversarial Network (GAN) 和自回归语言模型 (如GPT系列)，的目标是学习数据的分布，并能够从中生成新的样本。采样策略决定了我们如何从模型学习到的分布中抽取样本。常见的采样策略包括： …

继续阅读“Best-of-N采样的帕累托前沿：推理计算量与生成质量之间的Scaling Law”

2025年6月6日

AWS Auto Scaling：动态伸缩组配置与实践

好的，各位观众老爷，各位技术达人，以及各位还在入门路上苦苦挣扎的小伙伴们，大家好！我是你们的老朋友，江湖人称“代码老司机”的程序猿张三。今天呢，咱们不聊风花雪月，不谈人生理想，就来聊聊如何在云端玩转“伸缩大法”，也就是AWS Auto Scaling！准备好了吗？让我们系好安全带，一起开启这段AWS Auto Scaling的奇妙旅程！🚀 一、伸缩大法好！ Auto Scaling 是个啥？想象一下，你开了一家奶茶店，生意时好时坏。生意好的时候，门口排起了长龙，顾客抱怨连连，订单都接不过来，眼看着就要流失客户了！生意不好的时候，店里空空荡荡，员工闲得抠脚，水电费却照常交，心疼啊！这时候，如果你会“分身术”，生意好的时候，嗖嗖嗖变出几个店员，缓解压力；生意不好时，又把分身收回来，节省成本，那该多好！ AWS Auto Scaling，就是云端的“分身术”。它能根据你的业务需求，自动调整EC2实例的数量，就像一位不知疲倦的超级管家，时刻守护着你的应用！简单来说，Auto Scaling 就是：自动伸缩：根据预设的规则，自动增加或减少EC2实例数量。弹性扩展：在流量高峰时， …

继续阅读“AWS Auto Scaling：动态伸缩组配置与实践”

2025年6月6日

理解云弹性：弹性伸缩（Auto Scaling）的原理与实践

好的，没问题！系好安全带，咱们这就开始一场关于“云弹性：弹性伸缩（Auto Scaling）的探险之旅！🚀 云弹性：弹性伸缩（Auto Scaling）的原理与实践大家好！我是你们的老朋友，码农界的段子手，BUG界的终结者。今天，我们要聊聊云计算里一个非常酷炫、非常实用的技能——弹性伸缩（Auto Scaling）。想象一下，你开了一家网红奶茶店，平时生意不错，但一到周末或者节假日，店门口就排起了长龙，顾客怨声载道，差评如潮。这时，你最希望的是什么？当然是瞬间变出好几个分身，多几台奶茶机，把排队的人群瞬间消化掉！😎 云弹性伸缩，就是云计算世界里的“分身术”，它能根据业务负载的变化，自动增加或减少计算资源，让你在高峰期应对自如，在低谷期节省成本，简直是老板们梦寐以求的神器！一、什么是云弹性？在深入了解弹性伸缩之前，我们先来聊聊什么是“云弹性”。云弹性，顾名思义，就像橡皮筋一样，可以根据需求随意拉伸和收缩。它指的是云计算平台能够动态地分配和释放计算资源，以适应应用程序负载的变化。举个栗子：传统模式：你买了一台服务器，无论业务量大小，这台服务器的资源都固定在那里，用不完就浪费， …

继续阅读“理解云弹性：弹性伸缩（Auto Scaling）的原理与实践”