好的,我们开始今天的讲座,主题是Python中的信息论度量:互信息(Mutual Information)与条件熵的计算与应用。 信息论基础回顾 在深入互信息和条件熵之前,我们先简要回顾一些信息论的基础概念。 信息量 (Self-Information): 描述一个事件发生所带来的信息量。一个不太可能发生的事件发生时,带来的信息量越大。 公式:I(x) = -log P(x),其中P(x)是事件x发生的概率。对数的底通常是2,此时信息量的单位是比特 (bit)。 熵 (Entropy): 描述一个随机变量不确定性的度量。熵越大,随机变量的不确定性越高。 公式:H(X) = – Σ P(x) log P(x),其中求和是对随机变量X的所有可能取值进行的。 联合熵 (Joint Entropy): 描述两个随机变量共同的不确定性。 公式:H(X, Y) = – Σ Σ P(x, y) log P(x, y),其中求和是对随机变量X和Y的所有可能取值组合进行的。 条件熵 (Conditional Entropy): 描述在已知一个随机变量的值的情况下,另一个随机变量的 …
信息瓶颈理论(Information Bottleneck):大模型各层压缩与保留互信息的动态过程
信息瓶颈理论:大模型各层压缩与保留互信息的动态过程 大家好,今天我们来深入探讨信息瓶颈(Information Bottleneck, IB)理论,以及它如何帮助我们理解大模型中各层压缩和保留互信息的动态过程。信息瓶颈理论提供了一个优雅的框架,用于分析和设计能够提取数据集中最相关信息的系统。在大模型领域,理解这一理论有助于我们更好地理解模型的内部运作机制,并可能指导模型压缩、知识蒸馏和架构设计。 1. 信息瓶颈理论的核心思想 信息瓶颈理论旨在寻找一个变量 T,它是对原始输入变量 X 的压缩表示,同时尽可能地保留 X 中与目标变量 Y 相关的信息。 换句话说,我们希望 T 能够用最少的比特数来描述 X,但仍然能够很好地预测 Y。 这可以用两个互信息量来形式化地表达: I(X;T):表示 T 包含了多少关于 X 的信息。我们希望这个值尽可能小,这意味着 T 是对 X 的高效压缩。 I(T;Y):表示 T 包含了多少关于 Y 的信息。我们希望这个值尽可能大,这意味着 T 能够很好地预测 Y。 信息瓶颈的目标就是在这两个互信息量之间找到一个平衡。数学上,这可以通过以下优化问题来表达: Mini …