多模态数据交错:文本、图像与视频 Token 的预训练融合 大家好,今天我们来探讨一个在多模态机器学习领域非常重要的课题:如何在预训练流程中有效地混合文本、图像和视频 Token,也就是多模态数据的交错 (Interleaved) 格式。这对于构建能够理解和生成多种模态数据的强大模型至关重要。 1. 多模态交错的意义与挑战 过去,很多多模态模型采取的是“独立编码,后期融合”的策略。例如,分别用 CNN 处理图像,用 RNN 处理文本,然后将它们的表示向量拼接或者相加,再输入到一个统一的解码器中。这种方法简单直接,但在很大程度上限制了模型学习模态间细粒度交互的能力。 而多模态交错的核心思想,是将不同模态的数据 Token 化后,直接混合在一起输入到模型中,让模型能够在训练过程中直接观察到不同模态之间的关系。这就像让一个孩子同时学习绘画、写作和观看视频,而不是先学绘画再学写作。 这样做的好处显而易见: 更强的模态间关联性学习: 模型可以直接学习到图像中的物体与文本描述之间的对应关系,视频中的动作与字幕之间的关联等等。 更灵活的生成能力: 模型可以根据给定的文本生成对应的图像,或者根据给定的 …