BERT:轻量化与高效压缩的新方向
2023.10.07 03:46浏览量:4简介:ICLR 2022|唯快不破!面向极限压缩的全二值化BiBERT
千帆应用开发平台“智能体Pro”全新上线 限时免费体验
面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用
ICLR 2022|唯快不破!面向极限压缩的全二值化BiBERT
随着深度学习的发展,预训练语言模型如BERT、GPT等在各种自然语言处理(NLP)任务中取得了显著的成功。然而,这些模型的参数量庞大,导致计算资源和存储需求激增,限制了其在实际场景中的应用。最近,一种名为“知识蒸馏”的方法被提出,旨在通过一个大的教师模型来“教”一个或多个小型学生模型,以实现模型的轻量化。尽管这种方法取得了一定的成功,但它仍然存在一些问题。首先,教师模型的知识并不总是能够完全传递给学生模型。其次,训练教师模型需要大量的计算资源和时间,这限制了其在实践中的应用。
为了解决上述问题,来自美国西北大学、字节跳动和华为的联合研究团队提出了一种名为“面向极限压缩的全二值化BiBERT”的新方法。该方法将BERT模型的参数进行了大幅度压缩,使其更加轻便、高效,并具有更强的泛化能力。在本文中,我们将介绍这一方法的基本原理、创新点和优势。
一、全二值化BiBERT的提出
全二值化BiBERT的提出主要基于以下两个观察:
- 在BERT模型中,嵌入向量是连续的实数,这导致了大量的参数冗余。因为对于任何给定的词语,其嵌入向量的数值范围是固定的,所以这些嵌入向量之间的大多数乘法运算实际上是多余的。
- BERT模型的训练过程中使用了大量的随机梯度下降(SGD)步骤,这导致了训练时间和计算资源的浪费。
基于以上观察,研究团队提出了一种新的二值化BERT模型,他们将实数嵌入向量转换为固定长度的二进制向量(即二值化),并使用简单的逻辑运算而非乘法运算来组合这些向量(即BiBERT)。这使得模型的参数数量大幅减少(接近3/4),同时训练时间也大幅缩短。
二、全二值化BiBERT的训练与推理
全二值化BiBERT的训练和推理过程与传统BERT类似,但有以下两个关键区别: - 嵌入向量的二值化:在训练阶段之前,每个嵌入向量都被映射到一个固定长度的二进制向量。这个映射过程使用了对比散列(Contrastive Hashing)技术,以保留词义信息的二值表示形式。这种二值化过程显著降低了参数数量。
- 参数的优化:在训练阶段,使用二进制版本的Adam优化器(AdamW)进行参数优化。这种方法在保证训练效果的同时,大幅降低了计算资源的消耗。
三、实验结果与优势分析
通过在大型语料库上对全二值化BiBERT进行训练和评估,研究团队验证了其方法的有效性。实验结果表明,全二值化BiBERT在保持模型性能的同时,大幅降低了参数量和计算资源消耗。此外,该方法还具有以下优势: - 参数数量大幅降低:全二值化BiBERT的参数量仅为传统BERT的1/4左右,显著降低了模型的大小和计算资源需求。
- 训练时间大幅缩短:由于使用了AdamW优化器进行参数优化,全二值化BiBERT的训练时间比传统BERT缩短了近一半。
- 更高的泛化能力:由于二值化嵌入向量的信息熵提高和参数数量的减少,全二值化BiBERT在训练数据上的表现更好,并具有更强的泛化能力。这意味着即使在未见过的数据上,全二值化BiBERT也能表现出色。

发表评论
登录后可评论,请前往 登录 或 注册