清华第二代ChatGLM模型:60亿参数,中文榜首,碾压GPT-4,推理提速42%

作者:问答酱2024.01.07 16:38浏览量:14

简介:清华KEG和数据挖掘小组发布了中英双语对话模型ChatGLM2-6B,该模型在中文C-Eval榜单中排名第一,比GPT-4表现更佳。它具有更高的上下文长度、更高效的推理能力和更低的显存占用。与初代模型相比,ChatGLM2-6B在多个数据集上的性能有大幅度提升,并且在推理速度上提升了42%。

千帆应用开发平台“智能体Pro”全新上线 限时免费体验

面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用

立即体验

近日,清华大学知识工程与数据挖掘实验室(KEG)和数据挖掘小组(THUDM)发布了中英双语对话模型ChatGLM2-6B。该模型在中文C-Eval榜单中排名第一,比GPT-4表现更佳。它具有更高的上下文长度、更高效的推理能力和更低的显存占用。与初代模型相比,ChatGLM2-6B在多个数据集上的性能有大幅度提升,并且在推理速度上提升了42%。
ChatGLM2-6B使用了GLM的混合目标函数,经过了1.4T中英标识符的预训练与人类偏好对齐训练。与初代模型相比,ChatGLM2-6B在MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升。
此外,基于FlashAttention技术,研究人员将基座模型的上下文长度从ChatGLM-6B的2K扩展到了32K,并在对话阶段使用8K的上下文长度训练,允许更多轮次的对话。这一改进使得ChatGLM2-6B能够处理更长、更复杂的对话场景。
另外,ChatGLM2-6B还采用了Multi-Query Attention技术,具有更高效的推理速度和更低的显存占用。在官方的模型实现下,推理速度相比初代提升了42%,INT4量化下,6G显存支持的对话长度由1K提升到了8K。这一改进使得ChatGLM2-6B在实际应用中更加实用和高效。
值得一提的是,ChatGLM2-6B对学术研究完全开放,允许申请商用授权。这意味着研究者可以利用该模型进行深入的对话系统研究,并开发出更加优秀的对话产品。
总体来说,清华KEG和数据挖掘小组发布的ChatGLM2-6B模型在中英双语对话领域取得了重要的突破。它具有更高的性能、更长的上下文处理能力和更高效的推理能力,并且在推理速度和显存占用方面也有了显著的提升。同时,该模型对学术研究和商业应用都完全开放,为研究者提供了更多的机会和可能性。
未来,我们期待看到更多基于ChatGLM2-6B模型的应用和产品出现,为人们提供更加智能、高效和自然的对话体验。

article bottom image

相关文章推荐

发表评论