智源BGE:最强开源语义向量模型,赋能大模型与外部知识链接

作者:热心市民鹿先生2024.08.14 19:27浏览量:13

简介:智源研究院发布BGE语义向量模型,以卓越的中英文语义检索精度和表征能力,超越同类模型,解决大模型制约问题,并推动大模型与外部知识的有效链接。

千帆应用开发平台“智能体Pro”全新上线 限时免费体验

面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用

立即体验

在人工智能领域,大模型的崛起带来了前所未有的机遇与挑战。随着模型规模的扩大,如何有效解决幻觉问题、知识时效性问题以及超长文本处理难题,成为了业界关注的焦点。近日,智源研究院发布了一款名为BGE(BAAI General Embedding)的最强开源可商用中英文语义向量模型,以其卓越的性能和广泛的应用前景,为这些问题提供了创新的解决方案。

BGE模型简介

BGE模型是智源研究院在语义向量模型领域的最新成果,它不仅在中英文语义检索精度上超越了社区所有同类模型,如OpenAI的text embedding 002,还在整体语义表征能力上展现出了非凡的实力。尤为值得一提的是,BGE在保持同等参数量级模型中的最小向量维度方面表现出色,这意味着更低的使用成本,为大规模部署和应用提供了可能。

技术亮点与优势

高效预训练与大规模文本对微调

BGE模型之所以能够在语义表征上取得如此显著的进步,主要得益于其高效预训练算法和大规模文本对微调策略。BGE在悟道、Pile两个大规模语料集上采用了RetroMAE预训练算法,通过低掩码率输入编码为语义向量,再与高掩码率输入拼接重建原始输入的方式,实现了对无标签语料的充分利用,从而提升了语言模型基座对语义表征任务的适配性。

此外,BGE还针对中文和英文分别构建了多达120M和232M的样本对数据,通过负采样扩增和难负样例挖掘技术,进一步提升了对比学习的难度和语义向量的判别能力。这种大规模文本对训练的方式,使得BGE模型能够更好地掌握实际场景中的各种语义匹配任务。

评测基准与性能表现

为了全面评估BGE模型的性能,智源研究院发布了当前最大规模、最为全面的中文语义向量表征能力评测基准C-MTEB(Chinese Massive Text Embedding Benchmark)。该评测基准包含6大类评测任务和31个数据集,为评测中文语义向量的综合表征能力提供了可靠的基础。实验结果显示,BGE中文模型(BGE-zh)在对接大语言模型最常用到的检索能力上领先优势尤为显著,检索精度约为OpenAI Text Embedding 002的1.4倍。

同样地,在英文评测基准MTEB上,BGE英文模型(BGE-en)也展现出了出色的性能。无论是在总体指标(Average)还是检索能力(Retrieval)两个核心维度上,BGE都超越了此前开源的所有同类模型。

实际应用与前景展望

BGE模型的发布,不仅为学术界和产业界提供了更为强大的语义向量模型工具,还为构建大语言模型应用(如阅读理解、开放域问答、知识型对话)提供了重要的功能组件。通过将LangChain与智源BGE结合,开发者可以轻松定制本地知识问答助手,而无需花费高昂的成本训练垂类大模型。

此外,BGE模型还具备解决大模型制约问题的潜力。借助语义向量模型,大模型可以获取与时俱进的“活知识”,从而缓解幻觉问题和长期记忆挑战。同时,利用语义向量模型将长文档结构化,还可以与大模型更好地直接交互,弥补长文本处理能力短板。

结语

智源BGE模型的发布,是人工智能领域的一项重要里程碑。它不仅展示了智源研究院在语义向量模型领域的深厚积累和创新实力,更为推动大模型与外部知识的有效链接提供了强有力的支持。随着BGE模型的持续迭代和更新,我们有理由相信,它将在未来的人工智能应用中发挥更加重要的作用。

article bottom image

相关文章推荐

发表评论