解码器型LLM的Embedding新视角：LLM2Vec、Echo Embeddings等技术解析

作者：JC2024.08.14 04:31浏览量：9

简介：本文探讨了基于解码器型大型语言模型（LLM）的Embedding技术，包括LLM2Vec、Echo Embeddings、PromptEOL等，并解析了它们在文本编码中的实际应用和优势。

千帆应用开发平台“智能体Pro”全新上线限时免费体验

面向慢思考场景，支持低代码配置的方式创建“智能体Pro”应用

引言

随着自然语言处理（NLP）技术的飞速发展，大型语言模型（LLM）已成为推动该领域进步的重要力量。特别是解码器型LLM，如GPT系列，因其强大的文本生成能力而备受关注。然而，这些模型在文本编码（Embedding）方面仍存在一些挑战。本文将深入解析几种基于解码器型LLM的Embedding技术，包括LLM2Vec、Echo Embeddings、PromptEOL等，探讨它们在文本编码中的实际应用和优势。

1. LLM2Vec：解码器LLM的文本编码器转换

技术背景：
LLM2Vec是一种无监督方法，可以将任何仅解码器的大型语言模型（LLM）转换为强大的文本编码器。该方法由Parishad BehnamGhader等人提出，并发表在相关论文中（《LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders》）。

核心步骤：

启用双向注意力：将解码器LLM的因果注意力掩码替换为全一矩阵，使每个token都能访问序列中的所有其他token。
掩码下一token预测：通过掩码下一token预测训练来适应模型以使用双向注意力。
无监督对比学习：使用SimCSE进行无监督对比学习，通过最大化同一序列的两个不同表示之间的相似性，同时最小化与批次中其他序列表示的相似性，来提升模型性能。

优势与应用：
LLM2Vec方法简单高效，无需昂贵的适应或合成数据，即可实现强大的文本编码能力。该方法在单词级和序列级任务上均表现出色，尤其在大规模文本嵌入基准（MTEB）上达到了新的无监督性能水平。

2. Echo Embeddings：文本重复输入的自回归模型Embedding

技术背景：
Echo Embeddings是一种由卡内基梅隆大学研究人员提出的技术，旨在解决自回归语言模型在生成文本表征时的局限。

核心思路：
将想要获得embedding的文本重复两次拼接起来再输入到语言模型，然后将第二次出现的文本对应的隐状态作为最终的文本embedding。这种方法能够确保第二次出现的文本token能够看到原文本的所有内容，从而生成更高质量的embedding。

实验验证：
Echo Embeddings在zero-shot和finetune场景下均表现出色，尤其在zero-shot场景下，其性能明显优于传统方法。

3. PromptEOL：基于提示的解码器LLM Embedding

技术背景：
PromptEOL由一篇发表于2023年的论文《Scaling sentence embeddings with large language models》提出，是一种使用特定提示模板让LLM生成句子embedding的方法。

核心提示模板：
使用“This sentence: “[text]” means in one word: “”的模板来引导LLM生成一个词语，并将该词语的隐状态表征作为句向量。这种方法通过限制LLM的输出为一个词语，来促使模型在生成时考虑整个句子的语义信息。

优势与应用：
PromptEOL在生成句子embedding时表现出色，尤其在大规模LLM上效果更佳。此外，该方法还可以利用LLM的In-context learning能力来构建示例数据集，进一步提升性能。

4. 其他技术概览

除了上述三种技术外，还有E5-mistral-7b-instruct和Sgpt等基于解码器LLM的Embedding技术。这些技术各有特色，如E5-mistral-7b-instruct可能通过特定的训练策略来优化模型在特定任务上的性能；而Sgpt则通过position-weighted mean pooling来获取句子embedding，使越靠后的token权重越大。

结论

基于解码器型LLM的Embedding技术为文本编码领域带来了新的视角和解决方案。LLM2Vec、Echo Embeddings、PromptEOL等技术通过不同的方法克服了自回归语言模型在生成文本表征时的局限，并展现出强大的文本编码能力。随着NLP技术的不断进步，我们有理由相信这些技术将在更多实际应用中发挥重要作用。

建议与展望：
对于希望尝试这些技术的开发者来说，建议从LLM2Vec开始入手，因其方法简单且效果显著。同时，可以关注Echo Embeddings和PromptEOL等技术的最新进展，以便在实际应用中做出更合适的选择。未来，随着大型语言模型的不断发展

发表评论

开发者关注产品榜

最热文章

关于作者

JC

885409被阅读数
13被赞数
8被收藏数

开发者热搜

解码器型LLM的Embedding新视角：LLM2Vec、Echo Embeddings等技术解析

千帆应用开发平台“智能体Pro”全新上线限时免费体验

引言

1. LLM2Vec：解码器LLM的文本编码器转换

2. Echo Embeddings：文本重复输入的自回归模型Embedding

3. PromptEOL：基于提示的解码器LLM Embedding

4. 其他技术概览

结论

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者

JC

解码器型LLM的Embedding新视角：LLM2Vec、Echo Embeddings等技术解析

千帆应用开发平台“智能体Pro”全新上线 限时免费体验

引言

1. LLM2Vec：解码器LLM的文本编码器转换

2. Echo Embeddings：文本重复输入的自回归模型Embedding

3. PromptEOL：基于提示的解码器LLM Embedding

4. 其他技术概览

结论

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者

JC

千帆应用开发平台“智能体Pro”全新上线限时免费体验