美团SDIM:革新用户序列建模的采样深度兴趣模型
2024.08.14 18:56浏览量:9简介:本文介绍了美团提出的SDIM(Sampling-based Deep Interest Modeling)模型,该模型通过采样与哈希技术,有效处理超长用户行为序列,提升CTR预测准确性,为推荐系统带来新突破。
千帆应用开发平台“智能体Pro”全新上线 限时免费体验
面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用
美团SDIM:革新用户序列建模的采样深度兴趣模型
引言
随着互联网的发展,用户在电商平台上的行为数据日益丰富,如何有效处理并利用这些长序列数据,以更准确地建模用户兴趣,成为推荐系统领域的重要研究课题。美团作为国内领先的电子商务平台,近期提出了SDIM(Sampling-based Deep Interest Modeling)模型,该模型通过创新的采样与哈希技术,实现了在超长行为序列下的高效用户兴趣建模。
SDIM模型概述
SDIM模型是美团在2022年提出的用户长期行为序列建模的点击率预估模型。其核心思想是通过采样多个哈希函数和引入SimHash技术,对用户行为序列中的物品进行高效编码和聚合,从而构建出用户的兴趣向量。这一方法不仅克服了传统基于检索的建模范式中存在的信息缺失和效率问题,还在极大降低计算复杂度的同时,实现了在超长行为序列下类似target-attention的建模效果。
技术原理
SimHash技术
SimHash是Locality-Sensitive Hashing(LSH)的一种实现,其核心思想是将高维的向量映射为低维的哈希签名,使得相似的向量在哈希空间中具有较高的碰撞概率。在SDIM模型中,SimHash被用于将用户行为序列中的物品embedding转换为哈希签名,从而快速找到与目标物品相似的历史行为。
采样与聚合
SDIM模型采用多个哈希函数对物品embedding进行采样,生成多个哈希签名。然后,模型将这些哈希签名按一定规则(如每τ个签名组成一个hash signature)进行分组,并聚合具有相同哈希签名的物品embedding。这样,用户的行为序列就被压缩成了若干个用户兴趣向量,这些向量能够反映用户在不同方面的兴趣偏好。
注意力机制
虽然SDIM模型没有直接使用传统的注意力机制来计算用户兴趣,但其通过哈希签名的碰撞概率来近似实现了一种“软注意力”效果。即,与目标物品哈希签名相同的物品embedding对用户兴趣的贡献更大,这与传统注意力机制中的相关性计算有着异曲同工之妙。
实际应用与效果
SDIM模型已被部署在美团的搜索系统中,并取得了显著的效果。实验结果表明,SDIM模型相比基线模型在CTR(点击率)和VBR(价值率)上均有显著提升。这一成果不仅证明了SDIM模型的有效性,还展示了其在工业级推荐系统中的应用潜力。
部署与优化
为了进一步提升SDIM模型的线上性能,美团将其架构拆分为两部分:Behavior Sequence Encoding (BSE) Server和CTR Server。BSE Server负责提取用户长期行为序列并生成用户兴趣向量,而CTR Server则负责根据用户兴趣向量和目标物品embedding进行点击率预测。这种解耦的架构不仅降低了服务时间,还提高了系统的可扩展性和可维护性。
结论
美团SDIM模型的提出为用户序列建模领域带来了新的思路和方法。通过采样与哈希技术的结合,SDIM模型成功实现了在超长行为序列下的高效用户兴趣建模,为推荐系统带来了更精准、更高效的点击率预测能力。未来,随着技术的不断进步和数据的不断积累,我们有理由相信SDIM模型将在更多领域展现出其独特的价值和魅力。

发表评论
登录后可评论,请前往 登录 或 注册