大规模推荐系统的特点是依赖于高基数、异构特征,并需要每天处理数十亿个用户操作。尽管在数千个特征上使用了大量的数据进行训练,但工业界中大多数深度学习推荐模型(DLRMs)在计算方面都无法扩展。
受到语言和视觉领域中Transformer的成功启发,我们重新审视了推荐系统的基本设计选择。我们在生成建模框架中将推荐问题重新定义为序列传导任务(“生成式推荐”),并提出了一种新的架构HSTU,专为高基数、非平稳流式推荐数据设计。
HSTU在合成和公共数据集上的NDCG性能比基准提高了高达65.8%,而在8192长度序列上比基于FlashAttention2的Transformer快5.3倍至15.2倍。基于HSTU的生成式推荐器,具有1.5万亿个参数,在在线A / B测试中提高了12.4%的指标,并已部署在拥有数十亿用户的大型互联网平台的多个表面上。更重要的是,生成式推荐器的模型质量在三个数量级的训练计算中经验性地呈现出幂律规模,达到了GPT-3/LLaMa-2规模,这减少了未来模型开发所需的碳足迹,进一步为推荐领域的第一批基础模型铺平了道路。