浅谈个性化推荐系统中的非采样学习

2020年2月17日 476点热度 0人点赞 0条评论

©PaperWeekly · 作者｜陈冲、张敏

单位｜清华大学人工智能实验室信息检索组

研究方向｜推荐系统

引言

随着互联网技术和产业的迅速发展，推荐系统（Recommender System）成为网络应用中不可缺少的重要组成部分，是当前解决信息过载问题的最有效的方法之一，因此也受到了学界和工业界的广泛关注。

近年来，深度学习技术在许多领域展现出非凡的应用效果。然而，现有的将深度学习应用到推荐系统任务的工作主要集中在探索和引入不同的神经网络框架，在模型学习算法方面的研究相对较少。

为了优化模型，现有的工作往往使用负采样策略（Negative Sampling）进行训练。虽然负采样方便并且易于实现，但是许多最近的研究表明负采样策略的鲁棒性较差，可能会忽略掉重要的训练样例从而导致模型无法收敛到最优的状态。

在近两年，清华大学信息检索课题组（THUIR）首次探索了将非采样策略（Non-Sampling, Whole-data based Learning）应用到基于神经网络的推荐系统中。

通过严格的数学推理，我们设计了一系列高效的非采样学习算法，使得整体数据中学习的时间复杂度在理论数量级上有所降低。基于所设计的高效非采样算法框架，我们分别设计了不同应用场景下的神经网络推荐模型，并在多个现实数据集上相比于已有 state-of-the-art 方法在训练时间和模型表现上均取得了非常显著的效果，包括：

1. 基础场景（只使用用户和商品 ID 信息）：推荐效果提升 5% 以上，训练时间快 30 倍以上（TOIS 录用）；

2. 基于社交关系的推荐系统：推荐效果提升 4% 以上，训练时间快 7 倍以上（SIGIR 2019 录用）；

3. 基于多行为数据的推荐系统：推荐效果提升 40% 以上，训练时间快 10 倍以上（AAAI 2020 录用）；

4. 包含特征（feature）和上下文（context）的推荐系统：推荐效果提升 9% 以上，训练时间快 5 倍以上（WWW 2020 录用）。

接下来我们简要介绍相关工作的主要内容。

负采样策略 v.s. 非采样策略

推荐系统中经常用到的数据是隐式反馈数据（Implicit Feedback Data），如浏览历史，点击日志等。这些数据往往只有正反馈而没有负反馈，并且数据是高度稀疏的（相比于用户点击过的产品，没有被点击过的产品的数量非常多）。在推荐系统中使用隐式反馈数据，有两种常见的学习方法：1）负采样策略，2）非采样策略。

负采样策略是从所有用户未标记的样例中抽取一部分作为负例，而非采样策略则是将所有用户未标记的样例作为负例。两种方法都有各自的优点和缺点：

以上两种策略在传统的推荐算法中均有广泛应用，如 BPR 使用负采样策略训练而 WMF 使用非采样策略训练。由于传统的非采样策略复杂度较高，现有的基于深度学习的工作通常采用负采样进行训练来保证效率，但是可能会降低模型的表现效果。

高效非采样学习算法

在隐式数据中，用户（user）和商品（item）的交互数据定义如下：

传统的非采样学习使用加权回归的 loss function：

其中 B 代表一个 batch 的 user，V 代表全部的 item，d 表示 embedding 的大小，

表示该样例的权重。可以看到，训练复杂度是

，非常大并且在基于神经网络的推荐模型中往往是不可接受的。

因此，我们对该 loss 进行推导，我们首先有如下结论：

定理 1：对于一个预测函数如下的泛化矩阵分解模型（其中

和

表示用户和商品向量，⊙ 表示向量点积）。

Loss (1) 的梯度等价于下列 loss：

证明过程如下（详细证明请参考论文）：

将

带入，并且进行合并操作：

合并之后，再将

展开代入得到：

通过上述推导，我们有：

非采样训练复杂度如右上所示，由于在实际数据中正反馈数量

，因此新推导的 loss 的复杂度从理论上降低了一个数量级。

高效非采样训练策略的应用

基于所设计的高效非采样训练策略，我们提出了若干个神经网络模型，简单介绍如下。

基础场景（只使用用户和商品ID信息）

首先是在基础的推荐场景下，即只使用用户和商品的 ID 信息时，我们提出了非采样的高效神经网络矩阵分解框架（Efficient Neural Matrix Factorization, ENMF）。模型框架如下图所示：

ENMF 是一个非常基础的一层矩阵分解框架，模型结构与 Neural Collaborative Filtering (NCF) 类似但是有两个主要区别：

1. 与 NCF 每次输入 user-item pair (u,v) 不同，ENM 的输入是用户和他/她所有的交互商品（user-based），或是商品和它所有的交互用户（item-based）。

2. 与现有的通常基于负采样的神经网络模型不同，我们采用所设计的高效非抽样算法对模型进行训练，因为考虑了所有的训练样例，这样的方式更能够更充分的对模型进行训练。

数据集

我们对比了多个 state-of-the-art 推荐模型，包括传统推荐模型 BPR (UAI’09)，WMF (ICDM’08) 和 ExpoMF (WWW’16)，以及神经网络模型 GMF (WWW’17)，NCF (WWW’17) 和 ConvNCF (IJCAI’18)。各方法之间的比较如下：

为了验证 ENMF 的效果，我们在 3 个公开数据集上进行了实验，数据集如下所示：

对比方法

模型表现

我们的 ENMF 与对比方法的表现结果展示在下表中，从表中我们可以观察到几个重要的结论：

1. 使用非采样策略的方法往往表现好于负采样的方法，在传统方法中，WMF，ExpoMF 的表现均优于 BPR，在神经网络方法中，我们的 ENMF 显著优于 GMF，NCF 以及基于 CNN 的 ConvNCF。

2. 我们的 ENMF 取得了最好的效果，并且显著优于所有对比方法。ENMF 是一个浅的神经网络方法，参数量和模型复杂度均少于 ConvNCF，但是模型表现却更好，这显示了使用非采样学习算法带来的训练优势。

训练效率

我们也在相同的机器上对比了 ENMF 和神经网络推荐算法的训练效率（Intel Xeon 8-Core CPU of 2.4 GHz and single NVIDIA GeForce GTX TITAN X GPU）。各个模型所需训练时间如下表所示：

从表中可以看到，我们的方法 ENMF 所需要的训练时间比对比方法少了几个数量级。比如，在 Epinion 数据集上，以往方法需要超过 30 小时的训练时间，而我们的方法分别只需要 27 分钟，70 分钟，以及 53 分钟达到收敛，快了大约 30 倍。

在现实应用场景中，训练效率也是一个重要的考虑因素。我们的 ENMF 在这方面与已有方法相比展现了非常显著的优势，也验证了我们新提出的非采样学习方法的高效性。

该部分工作发表在 CCF A 类期刊：

Chong Chen, Min Zhang, Yongfeng Zhang, Yiqun Liu and Shaoping Ma. Efficient Neural Matrix Factorization without Sampling for Recommendation. ACM Transactions on Information Systems. (TOIS Vol. 38, No. 2, Article 14)

基于社交关系的推荐系统场景

用户的社交信息可以用来帮助用户偏好建模，提高推荐结果的准确性。在基于社交关系的推荐场景下，同样可以使用非采样的训练策略。在这部分工作中，我们提出了一个应用于社交推荐的高效非抽样自适应迁移网络（Efficient Adaptive Transfer Neural Network, EATNN）。模型框架如下图所示：

在已有的迁移学习方法中，通常采用静态传输方案来共享用户在商品和社交领域之间的共同偏好。我们认为这样是不符合实际场景的，因此，我们通过进入注意力机制，自动为每个用户分配一个个性化的迁移方案。我们同时扩展了高效非采样学习算法，使其可以支持多任务学习。模型具体结构如下：

对于商品推荐任务：

对于社交发现任务：

联合学习（Joint Learning）：

数据集

为了验证所提出的 EATNN 的效果，我们在 3 个公开数据集上进行了实验，数据集如下所示：

对比方法

我们对比了多个 state-of-the-art 推荐模型，包括 BPR (UAI’09)，ExpoMF(WWW’16)，NCF (WWW’17)，SBPR (CIKM’14)，TranSIV (CIKM’17)，以及 SAMN (WSDM’19)。各方法之间的比较如下：

模型表现

我们的 EATNN 与对比方法的表现结果展示在下表中，从表中可以观察到, 所提出的 EATNN 模型显著的优于所有的对比方法。我们认为有两点原因：

1. EATNN 引入注意力机制来自适应的迁移用户在商品和社交领域之间的偏好，这更符合实际场景并且可以让社交信息得到更精准的利用。

2. 我们使用非采样学习策略来同时对商品推荐以及社交发现任务进行训练，相比于基于负采样的方法，非采样的覆盖面更广，使得模型能够收敛到一个更加优秀的状态。

训练效率

我们也在相同的机器上对比了 EATNN 和基于社交信息的推荐算法的训练效率（Intel Xeon 8-Core CPU of 2.4 GHz and single NVIDIA GeForce GTX TITAN X GPU）。各个模型所需训练时间如下表所示：

从表中可以看到，我们的方法 EATNN 所需要的训练时间显著少于对比方法。比如，在最大的 Flixster 数据集上，同样是神经网络方法，SAMN 需要 8 天才能训练完毕，而我们的 EATNN 只需要 27 小时。对于其他两个数据集，EATNN 在效率上的提升同样引人注目。

该部分工作发表在 CCF A 类会议：

Chong Chen, Min Zhang, Chenyang Wang, Weizhi Ma, Minming Li, Yiqun Liu and Shaoping Ma. An Efficient Adaptive Transfer Neural Network for Social-aware Recommendation. The 42th International ACM SIGIR Conference on Research and Development in Information Retrieval. (SIGIR 2019)

基于多行为数据的推荐系统场景

在许多实际的网络场景中，用户可以在平台上与商品有多种交互信息。例如，在电商平台上用户可以浏览商品（View），加入购物车（Add-to-cart），以及直接购买（Purchase）。

在许多以往的工作中，这些用户的多行为数据没有被很好的利用到。大多数现有方法仅利用一种主要类型的用户反馈，如购买。在这项工作中，我们提出了一个新的非采样学习模型，称为高效异构协同过滤（EHCF）。它不仅可以对细粒度的用户—商品关系进行建模，而且可以很好地从整个异构数据（包括所有未标记的数据）中学习模型参数，同时保持很低的时间复杂度。

我们提出的 EHCF 主要基于以下两个 motivation：

1. 为了利用多行为数据，已有的基于负采样方法需要对每一种行为进行采样，这会产生一个非常大的随机性（K 倍于单行为数据），并且不利于多任务学习。针对上述问题，我们设计了基于非采样的多任务学习框架来全面地利用用户的多行为数据。

2. 用户的多种行为之间不是互相独立的，存在着一定的迁移关系。如上图中虚线所示，用户的购买行为通常发生在用户观看或者加入购物车之后。考虑行为之间迁移关系可以更精细的利用多行为数据。

所设计的 EHCF 模型如下图所示：

对第 k 种行为的预测函数：

从行为 t 到 k 的转移函数：

行为 k 的预测向量定义如下：

我们同样使用所设计的高效非抽样算法对每种行为进行优化：

多任务学习：

数据集

为了验证所提出的 EHCF 的效果，我们在 3 个公开数据集上进行了实验，数据集如下所示：

对比方法

我们对比了多个 state-of-the-art 推荐模型，包括单行为模型 BPR (UAI’09)，ExpoMF (WWW’16)，NCF (WWW’17) 以及多行为模型 CMF (WWW’15)，MC-BPR (RecSys’16)，以及 NMTR (ICDE’19, TKDE’20)。

模型表现

我们的 EHCF 与对比方法的表现结果展示在上表中，从表中可以观察到, 所提出的 EHCF 模型显著的优于所有的对比方法。相比于最新提出的同样利用多行为数据的神经网络模型 NMTR，我们的 EHCF 在 Beibei 和 Taobao 数据集上的相对提升达到了惊人的 47.5% 以及 57.1%。

我们认为原因主要是因为 NMTR 是一个基于负采样的模型，虽然负采样在单行为数据中被广泛的应用，但是其并不适合用来学习多行为数据，由于需要对每一种行为进行采样，负采样策略所产生的随机性是成倍增加的，较大的随机性会忽视掉许多有用的训练样例，使得模型没办法得到充足的训练。

NMTR 是一个基于 NCF 的方法，当使用了多行为数据时，它相比于 NCF 在 Beibei 和 Taobao 数据集上分别提升了 34.6% 和 46.9%（与该作者报告基本一致）。而我们的 EHCF 在使用了多行为数据时，相比于单行为的 EHCF-sin 在这两个数据集上分别提升了 79.4% 和 108.8%。表中的结果显示非采样学习策略对于多行为数据的利用是非常有效的。

训练效率

我们也在相同的机器上对比了 EHCF 和对比算法的训练效率（Intel Xeon 8-Core CPU of 2.4 GHz and single NVIDIA GeForce GTX TITAN X GPU）。各个模型所需训练时间如下表所示：

从表中可以看到，我们的方法 EHCF 所需要的训练时间显著少于对比方法。比如，在 Taobao 数据集上，同样是基于神经网络的多行为推荐模型，NMTR 需要 600 分钟（10 小时）才能训练完毕，而 EHCF 只需要 54 分钟，比 NMTR 快了 10 倍。在 Beibei 数据集上，EHCF 的训练时间比 NMTR 快了超过 20 倍。

该部分工作发表在 CCF A 类会议：

Chong Chen, Min Zhang, Weizhi Ma, Yongfeng Zhang, Yiqun Liu and Shaoping Ma. Efficient Heterogeneous Collaborative Filtering without Negative Sampling for Recommendation. The 44th AAAI Conference on Artificial Intelligence. (AAAI 2020).

包含特征（feature）和上下文（context）的推荐系统场景

为了提供更准确的推荐结果，考虑用户和商品的特征以及上下文是非常重要的。考虑上下文的推荐系统（Context-aware Recommendation）正是这样一个任务。

分解机模型（Factorization Machines，FM）是一类很好的考虑上下文的推荐方法。然而，现有的对于 FM 的研究主要集中于使用不同的神经网络结构来建模高阶（high-order）关系，并且这些工作往往致力于解决评分预测（而不是 Top-N 推荐）任务。

虽然也有一些研究者结合负采样策略和 FM 来提供推荐结果，但由于负采样的不稳定性（容易忽视重要的训练样例导致训练不足），我们认为现有的 FM 方法对于考虑上下文的 Top-N 推荐系统仍然是不足够的。

在这部分工作中，我们提出从全部数据中学习 FM 来进行 Top-N 推荐，并设计了一个高效的非采样分解机框架（Efficient Non-Sampling Factorization Machines, ENSFM）。通过严格的数学推导，ENSFM 不仅在两类常用的推荐方法——分解机（FM）和矩阵分解（MF）之间建造了一个桥梁，并且可以高效的从整体数据中学习 FM 参数。

所设计的 ENSFM 框架如下所示：

ENSFM 的预测函数是一个泛化的 FM 函数：

我们首先给出一个结论：

定理 2：一个泛化的 FM 预测函数可以重构成一个矩阵分解的形式：

其中只跟 u 的上下文相关，只跟 v 的上下文相关。

证明（详细证明请参考论文）：

首先对 f(x) 展开，分成只跟用户 u 相关的，只跟商品 v 相关的，以及跟用户和商品都相关的部分：

第二步，我们构建 3 个辅助向量如下：

得证。

根据定理 1 和定理 2，我们可以得到 ENSFM 的高效非抽样 loss：

数据集

为了验证所提出的 ENSFM 的效果，我们在 3 个公开数据集上进行了实验，数据集如下所示：

数据集中 Frappe 和 Last.fm 和 CFM (IJCAI’19) 论文中使用的完全一致。

对比方法

我们对比了多个 state-of-the-art 推荐模型，包括 FM (ICDM’10)，DeepFM (IJCAI’ 17)，NFM (SIGIR’17)，ONCF (IJCAI’18)，CFM (IJCAI’19) 以及我们之前的 ENMF (TOIS’20)。

模型表现

实验结果如上表所示，首先，我们的 ENSFM 效果显著优于所有的对比方法。与各种 FM 方法，包括最近提出的基于 CNN 的 CFM 相比，ENSFM 在三个数据集上的相对提升分别超过了 9.15%，48.05% 以及 20.22%。

ENSFM 是一个只有一层预测层的浅 FM 模型，跟 DeepFM, CFM 相比在复杂度和参数量上都更少，却在模型效果上表现显著的优势。这样的结果再一次验证了我们的观点：负采样策略并不足以使模型收敛到最优。与之相比，非采样学习对于优化 Top-N 推荐任务是非常有效的。

同时也可以看到，虽然深度学习的方法如 NFM, DeepFM, CFM 在使用同样的负采样训练时表现会优于 FM，所带来的提升相比于我们的 ENSFM 是相对较小的，这也显示了一个行之有效的学习方法有时候比更深更复杂的神经网络所带来的提升更加明显。

训练效率

我们也在相同的机器上对比了 ENSFM 和对比算法的训练效率（Intel Xeon 8-Core CPU of 2.4 GHz and single NVIDIA GeForce GTX TITAN X GPU）。各个模型所需训练时间如下表所示：

表中的实验结果显示，我们的 ENSFM 相比于现有的 FM 算法在训练效率上展现出巨大的优势。如在 Movielens 数据集上，已有的各种 FM 方法分别需要 5 小时，6 小时，9 小时和 3 天才能训好，而 ENSFM 只需要 7 分钟即可训练完毕，这比 NFM 快了 50 倍，以及比 CFM 快了 600 倍。这验证了我们新提出的非采样学习方法的高效性。

该部分工作发表在 CCF A 类会议：

Chong Chen, Min Zhang, Weizhi Ma, Yiqun Liu and Shaoping Ma. Efficient Non-Sampling Factorization Machines for Optimal Context-Aware Recommendation. The Web Conference 2020 (WWW 2020)

约束，能够作为辅助的监督信息，适用于多种基于匹配代价体的立体匹配方法。

总结

在本文中，我们讨论了在个性化推荐系统中的非采样学习策略。我们首先介绍了非采样学习策略的优势（覆盖面广，训练效果更好），随后针对传统非采样策略的劣势（效率低，复杂度高），提出了一系列新的高效算法，使得整体数据中学习的时间复杂度在理论数量级上有所降低。

基于所设计的高效非采样算法框架，我们分别设计了不同应用场景下的神经网络推荐模型，并在多个现实数据集上相比于已有 state-of-the-art 方法在训练时间和模型表现上均取得了非常显著的效果。

近年来，基于深度学习的推荐系统研究越来越多，但是大部分的工作集中于尝试各种新提出来的神经网络框架在推荐任务上的应用。

本文对我们最近在非采样推荐模型上的研究做了一些总结。所设计的高效非采样模型在推荐效果与训练效率上都显著优于现有的深度学习模型。我们的工作显示，非采样训练策略对于推荐系统有着非常明显的促进效果，所带来的提升甚至超过复杂先进的模型结构及更多的参数量。

未来，我们希望会有更多的研究人员从各个不同的角度对推荐系统进行更加深入的研究。欢迎感兴趣的同学老师们和我们一起进行交流。

作者介绍

陈冲，清华大学人工智能实验室信息检索组（THUIR）三年级博士生，本科毕业于清华大学计算机科学与技术系。研究方向包括基于深度学习的推荐系统，可解释推荐系统，以及高效快速的推荐系统。他在 WWW，SIGIR，WSDM，TOIS，AAAI 等发表了多篇学术论文。

Github:

https://github.com/THUIR

https://github.com/chenchongthu

主页：https://chenchongthu.github.io

邮箱：[email protected]

张敏，清华大学计算机科学与技术系长聘副教授，主要研究领域 Web 信息检索、个性化推荐以及用户建模。现任计算机系智能技术与系统实验室副主任，清华大学人工智能研究院智能信息获取中心副主任，同时担任 ACM SIGIR 执行委员会委员，ACM TOIS 期刊编委，WebConf 2020 的 Web 挖掘和内容分析领域主席等。曾任 SIGIR 2018 的短文主席，WSDM 2017 的程序委员会主席等。发表多篇论文，引用指数 H-index 36。她还与国际国内产业界开展深入合作，并拥有 12 项专利。