当前位置：网站首页>【冷启动】快手《POSO: Personalized Cold Start Modules for Large-scale Recommender Systems》

【冷启动】快手《POSO: Personalized Cold Start Modules for Large-scale Recommender Systems》

2022-08-08 04:10:00 【chad_lee】

《POSO: Personalized Cold Start Modules for Large-scale Recommender Systems》

快手针对冷启动的工作，已经落地。文章的思路非常好。

分析问题

任何ML模型的常用方法都是监督学习，不管是复杂还是简单的模型，本质是用模型去拟合数据的分布。但是如果有一类用户的数据在训练集中出现的很少，就很难学习出他们的分布，就是冷启动问题。先分析问题

行为数据稀疏

冷启动问题的特点是：1、新用户行为稀疏，训练数据少。2、新用户耐心差，对推荐结果敏感，模型试错机会少，因此数据更加稀疏。

已有的解决方案可以分为两类：1、元学习（先让模型到这些分布的附近）；2、利用其他特征生成id embedding，从而缓解冷启用户历史数据稀少的问题。

样本分布差异大、不均衡

虽然缓解了数据稀疏的问题，但是依然存在样本分布极度不均衡的问题。显然，冷启用户的特征分布和全量用户的特征分布差别很大，但是冷启动用户样本一般占全量样本5%以下，因此模型主要受正常用户的影响。

在这里插入图片描述

图a是新用户和普通用户的行为差异，每一项普通用户的值都被调整到0，新用户耐心差，观看时间少，点赞率偏高（新鲜）。

直观的做法是加入一个指引特征（new_user），用该给模型指引这个样本是否是冷启动样本，从而让模型自动学习到样本之间的偏差，但是有没有效果呢？

在这里插入图片描述

对于同一个样本，分别mask新用户特征，然后将mask前后模型每个task最后一层的hidden states取出来做差，可视化。可以看出new user特征几乎没有什么指引性，不会影响模型参数的分布。指引性强的是country这种特征。

这是因为new user样本稀疏导致的样本分布极度不均衡（长尾特征），因此模型不会去关注到这个特征。

POSO设计思路

之前已经提过，直观朴素的解决方法是用单独的模型学习这类分布，强迫模型关注到这个特征，POSO的核心思想也类似，即对每个用户学习对应的模型，不受其他用户样本的影响，做到完全基于用户自己的个性化。基于此思路，进行简化和近似等价，在基础的单个模型中引入个性化模块，使模型对每个用户在模型结构层面进行个性化响应，实现模型结构的个性化。

POSO的设计思路：

基础设计思路

POSO设计的出发点是对每个用户学习其模型：
$y^{u}=f^{u}\left(x^{u}\right)$
其中u表示用户，x为输入，y为输出， fu 则表示了这个用户对应的模型。这是一个完美的个性化推荐模型，但由于推荐场景用户量庞大，因此在落地层面不可行。

用户分群表征

沿着模型最初设计思路，对用户分群，每个用户群学习其对应模型，则可解决上述问题。单个用户可以看成是不同用户群的组合，比如一个用户可以看成是活跃用户和非活跃用户的组合（soft的人群划分策略）：
$\begin{gathered} y^{u}=\sum_{i=1}^{N} w_{i} f^{(i)}(x) \\ w_{i}=\left[g\left(x^{p c}\right)\right]_{i} \end{gathered}$
其中N表示用户群数量， wi 表示第i个用户群对应模型对用户u的权重， wi 通过gate网络计算得到， $s^{pc}$ 表示用户的个性化编码特征(Personalization Code)，如用户群属性、是否新用户之类的特征，这类特征在全局样本中分布不均衡。

当前模型利用

通过用户分群的方法，虽然实际落地可行，但依然需要学习N个模型，参数量随着用户群数量线性增长，因此利用gate对模型数量简化，仅使用当前模型即可。既然需要不同用户群模型，那就以当前模型为基础，通过加权得到某个用户群的模型，再进行加权得到某个用户的模型，两次加权可以通过一个gate网络合并。这种简化方式减少了模型数量，而且无需重新训练模型，直接在原有模型上改造。

经过gate简化后，当前模型的某一层的输出可以表示为：
$\hat{x}=C \sum_{i=1}^{N}\left[g\left(x^{p c}\right)\right]_{i} f^{(i)}(x) \tag{1}$
其中f表示业务当前所使用的模型， x 和 $\hat{x}$ 分别表示模型某层的输入和输出，C为修正因子，引入C的原因是gate $g ()$ 的求和没有归一化的约束，输出期望存在缩放偏移。

POSO实践

从POSO的朴素设计思路出发，经过一系列的简化和近似操作，可以通过在全连接层点乘的方式，实现了模型结构的个性化。这种方式使得模型在使用POSO思路时结构简单清洗，且各种模型结构均适用，也适用于模型中单个或多个模块，包括但不限于简单的全连接结构、multi-head attention结构、MMoE结构。

base model

在这里插入图片描述

POSO+MLP

全连接结构使用POSO时，公式1化简为全连接的每层输出和gate的输出按位相乘
在这里插入图片描述

POSO+MHA

在这里插入图片描述

Multi-head Attention用POSO时，化简方法：
$\hat{\mathrm{x}}=C \cdot \operatorname{softmax}\left(\frac{Q \cdot\left(G^{k}\left(\mathrm{x}^{\mathrm{pc}}\right) \odot K\right)^{\top}}{\sqrt{d^{h}}}\right) \sum_{i=1}^{N}\left[g\left(\mathrm{x}^{\mathrm{pc}}\right)\right]_{i} V^{(i)}$
原因是Query本身是高度个性化的了（包含用户特征）；对Value，由于直接决定了输出的质量，需要保持公式1的方法，保留个性化不做化简；对于Key，采用折中的方法。

POSO+MMOE

在这里插入图片描述

直接吧MMOE带入POSO的公式：
$\hat{x}^{t}=C \sum_{i=1}^{N}\left[g\left(x^{p c}\right)\right]_{i}\left(\sum_{j}^{N^{e}}\left[g^{t}(x)\right]_{j} e^{(j)}(x)\right)$
i、j、t 分别代表personalized gates, experts and tasks。由于新老用户的gate是乘在后面的求和整体上的，这个式子相当于每个expert对新老用户是无感知的，并不区分新老用户。

首先松弛一下这个规则，让专家感知新老用户，这样 $g_i$ 可以进入后面的求和，但是要带上下标：
$\hat{\mathrm{x}}^{t}=C \sum_{i=1}^{N} \sum_{j=1}^{N^{e}}\left[g\left(\mathrm{x}^{\mathrm{pc}}\right)\right]_{i j}\left[g^{t}(\mathrm{x})\right]_{i j} e^{(i j)}(\mathrm{x})$
为了计算效率，又可以进一步化简为上图所示的计算方法。