当前位置：网站首页>【多任务模型】《Multi-Faceted Hierarchical Multi-Task Learning for a Large Number of Tasks with Multi-dimens

【多任务模型】《Multi-Faceted Hierarchical Multi-Task Learning for a Large Number of Tasks with Multi-dimens

2022-08-08 04:10:00 【chad_lee】

腾讯微视提出的多任务学习框架MFH。这篇文章主要是希望提升多任务学习中任务之间可迁移知识共享的效率。

在一些推荐场景中通常存在大量的隐式反馈。主流的推荐系统会使用一个MTL模型来预估这些隐式反馈，然后使用一个融合模型来融合这些预估值，得到用户整体的满意度。常用的隐式反馈包括完播、点赞、收藏、加购等。

MTL是一个通用学习框架，MTL用一个模型解决多个问题，因此MTL可以看作是一种“end to end”的迁移学习方法。（现学现迁）

MTL的两大问题：1、负迁移（多task比单task效果差）；2、跷跷板（只有一部分task效果好）

特别是task非常多的时候又有新的问题：一般一个MTL模型只能处理2～6个任务，对于10～20个任务一般需要2～3个MTL模型，所以当任务数量多起来的时候：1、task之间会有复杂的关系；2、每个task的样本数各不相同，所以简单的共享结构无法带来提升。

这篇文章提出MFH模型，致力于提高大量任务时MTL效率。

腾讯微视，用户操作有点赞、踩、关注、评论和分享等，用用户留在app的时长来衡量用户满意度。举一个简单多任务模型的例子，一个3task多任务模型：

Task1 回归任务：播放率预估： $y_{c m p l}=\frac{\text { watch time }}{\text { video length }}$
Task2 分类任务：完播率预估： $y_{\text {finish }}= \begin{cases}1, & \text { if watch time } \geq \text { video length } \\ 0, & \text { otherwise }\end{cases}$
Task3 分类任务：跳过率预估： $y_{s k i p}= \begin{cases}1, & \text { if watch time } \leq c \text { seconds } \\ 0, & \text { otherwise }\end{cases}$

按照用户的总观看时长把用户划分为新用户、低活用户和高活用户，前两者数据很少，所以会在所有task上都过拟合（样本太少）。整个模型参数被高活用户主导。

一些已有的解决方法是单独开发一个冷启动模型，但是缺点是：

一种解决思路是把用户群体再分为单独的任务，和上述的三个任务组合，得到九个任务：

在这里插入图片描述

这样理论上存在一种可能，对过拟合的局部进行定制化的照顾。

定义了一个MTL switcher的概念：接受一个输入，输出多个隐藏层的结构。输入可以是特征、embedding、hidden states等，输出是hidden states。Share Bottom、MMOE、PLE都可以看作是Switcher。

在这里插入图片描述

以往的MTL都是在微观级别上创新Switcher的结构，以提高合作学习的效率，这一定程度上是因为他们的场景task少，negative transfer没这么严重。

随着task任务的增长，task之间宏观的信息共享就比较重要，如下图，不管用什么结构的Switcher，它都是一个flat branching structure：

在这里插入图片描述

三种baseline模型来验证微观switcher的效果和宏观多任务的效果。

在这里插入图片描述

首先在模型a上，SB、MMOE、PLE的性能是递增的，说明微观Switcher结构有用，但是在新用户和低活用户上效果还是很差，说明冷启动问题已经超过了微观Switche的能力范围。
针对cmpl任务拆分成三个任务，和针对所有任务拆分成9个任务，存在了对新用户和低活用户单独优化的可能性。
虽然在新用户和低活用户上效果是递增的，但是改进有限，局部过拟合现象依然显著，这是因为flat的结构限制。

因此提出多层次的书结构MFH来解决这个任务。