当前位置:网站首页>【多任务模型】《Multi-Faceted Hierarchical Multi-Task Learning for a Large Number of Tasks with Multi-dimens
【多任务模型】《Multi-Faceted Hierarchical Multi-Task Learning for a Large Number of Tasks with Multi-dimens
2022-08-08 04:10:00 【chad_lee】
《Multi-Faceted Hierarchical Multi-Task Learning for a Large Number of Tasks with Multi-dimensional Relations》
腾讯微视提出的多任务学习框架MFH。这篇文章主要是希望提升多任务学习中任务之间 可迁移知识 共享的效率。
背景
在一些推荐场景中通常存在大量的隐式反馈。主流的推荐系统会使用一个MTL模型来预估这些隐式反馈,然后使用一个融合模型来融合这些预估值,得到用户整体的满意度。常用的隐式反馈包括完播、点赞、收藏、加购等。
MTL是一个通用学习框架,MTL用一个模型解决多个问题,因此MTL可以看作是一种“end to end”的迁移学习方法。(现学现迁)
问题
MTL的两大问题:1、负迁移(多task比单task效果差);2、跷跷板(只有一部分task效果好)
特别是task非常多的时候又有新的问题:一般一个MTL模型只能处理2~6个任务,对于10~20个任务一般需要2~3个MTL模型,所以当任务数量多起来的时候:1、task之间会有复杂的关系;2、每个task的样本数各不相同,所以简单的共享结构无法带来提升。
这篇文章提出MFH模型,致力于提高大量任务时MTL效率。
数据场景
腾讯微视,用户操作有点赞、踩、关注、评论和分享等,用用户留在app的时长来衡量用户满意度。举一个简单多任务模型的例子,一个3task多任务模型:
- Task1 回归任务:播放率预估: y c m p l = watch time video length y_{c m p l}=\frac{\text { watch time }}{\text { video length }} ycmpl= video length watch time
- Task2 分类任务:完播率预估: y finish = { 1 , if watch time ≥ video length 0 , otherwise y_{\text {finish }}= \begin{cases}1, & \text { if watch time } \geq \text { video length } \\ 0, & \text { otherwise }\end{cases} yfinish ={ 1,0, if watch time ≥ video length otherwise
- Task3 分类任务:跳过率预估: y s k i p = { 1 , if watch time ≤ c seconds 0 , otherwise y_{s k i p}= \begin{cases}1, & \text { if watch time } \leq c \text { seconds } \\ 0, & \text { otherwise }\end{cases} yskip={ 1,0, if watch time ≤c seconds otherwise
冷启动中的局部过拟合
按照用户的总观看时长把用户划分为新用户、低活用户和高活用户,前两者数据很少,所以会在所有task上都过拟合(样本太少)。整个模型参数被高活用户主导。
一些已有的解决方法是单独开发一个冷启动模型,但是缺点是:
- 低活用户的训练样本还是很少
- 额外的模型会带来更多的参数
- 低活用户模型无法利用的高活用户中可以共享的信息
一种解决思路是把用户群体再分为单独的任务,和上述的三个任务组合,得到九个任务:

这样理论上存在一种可能,对过拟合的局部进行定制化的照顾。
MTL中微观与宏观视角的合作学习
微观级别的合作学习
定义了一个MTL switcher的概念:接受一个输入,输出多个隐藏层的结构。输入可以是特征、embedding、hidden states等,输出是hidden states。Share Bottom、MMOE、PLE都可以看作是Switcher。

以往的MTL都是在微观级别上创新Switcher的结构,以提高合作学习的效率,这一定程度上是因为他们的场景task少,negative transfer没这么严重。
宏观级别的合作学习
随着task任务的增长,task之间宏观的信息共享就比较重要,如下图,不管用什么结构的Switcher,它都是一个flat branching structure:

实验验证
三种baseline模型来验证微观switcher的效果和宏观多任务的效果。

- 首先在模型a上,SB、MMOE、PLE的性能是递增的,说明微观Switcher结构有用,但是在新用户和低活用户上效果还是很差,说明冷启动问题已经超过了微观Switche的能力范围。
- 针对cmpl任务拆分成三个任务,和针对所有任务拆分成9个任务,存在了对新用户和低活用户单独优化的可能性。
- 虽然在新用户和低活用户上效果是递增的,但是改进有限,局部过拟合现象依然显著,这是因为flat的结构限制。
因此提出多层次的书结构MFH来解决这个任务。
MFH框架
层次化MTL(H-MTL)
9 task 模型,两级的树状结构。
- Level 0:基于输入特征,使用Switcher学习三个用户行为的任务。
- Level 1: 在当前行为的基础上,再使用Switcher学习用户类型的任务。
- 与flat相比,每一层都是一个维度。
MFH
H-MTL又有个问题,不够灵活,需要自行确定层级关系。
并且不断的层级分化,最后每个head的训练样本非常少,使得训练困难,并且head之间的共性也没有被利用。

类似FM的思想,将多棵H-MTL交叉,每棵树是一个强语义表示,像FM一样对每棵树进行“特征交叉”,自动的构造多个任务的组合,从而提高了学习的效率和质量。
类似的,可以扩展到任何维度,实现任何任务的组合。
实验结果
100亿样本,9个label,三组用户。
特别的还设计了level 0用SB、level 1用PLE、level2用CGC

边栏推荐
- A line of code counts the number of occurrences of the specified string in the text
- egg-session 将数据存储到redis
- Implementing Express middleware principles
- Voice identification software
- 【Template Engine】velocity
- egg-Nodemailer-qq邮箱验证码开发配置
- An egg - Nodemailer - qq email verification code development configuration
- Qt 日志模块的个性化使用
- egg-阿里云短信配置
- ToDesk企业版上新 | 十大新功能,让企业远控更安全、更便捷、更流畅
猜你喜欢

egg-阿里云短信配置

Building a High-Performance Platform on AWS Using Presto and Alluxio to Support Real-Time Gaming Services

XDR technology

机器学习笔记:学习率预热 warmup

Monitoring tool Prometheus and project summary, 220805,,

07查询表达式 及 page分页、order 排序《ThinkPHP6 入门到电商实战》

2022-08-07 mysql/stonedb慢SQL-子查询-半连接

Machine Learning Notes: Learning Rate Warmup

Basic introduction to NLP

06 tp6 的数据更新(改)及删除 《ThinkPHP6 入门到电商实战》
随机推荐
拒绝“内卷”跃迁软件测试最大门槛,我是如何从月薪8K到15K的?
egg-session 将数据存储到redis
VSCode opens some records of C (embedded) projects
y90.第六章 微服务、服务网格及Envoy实战 -- 服务网格基础(一)
NorFlash的存储原理
产品经理必备的19类工具网站
egg-阿里云短信配置
vulnhub-DC-5靶机渗透记录
leetcode 70.爬楼梯 动态规划
Machine Learning Notes: Learning Rate Warmup
Add OnMouseMove MFC dialog box
The research project of the Institute of Metal Research of the Chinese Academy of Sciences has been certified by Huawei, helping to develop a new paradigm in materials science!
vulnhub-DC-5 target drone penetration record
Knowledge of DisplayPort-DP interface
【模板引擎】velocity
[Code Analysis] Graph small sample anomaly detection method: GDN: Few-shot Network Anomaly Detection via Cross-network Meta-learning
一文带你彻底了解synchronized 和 Lock
JS 怎么使用十六进制保存100位状态的问题
MindFusion.WPF Pack 2022.R1
Bluetooth att gatt agreement