当前位置:网站首页>SIGIR 2022 | 从Prompt的角度考量强化学习推荐系统
SIGIR 2022 | 从Prompt的角度考量强化学习推荐系统
2022-04-21 16:19:00 【匿名 2022-04-21 16:01】

Next item 推荐系统是现代在线网络服务的核心组件之一,根植于应用程序中,例如音乐、视频和电子商务网站,帮助用户(user)导航和查找新内容。一般来说,系统被建模为序列预测任务,通常在递归神经网络或其他生成序列模型之上实现。其目的在于回答问题:在知晓用户过去的交互情况下,用户感兴趣的下一个物品 (item) 是什么。
强化学习是训练 Agent 在给定观察到的环境状态的情况下采取相应行动,以最大化预定义的奖励。现有的基于价值的 RL 算法通常涉及策略评估和策略改进,分别如图 1a 和图 1b 所示。因为强化学习自然符合推荐系统的优化目标:最大化一个交互会话的总体收益,RL 中灵活的奖励设置可以灵活地定制推荐目标。因此,在推荐中使用 RL 已成为一个新兴话题。

图1. 策略评估算法、策略改进算法和PRL范式
然而,发展基于强化学习的推荐方法并非易事。具体来说,当前 RL 的学习范式通过与环境交互然后观察奖励来训练主体(Agent)。这个过程需要 Agent 本身进行大量的交互。传统 RL 的关键是通过大量在线探索试错来训练推荐引擎,但在推荐系统中,我们无法进行大量在线试错,糟糕的推荐结果会影响用户体验。因此,需要通过在不同推荐策略下收集的历史隐性反馈进行推荐引擎的离线训练。然而,历史数据不是由 Agent 本身产生的,而是来自不同甚至未知的行为策略。策略评估的期望估计很容易受到分布差异的影响,即所谓的离线训练挑战。
针对离线训练的场景,我们提出了一种新的学习范式,基于提示的强化学习 (Prompt-Based Reinforcement Learning, PRL)。传统的 RL 算法试图将“状态-行为”输入对映射到预期的奖励,而 PRL 直接从“状态-奖励”输入中推断行为,如图 1c 所示。
简而言之,通过简单的监督学习,根据先前的交互和观察到的奖励价值训练 Agent 来预测推荐的物品。在部署时,历史(训练)数据充当知识库,“状态-奖励”对充当提示。因而 Agent 将用来解决问题:在给定的先前交互与提示的价值奖励条件下,应该推荐哪种物品?我们在四种推荐模型上实例化 PRL,并在两个电子商务数据集上进行实验,实验结果表明了我们方法的有效性。
我们工作的贡献总结如下:
1. 对于基于强化学习的 Next item 推荐系统的离线训练,我们提出了 PRL。我们建议使用“状态-奖励”对作为提示,通过查询历史隐式反馈数据知识库来推断行为。
2. 我们提出使用一个有监督的自注意力模块来学习和存储“状态-奖励”对的输入和行为的输出之间的信号。
3. 我们在四种推荐模型上实例化 PRL,并在两个真实世界的电子商务数据集上进行了实验。实验结果表明,推荐性能有了普遍的提高。
版权声明
本文为[匿名 2022-04-21 16:01]所创,转载请带上原文链接,感谢
https://hub.baai.ac.cn/views/16576
边栏推荐
- 建木持续集成平台v2.3.0发布
- Yunna: is the asset management system of large medical equipment expensive? Main contents of hospital asset management
- 2022年重庆最新建筑施工焊工(建筑特种作业)模拟题库及答案
- SQL--数据库的操作(DDL,DML,DQL)+使用命令查看当前数据库的存储位置(数据库版本查询)
- 长安深蓝首款产品 可纯电、增程、氢电,零百加速5.9s
- Free interface for national inquiry of water and electricity fees (III)
- 首届船海数据智能应用创新大赛赛事公告
- Burp 一个简易的tp5-rce被动扫描插件
- 数据处理输入框部分
- 汇编语言程序设计:模块化程序设计 输入字符类型统计的设计与调试
猜你喜欢

汇编语言程序设计:模块化程序设计 输入字符类型统计的设计与调试

"Checking and remedying deficiencies", sorting out the core concepts of DDD

php如何把负数转为正整数

Callback function

昊天旭辉签约长扬科技,携手共建工业互联网安全新生态

Shihuituan applet app automatically logs in AES data decryption learning record

云呐:资产密集型企业固定资产管理系统的基本功能特点

New media people must have 10 efficiency tools and artifact collection

iNFTnews丨模因、神话和NFT是如何建立文化认同的?

SQL--数据库的操作(DDL,DML,DQL)+使用命令查看当前数据库的存储位置(数据库版本查询)
随机推荐
云呐:机房资产管理系统web版,设备资产信息管理的应用
RAM运行内存是什么
【2023校招刷題】華為性格測評(綜合測評)戰略指南
Infrastructure knowledge: DNS command: dig, host
Yunna: basic functional features of fixed asset management system in asset intensive enterprises
Free interface for national inquiry of water and electricity fees (I)
在线词典网站
Invalid bound statement (not found)问题解决
HMC基金会Big Ma机器人同步代币HMC(希曼)将上线 PancakeSWAP
Callback function
Solution to the problem of file damage caused by forced shutdown and power failure during nodejs FS readfilesync
What are the mainstream mobile phone SOC chips at present?
Transformer model technology long article
uni-app/5+App开发淘客商城时如何拉起淘宝/京东/拼多多
Function stack frame creation and destruction (understand)
Campus talking notes (5)
[2023 questions d'appel d'offres] Huawei Personality Evaluation (Comprehensive Evaluation) Strategic Guide
云呐:资产密集型企业固定资产管理系统的基本功能特点
Yunna: computer room asset management system web version, application of equipment asset information management
物联网的历史演进、应用和安全要求