当前位置:网站首页>Making Pre-trained Language Models Better Few-Shot Learners
Making Pre-trained Language Models Better Few-Shot Learners
2022-08-10 17:23:00 【hithithithithit】
目录
Abstract
使用自然语言prompt和task demonstrations作为额外信息插入到输入文本中很好的利用了GPT-3模型中的知识。于是,本文提出少样本在小模型下的应用。我们的方法包括了基于prompt的微调,同时使用了自动生成的prompt;针对任务demonstration,我们还重新定义了一种动态和有选择地方法将其融入到上下文中。
Introduction
虽然GPT-3只使用提示和任务示例就可以在无需更新权重地情况下表现得很好,但是GPT-3模型很大,无法应用于现实中的场景进行微调。所以本文提出了在BERT等小模型上,仅使用少量的样本去对模型进行微调。作者从GPT-3中得到灵感,使用prompt和in-context同时对输入和输出进行优化,他们使用了暴力搜索去获得一些性能较好的回答词,并且使用T5去生成了提示模板,他们说这种方法很cheap?使用T5单独生成一个模板还cheap?由于输入长度的限制,他们对每个类找出一个好的demonstration。感觉没什么新意啊?GPT-3真就被抄 麻了!!!
Methods
label words
Gao et al. (2021)使用了未进行微调的预训练模型,得到最优的K个候选词,将其作为剪枝后的回答词空间。然后他们在此空间上进一步对模型在训练集上进行微调进行搜索得到n个较好的回答词。最后再根据验证集的结果得到一个最优的回答词。
Prompt template
Gao et al. (2021)把prompt模板生成的问题视为一个文本生成的任务,使用T5(Raffel et al, 2020)作为生成器模型。他们将原始输入和输出拼接起来作为T5(Raffel et al, 2020)模型的输入,然后他们使用了束搜索生成多个提示模板,经过在开发集上进行微调得到一个最好性能的提示模板,此外他们还使用了束搜索得到的提示模板用于集成模型的学习。
Demonstrations
不想看了,没意思,就是通过对每个类采样一个示例插入到输入中,参考GPT-3。
Experiments
倒是做了不少的实验,也算是还行吧,对这些数据集不太了解,自己看吧
边栏推荐
猜你喜欢
随机推荐
忍不住 - 发个新帖子【为什么把红圈的功能入口隐藏?需要移动到鼠标到位置驻停才显示?】- 请投票
「软件架构」10种常见的软件架构模式
shopee API 接入说明
R语言patchwork包将多个可视化结果组合起来、plot_annotation函数以及tag_level参数将组合图用大写字母进行顺序编码、为组合图的标签添加自定义后缀信息(suffix)
软链接、硬链接——ln -s 使用
【随笔】自己看的... 保存
【燃】是时候展现真正的实力了!一文看懂2022华为开发者大赛技术亮点
skywalking漏洞学习
CAS客户端对接
华为云连续5年保持中国政务云基础设施市场份额第一…
node环境变量配置,npm环境变量配置
不止跑路,拯救误操作rm -rf /*的小伙儿
在 Istio 服务网格内连接外部 MySQL 数据库
PS2手柄通讯协议解析—附资料和源码「建议收藏」
中国芯片的营收首破万亿,优势凸显的成熟工艺产能将称霸全球
bp神经网络反向传播原理,BP神经网络反向传播
神经网络全连接层的作用,各种神经网络的优缺点
Talking about Taishan crowdfunding system development technical description and dapp chain crowdfunding system development analysis
Colocate Join :ClickHouse的一种高性能分布式join查询模型
轮询以及webSocket与socket.io原理