当前位置:网站首页>Making Pre-trained Language Models Better Few-Shot Learners
Making Pre-trained Language Models Better Few-Shot Learners
2022-08-10 17:23:00 【hithithithithit】
目录
Abstract
使用自然语言prompt和task demonstrations作为额外信息插入到输入文本中很好的利用了GPT-3模型中的知识。于是,本文提出少样本在小模型下的应用。我们的方法包括了基于prompt的微调,同时使用了自动生成的prompt;针对任务demonstration,我们还重新定义了一种动态和有选择地方法将其融入到上下文中。
Introduction
虽然GPT-3只使用提示和任务示例就可以在无需更新权重地情况下表现得很好,但是GPT-3模型很大,无法应用于现实中的场景进行微调。所以本文提出了在BERT等小模型上,仅使用少量的样本去对模型进行微调。作者从GPT-3中得到灵感,使用prompt和in-context同时对输入和输出进行优化,他们使用了暴力搜索去获得一些性能较好的回答词,并且使用T5去生成了提示模板,他们说这种方法很cheap?使用T5单独生成一个模板还cheap?由于输入长度的限制,他们对每个类找出一个好的demonstration。感觉没什么新意啊?GPT-3真就被抄 麻了!!!
Methods

label words
Gao et al. (2021)使用了未进行微调的预训练模型,得到最优的K个候选词,将其作为剪枝后的回答词空间。然后他们在此空间上进一步对模型在训练集上进行微调进行搜索得到n个较好的回答词。最后再根据验证集的结果得到一个最优的回答词。
Prompt template
Gao et al. (2021)把prompt模板生成的问题视为一个文本生成的任务,使用T5(Raffel et al, 2020)作为生成器模型。他们将原始输入和输出拼接起来作为T5(Raffel et al, 2020)模型的输入,然后他们使用了束搜索生成多个提示模板,经过在开发集上进行微调得到一个最好性能的提示模板,此外他们还使用了束搜索得到的提示模板用于集成模型的学习。

Demonstrations
不想看了,没意思,就是通过对每个类采样一个示例插入到输入中,参考GPT-3。
Experiments
倒是做了不少的实验,也算是还行吧,对这些数据集不太了解,自己看吧

边栏推荐
猜你喜欢
随机推荐
【硬件架构的艺术】学习笔记(4)流水线的艺术
最详解决:jupyter notebook不会自动打开浏览器问题
【严重】Nps 鉴权绕过 0day 漏洞
取Json中的数组进行遍历
Selenium - 如何操作鼠标进行悬停、右击、双击、拖拽?
640. 求解方程
R语言patchwork包将多个可视化结果组合起来、plot_annotation函数以及tag_level参数将组合图用大写字母进行顺序编码、为组合图的标签添加自定义后缀信息(suffix)
【独立站运营】做社交媒体营销的两大关键点
MySQL增加字段SQL语句
leetcode:281. 锯齿迭代器
CAS客户端对接
「企业架构」企业架构师,解决方案架构师和软件架构师有何不同
函数柯里化(curry)
Trie字典树
挑战用五行代码轻松集成登录系统,实现单点登录
神经网络有哪些激活函数,卷积神经网络有哪些
Alluxio on Amazon EMR 集成实践
自适应模糊神经网络与bp神经网络的区别
等保2.0一个中心三重防护指的是什么?如何理解?
为什么某互联网企业开200w年薪大家都支持,但是中金开100w年薪大家都在骂?...









