当前位置:网站首页>虚假新闻检测论文阅读(八):Assessing Arabic Weblog Credibility via Deep Co-learning
虚假新闻检测论文阅读(八):Assessing Arabic Weblog Credibility via Deep Co-learning
2022-08-10 03:47:00 【Quinn-ntmy】
论文标题:Assessing Arabic Weblog Credibility via Deep Co-learning
日期:ACL2019
基于新闻文本、半监督、伪标签、协同学习
一、基本内容
利用co-learning的方法训练两个模型,让两个模型互相为无标注的数据打伪标签,从而让两个模型互相越学越好,实现较好的效果。
该工作设计一个以word embedding(词嵌入)为输入的CNN网络和一个以character embedding(字符级嵌入,每次迭代中重新训练)为输入的CNN网络,先利用有标注数据训练两个网络,之后两个网络互相为无标注数据打上伪标签,从而获得更多的带标注数据训练两个网络,依次迭代,直至模型收敛,取得最佳效果。
二、模型框架
算法流程:
- 第一个数据集 D l D^l Dl,是一个小并且全部注释的数据集,用于最初训练两个CNN模型 M 1 M_1 M1和 M 2 M_2 M2。
- 对于两个模型 M 1 M_1 M1和 M 2 M_2 M2,我们从未标记的数据集 D u l D^{ul} Dul中随机选取 m m m个实例,将模型 M 1 M_1 M1和 M 2 M_2 M2应用于为每个模型选择的 m m m个实例上。
- 迭代训练两个co-learning模型 M 1 M_1 M1和 M 2 M_2 M2:如从 M 1 M_1 M1中的 m m m个实例选择 k k k个实例,然后使用它们来训练 M 2 M_2 M2(或用 M 2 M_2 M2训练 M 1 M_1 M1)。【目标是选择最高准确性的 k k k个实例:如果计算并应用了 M 1 M_1 M1模型的每个实例的分数,我们就选择由 M 1 M_1 M1模型标记的前 k k k个得分最高的实例,并使用它来训练 M 2 M_2 M2。】
- 使用两个模型的集成平均值,并将其应用于第三个数据集 D v l D^{vl} Dvl,该数据集用于验证的完全注释的数据集。两个模型的集成平均值的验证分数存储在深度学习算法每次迭代的变量 f 1 f1 f1分数中。检查 f 1 f1 f1分数是否高于当前最佳 f 1 f1 f1分数,如果更高,则更新模型并使用top-k实例扩充数据集。
边栏推荐
猜你喜欢
超全面的Android面试题汇总
maya视图如何切换
Qt编写物联网管理平台50-超强跨平台
The same is a primary test, why does he pay 5,000 yuan more than me?
Day14/15/16:哈夫曼树、哈弗曼编码(压缩与解压缩)
RoyalScope分析仪:CAN总线波形台阶和信号幅值低的问题
RoyalScope分析仪:发现CAN总线波形台阶和信号幅值低的问题
c语言进阶篇:动态内存管理(相关函数、常见错误、笔试题)
【网络迁移】Pytorch中的torch.no_grad对应MindSpore哪个方法
互联网公司高频面试题精讲:测试计划和测试方案有什么区别?
随机推荐
【网络迁移】Pytorch中的torch.no_grad对应MindSpore哪个方法
数据库中数据的正确性和相容性是什么
ZZULIOJ:1018: 奇数偶数
如何整合全流程数据,全面提升研发效能?|2分钟了解 ONES
TCP协议之《QUICKACK模式》
线程和线程间通信(C语言)
golang go get 时提示 no Go files in xxx
mindspore gpu版本安装问题
125. 耍杂技的牛
torch.nn.CrossEntropyLoss()对应的MindSpore算子是哪个?
BFF避坑指南
全面深入了解什么是反向代理和负载均衡
请教各位confluence部署连接数据库成功,但是在后面建表设置的时候报错
GBase 8s打开工具就报错“配置文件有误” !!!为什么
X书6.97版本shield-unidbg调用方式
【2022河南萌新联赛第(五)场:信息工程大学】【部分思路题解+代码解析】
TCP协议之《对端MSS值估算》
X书6.89版本shield-unidbg调用方式
转:不忧、不惧——成功领导者的自我成长和实现
结构体的内存对齐问题