当前位置:网站首页>Seq2Seq论文阅读笔记

Seq2Seq论文阅读笔记

2022-08-09 22:36:00 孜然星星星星

  1. 算法介绍
    • RNN编码器-解码器
      • 两个递归神经网络
        • 将一串符号编码成一个固定长度(不可变)的向量表示
        • 将上得表示解码成另一串符号(可变
        • 即学习将可变序列编码为固定长度的向量表示,并将给定的固定长度的向量表示解码为可变长度的序列
      • 联合训练->最大化给定原序列的目标序列的条件概率能力
      • 使用复杂的隐藏单元->提高记忆容量和训练的便利性
      • 通过训练预测序列中的下一个符号来学习一个序列的概率分布
      • 通过在每个时间步长进行迭代采样来对新序列进行采样
      • 使用RNN算法,一般为LSTM
        • LSTM
          • 接收:序列的某一位输入+上一轮的隐藏状态
          • 产生:当前轮的输出+当前轮的隐藏状态
      • 隐藏层
        • ![[Y$1MTL4QXNTE5IFLR[[NIYX.jpg]]
        • 当复位门->0时,隐藏状态被强制忽略之前的隐藏状态,并以当前输入复位
        • 更新们控制前一个隐藏状态的信息有多少会延续到当前隐藏状态
      • 应用举例:
        • 生成一个给定输入的目标序列
        • 用来对给定的一对输入和输出序列进行评分
  2. 总结与展望
    • 提出了一种新的神经网络架构,称为RNN编码器 - 解码器,它能够学习从任意长度的序列到另一个序列的映射,可能来自不同的集合,任意长度。
    • 所提出的RNN编码器 - 解码器能够对一对序列进行评分(就条件概率而言),或者在给定源序列的情况下生成目标序列。
    • 随着新架构的推出,提出了一种新颖的隐藏单元,其中包括一个复位门和一个更新门,自适应地控制每个隐藏单元在读取/生成序列时记住或忘记的程度。
    • 以统计机器翻译为任务评估了所提出的模型,其中使用RNN编码器 - 解码器对短语表中的每个短语对进行评分。从定性上讲,能够证明新模型能够很好地捕获短语对中的语言规律性,并且RNN编码器 - 解码器能够提出格式良好的目标短语。 RNN编码器 - 解码器的分数被发现在BLEU分数方面提高了整体翻译性能。
    • 此外,发现RNN编码器 - 解码器的贡献与在SMT系统中使用神经网络的现有方法相当正交,因此可以通过使用例如RNN编码器 - 解码器和神经网络语言模型来进一步提高性能。 对训练模型的定性分析表明,它确实捕获了多个层次的语言规律,即在单词水平和短语水平。这表明可能有更多与自然语言相关的应用程序可能受益于所提出的RNN编码器 - 解码器。
    • 拟议的架构具有进一步改进和分析的巨大潜力。这里没有研究的一种方法是通过让RNN编码器 - 解码器提出目标短语来替换整个或部分短语表。此外,注意到所提出的模型不仅限于与书面语言一起使用,将所提出的架构应用于语音转录等其他应用将是一项重要的未来研究。

参考文献:Learning Phrase Representations using RNN Encoder–Decoder
for Statistical Machine Translation

原网站

版权声明
本文为[孜然星星星星]所创,转载请带上原文链接,感谢
https://blog.csdn.net/weixin_63336179/article/details/126068570