BR 技术头条

技术头条

技术链接、资讯与社区分享流

52 www.52nlp.cn / 2022-06-19 22:35 / by @技术头条 / 原作者:@52nlp

Transformer中的缓存机制

Encoder部分相对简单,进行self-attention时只需要考虑一个batch内和长度相关的mask。这里重点讨论training和inference两种模式下decoder attention在每一层的工作机制。在training模式下,decoder部分采用teacher_forcing的机制来产生decoder的输入,具体的实现方式是将原始的input_target_sequence右移动一位,或者可以理解为在原始的input_target_sequence最左侧添加一个decode_start_token。

发表评论