translate the Annotated Transoformer in Chinese from http://nlp.seas.harvard.edu/2018/04/03/attention.html
Tranform 是来自谷歌在 “Attention is All You Need”一文提出的一个新模型, 最近几年它受到了广泛关注,除了极大地改善了翻译质量,对于NLP的其他任务,它提供了一个全新的架构。该篇论文描述地非常详细,但是目前常用的一些工具没有很准确地实现并集成Transformer。
本文通过一行行的代码实现,为该篇论文做注解。