Skip to content

持续优化方向

Heda Wang edited this page Oct 25, 2017 · 10 revisions

数据优化

  1. 水平镜像数据扩增 @limiao

模型优化

  1. Visual Attention @suying @heda

效果:
Visual Attention 在同等训练条件下提升明显 ROUGE_L 0.672 --> 0.685 @heda
复现 show-attend-and-tell 论文,固定 seq_embedding, ROUGE_L 0.672 --> 0.662,可能是固定 embedding 导致的 @suying

  1. Semantic Attention @limiao @heda
  • 预测 Concept,使用 concept embedding 作为 semantic memory

  • Attribute-based Attention

  1. Lexical embedding 词义信息矩阵 @heda

  2. 多尺度的 Attention

  3. 何时做 Attention, Know when to look @heda

  4. 其他的 Image Model

  5. 其他的 RNNCell (如多层的、Res、Fast-forward)

  6. Cascade Caption, 用 Caption 再进行一次 Caption,第一次的 Caption 用于 Attention 输入

架构优化

  1. Reranking (DSSM, etc) @heda

训练 Trick

  1. Fine-tuning @heda

效果:
固定 image model 训练 20 万步之后基本收敛,但是 finetune 可以进一步提升效果 ROUGE_L 0.606 --> 0.621
Fine-tuning 调节学习率 0.0005 --> 0.001 可进一步提升效果 ROUGE_L 0.619 --> 0.629.
训练 105k 步,finetune-with-decay 继续训练至 600k 步,decay per 8 epochs, initlr=2.0,decay=0.5 进一步提升效果 ROUGE_L 0.661
训练 105k 步,finetune-with-decay 继续训练至 600k 步,decay per 8 epochs, initlr=1.0,decay=0.6 进一步提升效果 ROUGE_L 0.672
训练 105k 步,finetune-with-decay 继续训练至 600k 步,decay per 2 epochs, initlr=1.0,decay=0.9 训练中

  1. Scheduled Sampling @heda

效果: 线性的增加采样率 train 阶段 0.0 --> 0.25, finetune 阶段 0.0 --> 0.5 收益持平。

其他问题

  1. Badcase 分析

  2. OOV 所占的 Coverage