记录BERT复现Squad1.1

记录BERT复现Squad1.1:本次虽然训练时间较长[按照100w的平均功率,耗电约12°,约6.3元],但好在基本复现了预期结果,没有出错,但由于硬件配置较低,特别是内存,导致train_batch_size和max_seq_length两个参数设置的较小,这应该是影响准确度的原因所在.根据分析结果,主要结论如下。