1)想问一下论文3.3节中公式(9) 那条计算addnet输出方差的公式,公式的第一行是怎么推到 (1-2/π)... 这一行的呢 2)还是3.3节,公式(11) ,想问下损失对于xi的偏导这条公式是怎么得来的 3)3.3节公式(13) 本地学习率α的公式,为什么α采用这种形式就能够使各层以相同的步数更新呢 谢谢