This repository was archived by the owner on Nov 17, 2023. It is now read-only.

Description
我用了以前在cxxnet上跑的数据测试mxnet(网络结构用了alexnet和inception),发现一个奇怪的现象,只要不用batchnorm,网络都不收敛,而且运行的结果看起来学不到任何东西,简单地在卷积层后加上bn,网络就收敛正常了,一开始怀疑是inplace优化的问题,后来禁止了inplace还是一样,之前我在cxxnet上做过类似的实验,这个数据集都是能很好收敛的,是不是初始化参数权重的地方要特别注意的地方?能不能提供像cxxnet那么精确参数设置?
例如:
momentum = 0.9
wmat:lr = 0.05
wmat:wd = 0.0001
bias:wd = 0.000
bias:lr = 0.1