TransUnet
记录一下TransUnet实现过程和知识储备。
环境配好,要来了预处理后的数据,代码直接就能跑,这就很nice。
原文是单卡,两张卡分别bs12,lr0.0025试了下,结果和论文中汇报的没有差太多。改成分别bs12,lr0.005试试看。假如能基本持平paper水平,就可以冲LUNA了。
test的时候一直用CPU,不太确定是代码这样设计还是我有哪里弄出了问题。倒也不是不能用。暂且搁置一下,后续发邮件的时候可以问一下。
关于GPU的使用,在固定batch size(per gpu)的时候,因为gpu0要算所有卡反向传播loss的梯度,显存占用就会比其他的卡更大,然后导致爆显存。解决反感可以通过修改两张卡使用的batch size来达到“均衡”,或者直接整体改小
有些预备知识需要学习,主要还是和深度学习相关的。基础不好就要处处补习。
相对熵
即KL散度,表征目标分布和预测的匹配分布的差异,准确说就是q(x)对p(x)增加的信息量。
当然,KL散度越小越好。
交叉熵
交叉熵表征两个概率分布的距离,同样越小越好。信息论里有这个概念,看公式很眼熟。
Dice Loss
Dice系数用于计算两个样本的相似度
分割常用评价指标Dice、Hausdorff_95、IOU、PPV等
Hausdorff_95
相比起Dice对内部填充比较敏感,HD95对边界更加敏感。它指的是两个集合间最近点的最大值
TransUnet
http://example.com/2021/03/08/TransUnet/