TransUnet

记录一下TransUnet实现过程和知识储备。

环境配好,要来了预处理后的数据,代码直接就能跑,这就很nice。

原文是单卡,两张卡分别bs12,lr0.0025试了下,结果和论文中汇报的没有差太多。改成分别bs12,lr0.005试试看。假如能基本持平paper水平,就可以冲LUNA了。

test的时候一直用CPU,不太确定是代码这样设计还是我有哪里弄出了问题。倒也不是不能用。暂且搁置一下,后续发邮件的时候可以问一下。

关于GPU的使用,在固定batch size(per gpu)的时候,因为gpu0要算所有卡反向传播loss的梯度,显存占用就会比其他的卡更大,然后导致爆显存。解决反感可以通过修改两张卡使用的batch size来达到“均衡”,或者直接整体改小

有些预备知识需要学习,主要还是和深度学习相关的。基础不好就要处处补习。

相对熵

KL散度,表征目标分布和预测的匹配分布的差异,准确说就是q(x)对p(x)增加的信息量。

当然,KL散度越小越好。

交叉熵

交叉熵表征两个概率分布的距离,同样越小越好。信息论里有这个概念,看公式很眼熟。

Dice Loss

Dice系数用于计算两个样本的相似度

Dice Loss 与 CE

分割常用评价指标Dice、Hausdorff_95、IOU、PPV等

Hausdorff_95

相比起Dice对内部填充比较敏感,HD95对边界更加敏感。它指的是两个集合间最近点的最大值


TransUnet
http://example.com/2021/03/08/TransUnet/
Author
Adrian
Posted on
March 8, 2021
Licensed under