【DL笔记】神经网络轻量化(CV方向)的一些论文记录

发布于:2024-11-27 ⋅ 阅读:(139) ⋅ 点赞:(0)

现在大模型爆火,但俺这种组里只有10系显卡的下水道科研老鼠也要混毕业的,于是选择做小模型(x)。本人纯科研飞舞一个,刚入学有段时间爱看论文,今天有空把那会看到论文总结下。

轻量化,相关文章的关键字可能是lightweight/compact/efficient,比较老生常谈的就是蒸馏、剪枝、量化,其实从模型本身出发也有不少方向可以看看(guan shui)。

Compact Design

做神经元轻量化基本上就是低秩分解(也就是拆算子)或特征复用.

20年后VIT开始刷榜,也有很多Transformer和CNN的混合模型开始考虑轻量化方向:

Dynamic Design

除了对模型本身算子进行轻量化外,也有些神经网络会采用动态的结构,比如推理时动态选择算子,来实现更高效的运算:

这类只是做推理时的轻量化,整体仍是训练一个较大的模型,如果只是想节省算力做这个方向建议别考虑了,类似的还有:

Efficient Design

如果对于轻量化的目的时efficient,那可以考虑一些涨点plugins

此外,也可以选择合适的激活函数,在参数量接近的情况下涨点:

  • Dynamic relu (2020):可以看作SE Module的段maxout版本,确实work但对显存很不友好,train的很慢
  • Funnel activation for visual recognition (2020):Funnel ReLU,在激活函数阶段引入视觉感知,其实就是卷积完的特征做一次maxout,显存比Dynamic ReLU少占点

别的想起来再加。。。


网站公告

今日签到

点亮在社区的每一天
去签到