令人上头的AI论文(上) | IDP Inspiration

发布于:2023-01-17 ⋅ 阅读:(412) ⋅ 点赞:(0)

接下来的两期IDP-Inspiration,将为大家推荐10篇2022年最值得读的AI领域论文,让大家及时了解AI领域的最新和经典突破。

论文推荐来自于数据科学家Ygor Serpa,主要集中在计算机视觉领域。在推荐论文的同时,他阐述了推荐每篇文章的理由以及该论文在相应领域中的地位。

以下是译文,Enjoy! 点击阅读原文,可查看英文原文。


01 深度学习并不是你所需要的全部,2022

Shwartz-Ziv、Ravid, Amtai Armon,“Tabular data: Deep learning is not all you need.” Information Fusion 81 (2022): 84–90.(https://arxiv.org/abs/2106.03253)

今年是 AlexNet的十周年纪念。从那时起,深度学习概念的流行程度变得比人工智能本身更突出,机器学习现在听起来已经过时了,不知道 A* 搜索算法的数据专业人士的数量不断增加。尽管如此,所谓“过时的”机器学习技术仍可以高效解决许多问题。

在本文中,作者展示了无论是否进行调试, XGBoost在不同纯属性数据集上优于深度学习解决方案。此外,它还显示了自动调优的 XGBoost 分类器相比未调优的具有更大的优越性。

推荐理由:

1)AI并不等价于深度学习,AI远不止于此。特别地,如果您是数据科学领域初学者,请充分尊重经典技术,例如线性和逻辑回归、决策树、SVM 和Booster。

2)在现实生活中,我们很容易忽略自动调优方法在 XGBoost 等高效模型上是如何创造奇迹的。在本文中,作者使用 HyperOpt 贝叶斯优化,比基准提高了约 30%。也许我们应该学习一些HyperOpt了。

小知识:

你知道 XGBoost 是在 2014 年发布的吗?它几乎与 TensorFlow 一样古老,但比神经网络要新得多。

扩展阅读:

想了解更多关于Booster的内容,可以阅读最原始的AdaBoost论文(1997) ,它为大多数集成方法奠定了基础。(https://www.sciencedirect.com/science/article/pii/S002200009791504X)

关于简单模型击败复杂模型,另一个重要文章是fastText线性文本分类器的分析和优化(https://arxiv.org/abs/1702.05531)。

02. 2020年代的卷积网络, 2022

Liu, Zhuang “A ConvNet for the 2020s.” arXiv preprint arXiv:2201.03545 (2022). (https://arxiv.org/abs/2201.03545)

虽然卷积神经网络 (CNN) 取代了许多以前的计算机视觉研究,但现在已经有Vision Transformers(ViTs)超越CNN的趋势了。在这方面,人们普遍认为 ViT 尚未取代CNN的原因是,它们的计算成本仍然是一个悬而未决的问题。

本文表明,经过仔细调整和训练的 ResNet 模型在 ImageNet、COCO 和 ADE20k 上的表现可以匹敌甚至优于 Transformer。换句话说,CNN 可能没有那么容易被取代。作者将他们改进的 ResNet 称为“ConvNeXt”。

推荐理由:

1)这是一篇非常实用的论文。几乎所有对 ResNet 的更改都可以扩展到其他模型。尤其是第 2.6 节,它具有非常高的可操作性,并且执行时间也不长。

2)虽然Transformers处于“炒作之巅”,但这些论文不仅仅是关于Attention的。本文展示的,将其中一些元素反向移植到旧模型中的方法就很具有借鉴意义。

3)最流行和受到热议的模型可能不是任务中最适用的模型。事实上,关于计算机视觉,ResNet 可能仍然是最不会出错的选择。

小知识:如果您想知道在 CNN 之前什么算法很流行,可以优先看看ILSVRC 2012比赛的第二名使用的 SIFT。

扩展阅读:

尽管 ConvNeXt 可以说是更好的,但关于 Vision Transformer和 Swin Transformers 还是值得一读的。

顺便说一句,这不是第一篇尝试重新改进 ResNet 的论文,同一主题的文章还可参考《ResNet 的反击:在 timm 中改进的训练程序》(https://arxiv.org/abs/2110.00476)。

03. Transformer综述, 2021

Lin, Tianyang, et al. “A survey of transformers.” arXiv preprint arXiv:2106.04554 (2021).(https://arxiv.org/abs/2106.04554)

从2020年到2022年,越来越多的资源被集中到AI的创新突破。在这个不断变化的领域中,对相关热门话题的综述最可能成为最热门的论文。

推荐理由:

1)尽管Transformer框架的复杂度是平方级的,它依旧具有广泛应用价值。对于希望了解自然语言处理 (NLP) 中最新发展近况的数据专业人员,Transformer也很有帮助。

2)在论文中,尽管一些Transformer的变体(X-former)声称具有线性复杂性,但目前尚未有任何X-former被广泛采用。作者尝试提高Attention的方式对于设计神经网络的人也很值得一读。

小知识:为什么这么多人工智能系统以布偶命名?(https://www.theverge.com/2019/12/11/20993407/ai-language-models-muppets-sesame-street-muppetware-elmo-bert-ernie

扩展阅读:

在这篇论文之后,一个自然的后续是 阅读2022 ICLR 的《视觉转换器如何工作》(https://paperswithcode.com/paper/how-do-vision-transformers-work-1?from=n26

04. SimCLR,2020

Chen, Ting, et al. “A simple framework for contrastive learning of visual representations.” International conference on machine learning. PMLR, 2020.(https://arxiv.org/abs/2002.05709

以上所提到的论文涉及的都是监督学习,即学习将 X 映射到 y。然而,现实世界更倾向于是一个“y更少”的世界——无监督学习。无监督学些用于处理“没有明确答案,但可以获取更有用答案”的问题。例如,我们可以通过多种方式对一组客户进行聚类:性别、年龄、购买习惯等,我们可以根据这些聚类设计能带来更高盈利的营销策略。

在本文中,作者简化了现有的对比学习的文献研究以创建 SimCLR。与其他方法想比,该方法可以产生更好的下游结果。从某种意义上说,您可以将这项工作理解为视觉领域的Word2Vec——一种从大型图像语料库中提取有用特征的系统方法。

推荐理由:

1)仔细想想,大多数人类学习都是无监督的。我们不断地观察世界,并对我们所看到的东西总结、提取特征。我坚信,通用智能的任何突破都伴随着相当大的无人监督成分。因此,人工智能研究者应该对此领域保持密切关注。

2)过去十年左右,NLP 领域的突破来自无监督预训练。到目前为止,还没有在图像处理中看到类似的革命。这是这个话题值得关注的另一个原因。

小知识:尽管无监督算法没有“y”,但大多数优化成本函数的技术都与监督学习类似。例如,超分辨率模型将原始图像与其降采样重建之间的重建误差最小化。

扩展阅读:这是一个非详尽的无监督问题列表:GAN、风格迁移、图像超分辨率、聚类、异常检测、关联规则挖掘等。

继续对比学习主题,SimCLRv2 (https://arxiv.org/abs/2006.10029)也可以作为后续阅读。

05. 高效网络模型EfficientNet,2019

Tan, Mingxing, and Quoc Le. “EfficientNet: Rethinking model scaling for convolutional neural networks.” International conference on machine learning. PMLR, 2019.(https://arxiv.org/abs/1905.11946

手动调整神经网络通常感觉就像在玩乐高积木。我们可以添加/删除层和神经元,使用激活函数,调整训练计划等。大多数情况下,我们的调整行为是任意的,如加倍或减半,或者坚持用2或10的次幂。

在这项研究工作中,Tan 和 Quoc 探索了一种更具有原则性的方法——使用神经架构搜索 (NAS) 来扩大和缩小网络。他们发现,当深度、宽度和分辨率一起缩放时,可以获得最佳结果。此外,他们发布了一组从微型到超大型的预训练模型,实现了最先进的结果。

推荐理由:

1)这篇论文是一个很好的例子,用来证明自动调整策略(如 NAS 和贝叶斯优化)远比手动调整模型更具成本效益。此外,还可以轻松控制调优预算。

2)谨防那些“复杂得可怕”、且不可调整的模型。健壮的模型总是可以从小到大扩展,并保持最前沿的核心部分。EfficientNet 就是一个很好的例子。

3)最近无论是在计算机视觉还是 NLP 任务上,骨干架构(Backbone Architecture)的重要性一直在增长。虽然我们仍然看到头网络(Head Networks)的进步,但很难说真正的收益来自哪里。

小知识:作为参考,根据 Papers With Code,ImageNet 上的Top-1 SOTA模型的准确率为 90.88%,参数约为 24 亿。

扩展阅读:

虽然最大的语言模型竞争激烈,但关于高效但强大的模型的讨论则更为有趣(和包容性)。早期的模型包括 MobileNetShuffleNet和 SqueezeDet,而最近的冠军是 Conv-Mixer


更多技术内容,欢迎关注“Baihai IDP”


网站公告

今日签到

点亮在社区的每一天
去签到