星巴克推出Web3平台;天啦噜,AI绘画能007了;『决策算法』电子书;合成人脸数据集;面向数据的版本控制;前沿论文 | ShowMeAI资讯日报

发布于:2022-12-18 ⋅ 阅读:(269) ⋅ 点赞:(0)

👀日报合辑 | 📆电子月刊 | 🔔公众号下载资料 | 🍩@韩信子

📢 星巴克推出 Web3 平台 Starbucks Odyssey

https://stories.starbucks.com/press/2022/starbucks-brewing-revolutionary-web3-experience-for-its-starbucks-rewards-members/

9 月 12 日星巴克宣布推出 Web3 平台 Starbucks Odyssey,将星巴克的忠诚度计划 Starbucks Rewards 与 NFT 平台相结合,允许客户赚取和购买数字资产,从而解锁独家体验和奖励。Starbucks Odyssey 的所有 NFT 都由星巴克与艺术家共同创作,可以登录参与设定的互动游戏等获取,也可以使用信用卡直接购买。NTF 的积分可用于体验星巴克的酒类制作课程、参加星巴克的烘焙活动等。

此外,值得注意的是,Starbucks Odyssey 平台将由以太坊扩容方案 Polygon 提供技术支撑,以降低可能的昂贵的链上交易成本。Polygon 官方也于同一时间发推表示合作愉快。

工具&框架

🚧 『AI Art Generator』AI艺术作品自动生成器

https://github.com/rbbrdckybk/ai-art-generator

AI Art Generator 用于在本地自动批量基于 AI 创建艺术作品(绘画)。它将充分利用你的GPU进行 7X24 小时创作艺术画,能够自动生成 prompt 队列,结合用户选择的主题、风格/ 艺术家等进行工作。

🚧 『van-blog』简洁实用优雅的高性能个人博客系统

https://github.com/Mereithhh/van-blog

https://vanblog.mereith.com/

VanBlog 是一款简洁实用优雅的高性能个人博客系统。支持 HTTPS 证书全自动按需申请、黑暗模式、移动端自适应和评论,内置流量统计与图床,内嵌评论系统,配有完备的、支持黑暗模式、支持移动端、支持一键上传剪切板图片到图床、带有强大的编辑器的后台管理面板。

🚧 『PaddleScience』基于 PaddlePaddle 开发 AI 驱动科学计算应用的 SDK和库

https://github.com/PaddlePaddle/PaddleScience

https://paddlescience.paddlepaddle.org.cn/

PaddleScience 基于 PaddlePaddle 框架构建,充分使用了其生态下的软件组件,用于开发新的科学计算应用。覆盖的领域包括物理信息机器学习、基于神经网络的PDE求解器、用于 CFD 的机器学习等等。PaddleScience 仍在不断开发和更新中。

🚧 『CvComposer』OpenCV的高级图形界面,可方便构建工作流、快捷查看结果

https://github.com/wawanbreton/cvcomposer

CvComposer 是一个 OpenCV 的图形界面工具。它让你轻松使用和组合多种处理功能,并实时看到效果。典型的应用包括:

  • 通过观察单个函数的效果来学习 OpenCV
  • 通过组合函数来设计复杂的图像视觉算法
  • 微调参数(阈值、核大小…)

🚧 『Dolt』面向数据的版本控制,数据的 Git,13K Star

https://github.com/dolthub/dolt

Dolt 是一个 SQL 数据库,你可以像 Git 仓库一样克隆、分支控制、合并、推送和拉取操作。将MySQL 数据库连接到 Dolt,运行查询或使用 SQL 命令更新数据都很方便。它支持使用命令行界面导入 CSV 文件,提交你的修改,推送到远程,或合并团队其他同学的修改。所有 Git 的命令在 Dolt 上都保持了一致性,可以放心使用。

博文&分享

👍 『Algorithms for Decision Making』决策算法·免费书

https://algorithmsbook.com/

PDF 下载:https://algorithmsbook.com/files/dm.pdf

本书对不确定条件下的决策算法作了广泛的介绍,内容涵盖了与决策有关的各种主题,介绍了基本的数学问题公式和解决这些问题的算法。包含以下主题:

第一部分:概率推理

  • 表征
  • 推理
  • 参数学习
  • 结构学习
  • 简单决策

第二部分:顺序问题

  • 精确解法
  • 近似值函数
  • 在线规划
  • 政策搜索
  • 政策梯度估计
  • 政策梯度优化
  • 角色批判方法
  • 政策验证

第三部分:模型的不确定性

  • 探索和利用
  • 基于模型的方法
  • 无模型的方法
  • 模仿学习

第四部分:状态的不确定性

  • 信念
  • 准确的信念状态规划
  • 离线信念状态规划
  • 在线信念状态规划
  • 控制器抽象

第五部分:多Agent系统

  • 多Agent推理
  • 序列问题
  • 状态的不确定性
  • 协作代理

👍 『A Short Chronology Of Deep Learning For Tabular Data』表格数据深度学习简明清单

https://sebastianraschka.com/blog/2022/deep-learning-for-tabular-data.html

我们知道深度学习非常适合非结构化数据,深度学习有时被称为『表征学习』,因为它的优势在于学习特征提取的能力。大多数结构化(表格)数据集已经表示了(通常是手动)提取的特征,但许多研究人员最近试图为结构化数据集开发特殊用途的深度学习方法。这篇内容整理和更新了结构化数据上的深度学习研究和应用资源列表。

数据&资源

🔥 『Synthetic Faces High Quality (SFHQ) Dataset』合成人脸高质量数据集

https://github.com/SelfishGene/SFHQ-dataset

这个数据集由 3 个部分组成,每个部分包含大约 9 万张精心收集的高质量 1024x1024 的合成脸部图像。它是通过使用『将图像编码到 StyleGAN2 潜在空间,并操作将每个图像变成一个照片般的真实图像』得到。该数据集还包含面部关键点和解析语义分割图。

🔥 『Collaborative Perception』协同感知相关文献列表

https://github.com/Little-Podi/Collaborative_Perception

该项目是 V2I / V2V / V2X 自动驾驶场景下的协作 / 合作 / 多代理感知的最新进展的论文摘要。论文按第一个字符的字母顺序列出。所有论文和代码的链接都可以免费访问。

研究&论文

可以点击 这里 回复关键字 日报,免费获取整理好的论文合辑。

科研进展

  • 2022.08.26 『视频检索』 Partially Relevant Video Retrieval
  • 2022.02.12 『目标检测』 Depth-Cooperated Trimodal Network for Video Salient Object Detection
  • 2022.01.01 『对比学习』 Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training

⚡ 论文:Partially Relevant Video Retrieval

论文时间:26 Aug 2022

领域任务:Moment Retrieval, Multiple Instance Learning, 视频检索计算机视觉

论文地址:https://arxiv.org/abs/2208.12510

代码实现:https://github.com/HuiGuanLab/ms-sl

论文作者:Jianfeng Dong, Xianke Chen, Minsong Zhang, Xun Yang, ShuJie Chen, Xirong Li, Xun Wang

论文简介:To fill the gap, we propose in this paper a novel T2VR subtask termed Partially Relevant Video Retrieval (PRVR)./为了填补这一空白,我们在本文中提出了一个新的T2VR子任务,即部分相关视频检索(PRVR)。

论文摘要:目前的文本-视频检索(T2VR)方法是在面向视频字幕的数据集(如MSVD、MSR-VTT和VATEX)上进行训练和测试。这些数据集的一个关键属性是,视频被假定为时间上的预剪短,而提供的标题很好地描述了视频内容的要点。因此,对于一个给定的成对的视频和标题,视频应该是与标题完全相关的。然而,在现实中,由于查询并不是预先知道的,预先修剪的视频片段可能不包含足够的内容来完全满足查询。这表明文献和现实世界之间存在差距。为了填补这一空白,我们在本文中提出了一个新的T2VR子任务,即部分相关视频检索(PRVR)。如果一个未经修剪的视频包含了与查询相关的时刻,那么它就被认为与给定的文本查询部分相关。PRVR旨在从一大批未修剪的视频中检索出这些部分相关的视频。PRVR不同于单一视频时刻检索和视频语料库时刻检索,因为后两者要检索的是时刻而不是未修剪的视频。我们将PRVR表述为一个多实例学习(MIL)问题,即一个视频同时被视为一袋视频片段和一袋视频帧。片段和帧代表不同时间尺度的视频内容。我们提出了一个多尺度相似性学习(MS-SL)网络,为PRVR共同学习片段尺度和帧尺度的相似性。在三个数据集(TVR、ActivityNet Captions和Charades-STA)上的广泛实验证明了所提方法的可行性。我们还表明,我们的方法可用于改善视频语料库的时刻检索。

⚡ 论文:Depth-Cooperated Trimodal Network for Video Salient Object Detection

论文时间:12 Feb 2022

领域任务:object-detection, Optical Flow Estimation, 目标检测光流预估

论文地址:https://arxiv.org/abs/2202.06060

代码实现:https://github.com/luyukang/DCTNet

论文作者:Yukang Lu, Dingyao Min, Keren Fu, Qijun Zhao

论文简介:However, existing video salient object detection (VSOD) methods only utilize spatiotemporal information and seldom exploit depth information for detection./然而,现有的视频突出对象检测(VSOD)方法只利用时空信息,很少利用深度信息进行检测。

论文摘要:深度可以为突出物体检测(SOD)提供有用的地理线索,并且在最近的RGB-D SOD方法中被证明是有用的。然而,现有的视频突出对象检测(VSOD)方法只利用时空信息,很少利用深度信息进行检测。在本文中,我们提出了一个深度合作的三模网络,称为用于VSOD的DCTNet,这是一项结合深度信息来辅助VSOD的开创性工作。为此,我们首先从RGB帧中生成深度,然后提出一种不平等地处理三种模式的方法。具体来说,我们设计了一个多模态注意力模块(MAM)来模拟主模态(RGB)和两个辅助模态(深度、光流)之间的多模态长程依赖关系。我们还引入了一个细化融合模块(RFM)来抑制每个模态中的噪音,并动态地选择有用的信息来进一步细化特征。最后,在细化特征后采用渐进式融合策略,实现最终的跨模态融合。在五个基准数据集上的实验证明了我们的深度合作模型相对于12种最先进的方法的优越性,深度的必要性也得到了验证。

⚡ 论文:Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training

论文时间:1 Jun 2022

领域任务:Contrastive Learning, Language Modelling, 对比学习语言模型

论文地址:https://arxiv.org/abs/2206.00621

代码实现:https://github.com/zengyan-97/cclm

论文作者:Yan Zeng, Wangchunshu Zhou, Ao Luo, Xinsong Zhang

论文简介:To this end, the cross-view language modeling framework considers both multi-modal data (i. e., image-caption pairs) and multi-lingual data (i. e., parallel sentence pairs) as two different views of the same object, and trains the model to align the two views by maximizing the mutual information between them with conditional masked language modeling and contrastive learning./为此,跨视图语言建模框架将多模态数据(即图像-标题对)和多语言数据(即平行句子对)视为同一对象的两个不同视图,并通过条件掩码语言建模和对比学习,使两个视图之间的相互信息最大化来训练模型,使其协调一致。

论文摘要:在本文中,我们介绍了跨视图语言建模,这是一个简单而有效的语言模型预训练框架,它将跨语言跨模式预训练与共享架构和目标统一起来。我们的方法源于一个关键的观察,即跨语言和跨模态的预训练有着相同的目标,即把同一对象的两个不同的观点统一到一个共同的语义空间。为此,跨视图语言建模框架将多模态数据(即图像-标题对)和多语言数据(即平行句对)视为同一对象的两个不同视图,并通过条件掩蔽语言建模和对比学习使两个视图之间的相互信息最大化来训练模型。我们用跨视图语言建模框架预先训练CCLM,一个跨语言的跨模态语言模型。在IGLUE(一个多语言多模态基准)和两个多语言图像-文本检索数据集上的实证结果表明,虽然概念上比较简单,但CCLM明显优于之前的最先进水平,平均绝对改进超过10%。值得注意的是,CCLM是第一个多语言多模态模型,通过零点跨语言转移,超越了有代表性的英语视觉语言模型的翻译测试性能。

我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!

◉ 点击 日报合辑,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。

◉ 点击 电子月刊,快速浏览月度合辑。

◉ 点击 这里 ,回复关键字 日报 免费获取AI电子月刊与论文 / 电子书等资料包。