![](https://img-blog.csdnimg.cn/img_convert/b7a7cdddf60dfd29587272269a16231f.png)
工具&框架
🚧 『Diffuse The Rest』你画它补,智能 AI 辅助作画
https://huggingface.co/spaces/huggingface/diffuse-the-rest
基于 Stable Diffusion 的图画自动补全 Demo,随意涂鸦或上传图片,给出完善方向的提示,程序会自动替你『补画』。浅试一下,送颗苹果给你~
![](https://img-blog.csdnimg.cn/img_convert/9d7f918af274c29c8e3c9f9fd8b981c9.png)
🚧 『Notesnook』完全开源可替代 Evernote 的端到端加密笔记
https://github.com/streetwriters/notesnook
Notesnook 是一个免费和开源的笔记应用程序,专注于用户隐私和易用性。Notesnook 的目标是为用户提供安全和可靠的笔记服务。
![](https://img-blog.csdnimg.cn/img_convert/7c2b48e6d0847de81a8d9a0f5b45c625.png)
🚧 『Brynet』多线程的异步网络库
https://github.com/IronsDu/brynet
brynet 是一个多线程的异步网络库,能够运行在Linux和Windows环境下。 仅仅需要C++ 11编译器,且没有其他任何第三方依赖。
![](https://img-blog.csdnimg.cn/img_convert/7fcafb846247c9a4d336cbeac2f209c5.png)
🚧 『Marqo』人性化张量搜索框架
https://github.com/marqo-ai/marqo
Marqo 是一个开源的张量搜索框架,与你的应用程序、网站和工作流程无缝集成。
![](https://img-blog.csdnimg.cn/img_convert/d682a134c7f0efee5bb49bc903fc9246.gif)
张量搜索可以在很多场景下应用:搜索和推荐,多模态搜索(图像到图像、文本到图像、图像到文本),聊天机器人和问答系统,文本和图像分类。
![](https://img-blog.csdnimg.cn/img_convert/a989461f8b7f49809992ea226ae02645.png)
🚧 『imodels』可解释机器学习包,用于简洁、透明和准确的预测建模
https://github.com/csinva/imodels
现代机器学习模型越来越复杂,往往使它们难以解释。imodels 工具库为拟合和使用最先进的可解释模型提供了一个简单的接口,这些模型都与 scikit-learn 兼容。
![](https://img-blog.csdnimg.cn/img_convert/0d39ddb9c005096a838aff95f2d5fc71.png)
这些模型通常可以用更简单的模型(如规则列表)取代黑盒模型(如随机森林),同时提高可解释性和计算效率,所有这些都不会牺牲预测的准确性吗,只需导入一个分类器或回归器,并使用拟合和预测方法,与标准 scikit-learn 模型一样。
![](https://img-blog.csdnimg.cn/img_convert/a9310773379a6b8d20762df528c39405.png)
博文&分享
👍 『CS 181: Machine Learning』哈佛·机器学习(2022课程)
https://harvard-ml-courses.github.io/cs181-web/
https://www.youtube.com/channel/UC0rDBCkhasTCVGJcnVyFHHQ/search?query=cs-181
哈佛大学 CS 181 内容覆盖机器学习、概率推理和不确定环境下的决策。通过本课程,你可以学习到许多常见方法的数学基础,以及应用机器学习来应对真实数据的挑战。
![](https://img-blog.csdnimg.cn/img_convert/0dc5b3cbe1d21f311e50ec76f81699af.png)
具体的课程内容主题包括:监督学习、集合方法和提升、神经网络、支持向量机、核方法、聚类和无监督学习、最大似然、图形模型、隐马尔科夫模型、推理方法、强化学习。
![](https://img-blog.csdnimg.cn/img_convert/40186045f512318305774c50538f2961.png)
👍 『Notes for prompt engineering』提示工程笔记
https://github.com/sw-yx/prompt-eng
针对现在流行的 prompt 工程做的一份资源整合笔记,内容覆盖参考示例、prompt工程经验、工具、社区资源、开源代码集等。
![](https://img-blog.csdnimg.cn/img_convert/866c1a894b21d8a6a05ba2d59407678f.png)
数据&资源
🔥 『Awesome Data-Centric AI』数据中心AI相关资源大列表
https://github.com/ydataai/awesome-data-centric-ai
![](https://img-blog.csdnimg.cn/img_convert/43da50b5f3f6b3fa0707697ac1c4ceb8.png)
🔥 『Awesome Singing Voice Synthesis and Singing Voice Conversion』语音合成、文字转语音(TTS)、歌唱声音合成(SVS)、声音转换(VC)、歌唱声音转换(SVC)等相关论文项目列表
https://github.com/guan-yuan/Awesome-Singing-Voice-Synthesis-and-Singing-Voice-Conversion
![](https://img-blog.csdnimg.cn/img_convert/1c82502350c03732c4406119d0189d9d.png)
研究&论文
![](https://img-blog.csdnimg.cn/img_convert/f40fa96b3534ed54d87adeb42bba35d9.png)
可以点击 这里 回复关键字 日报,免费获取整理好的论文合辑。
科研进展
- 2022.07.13 『知识蒸馏』 ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech
- 2022.04.27 『多目标学习』 LibMTL: A Python Library for Multi-Task Learning
- 2022.06.11 『音乐生成』 Multi-instrument Music Synthesis with Spectrogram Diffusion
⚡ 论文:ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech
论文时间:13 Jul 2022
领域任务:Denoising, Knowledge Distillation, 降噪,知识蒸馏
论文地址:https://arxiv.org/abs/2207.06389
代码实现:https://github.com/Rongjiehuang/ProDiff,https://github.com/Rongjiehuang/FastDiff
论文作者:Rongjie Huang, Zhou Zhao, Huadai Liu, Jinglin Liu, Chenye Cui, Yi Ren
论文简介:Through the preliminary study on diffusion model parameterization, we find that previous gradient-based TTS models require hundreds or thousands of iterations to guarantee high sample quality, which poses a challenge for accelerating sampling./通过对扩散模型参数化的初步研究,我们发现以前基于梯度的TTS模型需要成百上千次的迭代才能保证高的采样质量,这对加速采样提出了挑战。
论文摘要:扩大的扩散概率模型(DDPMs)最近在许多生成任务中取得了领先的性能。然而,固有的迭代采样过程成本阻碍了它们在文本到语音部署中的应用。通过对扩散模型参数化的初步研究,我们发现以前基于梯度的TTS模型需要成百上千次的迭代才能保证高的采样质量,这对加速采样提出了挑战。在这项工作中,我们提出了ProDiff,关于用于高质量文本到语音的渐进式快速扩散模型。与以往估计数据密度梯度的工作不同,ProDiff通过直接预测干净的数据对去噪模型进行参数化,以避免加速采样时明显的质量下降。为了解决扩散迭代次数减少的模型收敛挑战,ProDiff通过知识提炼减少目标站点的数据差异。具体来说,去噪模型使用来自N步DDIM教师的生成的mel-spectrogram作为训练目标,并将该行为提炼成一个具有N/2步的新模型。因此,它可以使TTS模型做出尖锐的预测,并进一步将采样时间减少几个数量级。我们的评估表明,ProDiff只需要2次迭代就能合成高保真的旋律谱系,而它的采样质量和多样性与使用数百个步骤的最先进的模型相比具有竞争力。ProDiff在单个NVIDIA 2080Ti GPU上实现了比实时快24倍的采样速度,使扩散模型首次实际适用于文本到语音合成部署。我们广泛的消融研究表明,ProDiff中的每个设计都是有效的,而且我们进一步表明,ProDiff可以很容易地扩展到多扬声器的设置。音频样本可在 https://ProDiff.github.io/ 获取。
![](https://img-blog.csdnimg.cn/img_convert/2dde0bb22ac06ec86f8fed4feba29f33.png)
![](https://img-blog.csdnimg.cn/img_convert/31626fea8c1ac9b99999f3dead6dbc9f.png)
⚡ 论文:LibMTL: A Python Library for Multi-Task Learning
论文时间:27 Mar 2022
领域任务:Multi-Task Learning, 多目标学习
论文地址:https://arxiv.org/abs/2203.14338
代码实现:https://github.com/median-research-group/libmtl
论文作者:Baijiong Lin, Yu Zhang
论文简介:This paper presents LibMTL, an open-source Python library built on PyTorch, which provides a unified, comprehensive, reproducible, and extensible implementation framework for Multi-Task Learning (MTL)./本文介绍了LibMTL,一个建立在PyTorch上的开源Python库,它为多任务学习(MTL)提供了一个统一、全面、可重现和可扩展的实现框架。
论文摘要:本文介绍了LibMTL,一个建立在PyTorch上的开源Python库,它为多任务学习(MTL)提供了一个统一、全面、可重现和可扩展的实现框架。LibMTL考虑了MTL的不同设置和方法,它支持大量最先进的MTL方法,包括12种损失加权策略,7种架构,以及84种不同架构和损失加权方法的组合。此外,LibMTL的模块化设计使其易于使用并具有良好的可扩展性,因此用户可以在LibMTL的支持下方便快捷地开发新的MTL方法,与现有的MTL方法进行公平的比较,或将MTL算法应用于现实世界的应用。LibMTL的源代码和详细文档可分别在 https://github.com/median-research-group/LibMTL 和 https://libmtl.readthedocs.io 获取。
![](https://img-blog.csdnimg.cn/img_convert/06242976bc29271bddd23e7a40f2aa42.png)
⚡ 论文:Multi-instrument Music Synthesis with Spectrogram Diffusion
论文时间:11 Jun 2022
领域任务:Music Generation,音乐生成
论文地址:https://arxiv.org/abs/2206.05408
代码实现:https://github.com/magenta/music-spectrogram-diffusion
论文作者:Curtis Hawthorne, Ian Simon, Adam Roberts, Neil Zeghidour, Josh Gardner, Ethan Manilow, Jesse Engel
论文简介:An ideal music synthesizer should be both interactive and expressive, generating high-fidelity audio in realtime for arbitrary combinations of instruments and notes./理想的音乐合成器应该是互动性和表现力兼备的,为任意的乐器和音符组合实时生成高保真音频。
论文摘要:一个理想的音乐合成器应该既是互动的,又是有表现力的,可以为任意的乐器和音符组合实时生成高保真的音频。最近的神经合成器在特定领域的模型和原始波形模型之间进行了权衡,前者只提供对特定乐器的详细控制,后者可以对任何音乐进行训练,但控制力极弱,生成速度慢。在这项工作中,我们专注于神经合成器的中间地带,它可以从MIDI序列中实时生成具有任意乐器组合的音频。这使我们能够用一个单一的模型对广泛的转录数据集进行训练,这反过来又提供了对各种乐器的组成和乐器的音符级控制。我们使用一个简单的两阶段过程。用编码器-解码器转换MIDI到频谱图,然后用生成对抗网络(GAN)频谱图转换器转换频谱图。我们比较了将解码器作为自回归模型和去噪扩散概率模型(DDPM)进行训练,发现DDPM方法在质量上以及在音频重建和Fr’echet距离指标上都更有优势。考虑到这种方法的互动性和通用性,我们发现这是朝着乐器和音符的任意组合的互动和表现力的神经合成迈出的有希望的第一步。
![](https://img-blog.csdnimg.cn/img_convert/85520fe3cece0e09b492f72908e5ece2.png)
![](https://img-blog.csdnimg.cn/img_convert/20eca884f636120546b905b3f4b88802.png)
我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!
◉ 点击 日报合辑,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。
◉ 点击 电子月刊,快速浏览月度合辑。
◉ 点击 这里 ,回复关键字 日报 免费获取AI电子月刊与论文 / 电子书等资料包。
![](https://img-blog.csdnimg.cn/img_convert/3acf1a21ca47e0e3fc257724304c0327.gif)