【人工智能通识专栏】第十四讲：语音交互-EW帮帮网

在多模态人工智能应用中，语音是一种天然的交互方式。相比键盘输入和图像上传，语音交互更加高效直观：只需开口说话，就能完成记录、检索与控制。对于大学生而言，语音技术不仅能够帮助转写课堂录音、生成随堂笔记，还能支持外语练习、口头汇报准备，甚至充当日常的学习助手。

本节将围绕语音的三个核心环节展开：

1. 语音识别与输入：如何将口语转化为文字，快速形成可编辑的学习资料。

2. 语音合成与输出：如何把文字内容转化为自然语音，实现自动播报与多语言表达。

3. 语音助手与交互场景：如何将识别与合成结合起来，形成能理解指令、执行任务的“语音助手”。

在具体实践中，DeepSeek可以与现有的语音平台协同使用：如在语音识别环节与“讯飞听见”结合，在语音合成环节与“TTSMaker”协作。而在更综合的语音助手场景下，DeepSeek负责理解与任务管理，语音技术则负责输入与输出，从而构建起完整的语音交互闭环。

5.2.1 语音识别与输入

在学习过程中，很多信息是通过口头形式传递的：课堂讲解、学术讲座、访谈记录、会议讨论。这些内容如果仅靠手写速记，很容易遗漏或记录不完整；如果只保留录音，复听效率又很低。语音识别技术正是解决这一问题的有效途径，它能够将语音转化为文字，使口头信息即时进入到可编辑、可检索的文档中。

DeepSeek可以在这一过程中发挥“组织与加工”的作用：一方面，利用“讯飞听见”等平台完成基础的转写；另一方面，将转写结果交给DeepSeek进行整理、提炼和扩展。这样，原本冗长的口语录音就能转化为结构化的学习资料。

讯飞听见的作用

在众多语音识别工具中，讯飞听见因其普通话识别准确率高、对方言的适配性强，并支持“分角色转写、关键词提取”等功能，已成为学习与科研中的常见选择。其输出结果为结构化文本，能够直接输入至DeepSeek中进行进一步处理，实现无缝衔接。

应用示例：课堂录音的自动笔记

一名学生录下了《教育心理学》课堂的部分讲解，教师围绕“学习动机理论”进行了二十分钟的讲述。

学生在课堂上使用手机录音，保存为mp3文件。将录音上传至“讯飞听见”平台，系统自动输出转写文本。此时得到的文本往往较为口语化，缺乏条理。

将转写结果粘贴到DeepSeek，并输入请求：

“请把以下转写内容整理为课堂笔记，分点列出主要概念。”

“请将‘学习动机理论’的三种类型概括为复习提纲，并给出简要定义。”

DeepSeek会输出逻辑清晰的课堂笔记，提炼出“成就动机理论—归因理论—目标取向理论”等核心要点。根据进一步需求，还可以生成：

简化版本：3–5 条复习提纲；
口头稿：可用于一分钟课堂复述；
自测题：选择题或判断题，辅助复习。

应用价值与思考

借助语音识别，课堂和讲座的口头内容不再停留在一段录音里，而是能够被转化为清晰的文字笔记。这样一来，学生不仅可以随时检索关键概念，还能在复习时迅速定位重点，而不必反复快进、倒退地听录音。更重要的是，同一段转写文本还可以被进一步加工——整理成简明的提纲，改写为口头复述的讲稿，甚至衍生出一些小测题，帮助自我检测理解。换句话说，语音识别让原本转瞬即逝的课堂讲解，变成了可复用、可重组的学习资源。

当然，效果的好坏也与实际条件有关。如果录音环境嘈杂、语速过快，转写结果往往会出现错别字或断句不清，需要后续人工修订。同时，录音涉及课堂和他人发言，最好事先取得许可，避免隐私或合规上的问题。只要处理得当，这项技术完全可以成为日常学习中最可靠的“第二双耳朵”。

语音识别与输入技术让课堂、讲座和讨论中的口头内容能够被高效保存和再利用。DeepSeek与“讯飞听见”的结合，使语音不仅被“听见”，还被转化为系统化的学习资料。通过这种方式，学生可以在保留课堂真实氛围的同时，获得更加清晰、条理化的知识笔记。

5.2.2 语音合成与输出

在课堂学习和科研活动中，文字通常是主要的表达方式。但在很多场景里，声音的表现力更强：一段朗读比默读更容易激发注意力，一次口头讲解比文字更适合快速传递情绪和氛围。语音合成技术正是基于这一点发展而来，它能够将输入的文字自动转化为自然语音。

对于大学生而言，语音合成的意义不只在于“让文字会说话”。它能把书面内容变成可随时播放的音频，便于在走路、乘车、运动时复习；它还能帮助准备演讲和汇报，把书面稿件直接转化为口头稿的预演；在语言学习中，它甚至可以模拟不同发音人，成为练习听力和模仿语音的辅助工具。

目前，常见的做法是由DeepSeek负责生成或润色文字，再交由TTSMaker完成语音合成。TTSMaker是一款免费的文本转语音工具，支持中文、英语、日语、德语等五十多种语言，并提供三百多种不同风格的声音。它既可以用于视频解说和有声书朗读，也可以生成可下载的音频文件，且完全免费。通过这种协作方式，文字的逻辑性与语音的自然性得以结合，使内容既清晰又生动。

应用示例：以“白露”为主题制作口播

以校园公众号“悦读家”栏目为例，演示如何利用DeepSeek与TTSMaker协作，制作一期关于“白露”的口播。

在DeepSeek中输入请求：“请写一篇介绍二十四节气之白露的短文，约300字，风格优美，适合大众，主要用于校园的口播节目。”

DeepSeek会输出一篇文章，例如：介绍白露的时间特点、自然景象，并点缀古诗句。

将生成的文字继续交给DeepSeek，请求：“请将这篇文章改写成适合口播的稿件，语气温柔，句子简短，节奏舒缓。”

处理后的版本会更口语化，适合朗读，例如：

“大家好，欢迎来到悦读家栏目。今天，我们要和大家分享的节气，是二十四节气中的第十五个——白露。

“白露”是秋天的第三个节气。古人说：“白露为霜”，意指昼夜温差加大，早晨的草叶上，常常凝结成一颗颗晶莹的露珠。它们在清晨的阳光下闪耀，如同大自然送来的问候。

《诗经·蒹葭》里写道：“蒹葭苍苍，白露为霜。所谓伊人，在水一方。”白露，不仅是季节的标记，也常常寄托着诗意与思念。那一层清凉的露水，像极了岁月流转中淡淡的情感。

此时的校园，也正进入初秋的节奏。清晨的操场上，空气带着丝丝凉意，林荫道上的落叶渐渐增多。新学期刚刚开始，白露提醒我们：夏日的喧闹已然远去，而新的学习旅程正要稳步展开。

白露，是季节的转折，也是心境的提醒。愿大家在这清爽的秋意里，保持一份安静与专注，把握新的开始。”

打开TTSMaker网站，把口播稿粘贴到输入框中。选择：

语言：中文（普通话）；
声音：通用播音/故事/演讲女声；
语速：0.95x降速，稍慢，带有叙述感。

点击“开始转换”，几秒钟后即可得到一段自然流畅的音频文件，如图5-6所示。可在线试听，也可下载保存。在“高级设置”里面可选下载文件格式，如.mp3或.wav等。

图5-6：TTSmaker在线配音工具

生成的音频上传到校园公众号，作为悦读家专栏的配音；播放于校园广播站，营造秋日氛围；保存到手机，作为个人的“睡前故事”音频。

应用场景

语音合成的用途远不止于节气口播。在学习中，它可以将复习提纲转化为音频，让学生在通勤或运动时反复收听；在外语学习中，文字内容可以被即时转换成目标语言的标准语音，用来做跟读和模仿，从而帮助改善发音与语感；在校园活动中，它还能为宣传视频或电子海报添加解说，让信息更生动。从课堂到生活，文字被赋予声音，使用场景随之大大拓展。

语音合成与输出，让静态的文字拥有了声音，使学习与科研材料能够以更灵活的方式呈现与传播。在这一过程中，DeepSeek负责生成和整理内容，TTSMaker赋予其自然的声线与节奏。两者结合，使文字的逻辑与条理得以保留，同时声音增加了感染力与可达性。这样，知识不仅可以“被看见”，也能够“被听见”，并以更贴近人心的方式流动。

往期回顾：

【人工智能通识专栏】第一讲：LLM的发展历程

【人工智能通识专栏】第二讲：学会使用DeepSeek

【人工智能通识专栏】第三讲：DeepSeek API调用

【人工智能通识专栏】第四讲：DeepSeek接入渠道

【人工智能通识专栏】第五讲：DeepSeek插件

【人工智能通识专栏】第六讲：DeepSeek第三方应用