【人工智能通识专栏】第十三讲:图像处理

发布于:2025-09-13 ⋅ 阅读:(24) ⋅ 点赞:(0)

人工智能正从处理单一文本信息迈向多模态融合阶段,图像、语音、视频等形式日益成为智能理解与生成的重要对象。在这一背景下,语言模型的功能也拓展为多模态系统中的“语义调度器”,通过结构化语言控制异构内容的生成与交互。

尽管DeepSeek当前尚不支持原生多模态输入,其文本生成与语义组织能力仍可协同外部平台,完成多模态任务。本章将聚焦图像、语音与视频三类典型模态,结合国产工具如即梦、讯飞听见、TTSMaker、可灵、蝉镜等,探索语言模型在多模态任务中的生成指令构造与实践应用。


在大学学习和科研中,图像无处不在。论文里的实验图表、教材中的示意图、社团活动的宣传海报、甚至课堂上随手拍下的黑板板书,都承载着丰富的信息。如何让人工智能帮我们快速理解图像、高效生成所需图像,正成为提升学习与科研效率的重要途径。

本节将介绍两类典型应用。一是图像输入与理解,即借助 AI 工具识别图像内容,并由DeepSeek进行总结、解释或知识化加工;二是图像生成,借助通义万相等平台根据文字提示创作图像,再通过DeepSeek优化提问,使生成结果更符合学习与科研的需要。

5.1.1 图像输入与理解

在大学课堂上,许多学生会习惯性地用手机拍摄老师的PPT,尤其是在出现关键图表的时刻。例如微观经济学课上的“均衡价格与均衡数量”供需曲线图,其中包含曲线、坐标、标注以及一段解释文字。图像看似直观,但在复习时往往难以准确回忆课堂逻辑:曲线分别代表什么?为何会出现超额供给与超额需求?均衡点的真正含义是什么?仅凭一张静态截图,常常难以支撑对知识点的系统理解。照片只是课堂的视觉留存,而学习的实质需求是条理化的认知整理。如何将图像记录转化为结构化的知识,成为提升学习效率的关键。

DeepSeek在这一过程中发挥了重要作用。虽然其对图形走势的直接理解仍有限,但完全可以识别图像中的文字,并在此基础上生成结构化的笔记。换言之,课堂PPT的截图可以先被“读出”文字,再加工为逻辑清晰的学术说明。这样,原本零散的视觉信息便完成了从“图像记录”到“知识整理”的转化。

整理课堂笔记

一名学生在课堂上拍摄了一张关于“均衡价格与均衡数量”的PPT页面。如图5-1所示,图像中既有曲线与坐标,也包含“超额供给”“超额需求”等文字标注。单靠照片,在复习时往往难以迅速还原其知识逻辑。借助DeepSeek,可以将其转化为更有条理的学习资料。

图5-1:课堂PPT截图

图5-2:识别文字后生成效果

图5-3:生成学术化说明

上传图片后,系统会自动识别图像中的文字,并将零散的标注整理成初步笔记,如图5-2所示。用户可以进一步提出需求,例如“请用学术化语言解释均衡点的含义,并说明超额供给和超额需求”。如图5-3所示,原本片段化的内容就被转化为逻辑清晰的说明。

更进一步地,DeepSeek还能在这些笔记的基础上,衍生出多种学习形式:提炼为复习要点,改写成一分钟口头复述,甚至生成小测试题,帮助加深理解。通过这一过程,静态的课堂照片不再只是图像记录,而成为可以反复使用、形式多样的学习资料。

5.1.2 图像生成与编辑

在学习和科研中,除了整理课堂笔记,往往还需要图像来辅助表达。例如,论文写作时需要一张概念图,课堂展示时需要一张配图,或者社团活动需要一张海报。过去这些任务通常依赖专业的绘图软件,而如今可以借助 AI 平台(如“即梦”)来完成。DeepSeek本身不能直接生成图像,但可以通过提出合适的需求描述,协助调用图像生成工具,完成从“文字或草图”到“正式插图”的转化。

文生图:从描述到图像

在学习和日常活动中,常常需要一张配图:课堂汇报的开场图片、社团活动的宣传海报,或课程论文中的示意图。过去往往依靠手绘或从网上寻找素材,如今可以通过图像生成平台(如即梦、通义万相)直接获得。只需写下一段描述,系统就能自动生成相应的图像。

要得到理想的结果,描述不能过于笼统,而需要逐步具体化。这里,DeepSeek 可以帮助学生把模糊的想法扩展成更完整的表达。

应用示例:课堂讲座配图

假设需要为一次主题为“人工智能与学习方法”的讲座准备开场插图。初始想法可能只是:“一张大学校园的图片。”DeepSeek的引导会提醒:是否需要加入季节与氛围?是否需要具体场景和对象?是否有风格要求?

经过补充后,表达可能变成:“请生成一幅描绘春日大学校园的插画,画面中央是一座现代图书馆,前景有盛开的玉兰花,背景是蓝色的天空,整体风格为浅色水彩,氛围清新宁静。”

当这段描述交给图像生成平台时,结果就会更贴近预期,如图5-4所示。

图5-4:文生图的生成效果

文生图的关键并不是一次写出完美的描述,而是通过不断调整,把模糊的想法转化为清晰的画面说明。DeepSeek在这个过程中充当“语言教练”,帮助梳理思路和补充要素;而即梦等平台则根据这些描述生成具体图像。两者结合,让学生能够轻松地将想象转化为可视化成果。

图生图:在现有图像上进行修改

与从零开始生成图像不同,图生图的作用在于对已有图像进行加工和再创造。学习和生活中常见的情况是:手中已有照片或插图,但想要它更清晰、更具艺术感,或符合特定展示需求。通过上传原始图像,并用语言描述希望呈现的效果,就可以得到改进后的版本。

在这一过程中,DeepSeek可以帮助学生将模糊的想法扩展成更完整的描述,而图像生成平台(如即梦)则负责输出新的图像。

应用示例:卢浮宫金字塔的艺术化再现

打开图像生成平台(如“即梦”),选择“图片生成”模式,在上传图片框中选择卢浮宫拍摄的照片。如果最初的想法只是“让这张照片更好看”,系统生成的结果往往过于笼统。此时可以先在DeepSeek中描述想要的效果,让它帮助扩展为更完整的表达。例如:

初始想法:想要一张“卢浮宫金字塔夕阳”的照片。

DeepSeek引导:是否需要强调光线?要不要突出游客的剪影?希望是写实还是艺术化?

在DeepSeek的帮助下,表达逐渐变得清晰:

“法国巴黎卢浮宫博物馆,标志性的玻璃金字塔,壮丽的夕阳时分,金色的阳光以低角度照射,在玻璃上产生强烈的反射和耀斑光晕。金字塔前的广场上有几个游客的剪影,衬托出建筑的巨大规模。温暖的金色调,深蓝色的天空开始出现细节丰富的云层。电影感光线,广角镜头,史诗般壮观,8K分辨率,超详细,摄影作品。”

将上述文字复制在对话框,经过处理,系统会生成一张比原始照片更具震撼效果的图像。光影更戏剧化,画面更细致,色彩层次更丰富。查看生成结果是否符合预期。若不满意,可以再次修改描述,例如调整“天空颜色”或“剪影人数”。最终得到的图像如图5-5所示,可以作为课程展示的封面、旅行随笔的配图,甚至作为个人摄影作品展示。

图5-5:图生图的生成效果

通过这一过程,一张普通的旅行照片能够被赋予更高的艺术表现力,呈现出接近“摄影作品级”的效果。同样的方法也可以应用于学习和校园场景:课堂草图被转化为规范的学术插图,活动合影被改造成正式的宣传封面。其意义不仅在于图像质量的提升,更在于使原本零散、日常的素材进入到学习与展示的逻辑链条之中。图生图由此成为一种高效的可视化工具,帮助学生以更专业、更直观的方式表达知识与思想。

总体而言,图像的生成与编辑让学生能够以最低的门槛把文字化的思维或零散的素材转化为直观的视觉成果。这不仅减少了对专业绘图技能的依赖,也大大提升了学习与科研中的表达效率。更重要的是,它为学术与学习提供了一种新的可视化路径:抽象的知识可以被具象化,复杂的概念能够被直观化,从而帮助学生更清晰地理解、表达并传播自己的思想。


往期回顾:

【人工智能通识专栏】第一讲:LLM的发展历程

【人工智能通识专栏】第二讲:学会使用DeepSeek

【人工智能通识专栏】第三讲:DeepSeek API调用

【人工智能通识专栏】第四讲:DeepSeek接入渠道

【人工智能通识专栏】第五讲:DeepSeek插件

【人工智能通识专栏】第六讲:DeepSeek第三方应用

【人工智能通识专栏】第七讲:准确描述问题

【人工智能通识专栏】第八讲:精细控制输出

【人工智能通识专栏】第九讲:迭代优化对话

【人工智能通识专栏】第十讲:阅读理解

【人工智能通识专栏】第十一讲:内容写作

【人工智能通识专栏】第十二讲:应用文写作                          


网站公告

今日签到

点亮在社区的每一天
去签到