🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏:🏀大模型实战训练营_十二月的猫的博客-CSDN博客💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光
目录
3.2 基于LLM生成论文Poster技术的必要性与可行性分析
4.1 论文分部分概述(Introduction,method等)生成
1. 前言
【大模型实战训练营】专栏的建立得益于山东大学软件学院2025年的创新实训课程。在创新实训中,我们小组所选择的研究课题是【基于Deepseek、Janus等大模型的智能学术海报生成系统】,因此应山东大学戴鸿君教授要求,创建本专栏将我们的研究成果和研究全过程公开展示。
2. 项目进度
项目开发活动 | 时间 | 状态 |
---|---|---|
项目介绍 | 2025.3.22 | ⏩ |
3. 项目介绍
3.1 学术海报是什么
要明白什么是学术海报,我们先要明白海报的概念。海报是一种宣传的形式,用于向公众展示自己的商品或者是服务等。而学术海报则是向广大与会者或读者介绍自己的学术工作,帮助大家快速理解你工作的内容、步骤与意义。如下图所示:
3.2 传统学术海报制作的工具
PhotoShop和PPT就是最常见的两种传统制作海报的工具。Photoshop的优点在于插入的图片在导出之后能够调整分辨率,从而更加清晰,但缺点在于Photoshop需要电脑足够的内存,并且对于大部分的小伙伴来说PS上手难度较高,对于诸多操作还需要重新学习,因此在制作海报的过程中可能会耽误总体进度。PPT是目前大家所使用的主流制作软件,其优点在于普及度高,大家在使用的过程中较为方便、快捷。但缺点在于PPT无法在导出时调整图片分辨率,即使可以调整但步骤非常繁琐。但根据小科的制作经验来看,PPT做出来的海报完全能够满足使用需求,除特殊情况下大家可以放心使用。
但是所有传统海报制作工具都存在一个难以避免的弊端——制作费时费力,且难以转交。从某种角度来说,制作学术海报是一个劳动密集型的工作,因为并没有很精密的技术要求。但由于其他人又难以快速对你的论文有深入的理解,因此这一无聊的工作又无法轻易转交给其他人。
3.2 基于LLM生成论文Poster技术的必要性与可行性分析
科学海报是用来以图形的形式有效地展示科学论文的贡献。然而,创建一个设计良好的海报,有效地总结了一篇论文的核心是劳动密集型和耗时的。一个系统可以自动设计并生成良好的论文海报从而将减少科研工作者的工作量,并帮助读者直观地了解论文的大纲。 这就是为什么我们团队想要制作这样一款智能化软件。
目前关于海报生成系统的研究,相当有限,主要原因是缺乏公开可用的数据集。但是有幸在2024年,一篇CVPR论文的研究团队,他们整理了SciPostLayout数据集,其中包括7855个科学海报和用于版面分析和生成的手动版面注释还包含100篇与海报配对的科学论文。同时数据集中的所有海报和论文都是根据CC-BY许可证,并公开提供。这就为我们工作的开展提供了必要条件。下图便是论文中做出贡献的前沿工作者们:
3.3 市场调研及前沿科学领域研究调研
虽然通过利用ML模型自动化这项任务已经显示出希望,但对科学海报的研究由于任务的高度复杂性和多模态性,真正有成果的仍然很少。虽然以前的研究已经建立了数据集来评估科学论文的海报生成系统,但这些数据集要么不是公开的,要么数据许可证不清楚,这使得该研究领域缺乏黄金标准基准。导致无论是市场上实地化的产品,还是科学界前沿的研究员们都没有真正在这一领域开展工作。这个领域仍然是一个空白领域,等待大家研究探索。
3.4 项目介绍
3.4.1 项目名称和商标
我们的项目叫做PosterGenius——智能学术海报生成系统。旨在基于Deepseek、Janus等开源大模型,辅助以RAG数据增强模块、多LLM讨论纠正模块、CLIP+T2I循环矫正模块、Prompt提示词调优、本部部署+微调等技术真正实现高质量的学术海报生成系统。
下图为本项目的log(本专栏虽然公开,但是未经允许严禁盗用log或公开商用代码):
3.4.2 模型微调&提示词调优使用的数据集
数据集主要来源于huggingface中开源数据集——scipostlayout。该数据集包含7855个带有手动布局注释的科学海报。数据集中包含的所有海报都在CC-BY许可证1下。下图显示SciPostLayout的海报和注释示例。
SciPostLayout可以用于评估布局分析和生成系统,方法与现有其他领域的数据集相同。 但是SciPostLayout的布局分析和生成都比其他领域的其他数据集更具挑战性,因为图和表格等元素的位置不同。此外,我们手动收集了与海报相关的100篇论文,以利用SciPostLayout从科学论文中生成布局。
4. 项目任务和目标
论文Poster生成这个问题分为五个子任务:
- 论文分部分概述(Introduction,method等)生成。
- Poster 格式(layout)生成。
- Poster 背景图片个性化调整。
- 论文概述与Poster图片的匹配。
- 前后端图形化展示。
4.1 论文分部分概述(Introduction,method等)生成
4.1.1 任务要点
采用多智能体辩论技术完成。
任务要点1:从PDF论文中提取文本
任务要点2:调用多模型API生成摘要
任务要点3:优化摘要内容并保存结果。
4.1.2 相关技术
涉及PDF解析工具(如PyMuPDF)、多模型API调用(如ChatGPT、DeepSeek)、以及多轮辩论优化机制。
4.1.3 量化指标
任务选取了至少100篇PDF论文作为输入数据,每篇论文平均大小为5MB,文本提取完整率达到98%;调用API的成功率不低于99%,响应时间控制在3秒以内;生成的摘要点数量为每篇论文5-10个,格式标准化处理准确率为100%;通过2轮辩论优化,最终摘要的语义一致性评分达到4/5(人工评估),覆盖论文核心内容的90%以上;JSON文件保存成功率为100%,系统资源占用控制在CPU使用率≤80%、内存使用≤2GB,单篇论文处理总时间不超过30秒。
4.2 Poster 格式(layout)生成
4.2.1 任务要点
- 任务要点1:根据概述内容生成个性化排版
例如:有的文章有三个method方法,则method部分需要三个layout框。
4.2.2 相关技术
- 通过Deepseek生成论文相关Prompt,去约束LayoutGeneratio model。
- 通过Deepseek生成论文的summary,然后让Deepseek再生成对应的Prompt,去约束LayoutGeneratio model。
4.2.3 参考模型(非本项目模型,仅做参考)
4.2.4 量化指标
SciPostLayout测试集上的布局分析性能到达下面要求:
4.3 Poster 背景图片个性化生成
4.3.1 任务要点
在构建一个自动化论文海报生成助手,用户可上传 PDF 格式的论文,系统将自动解析内容并生成符合用户自定义风格的论文海报。海报不仅要总结论文的核心内容,还需图文并茂,增强视觉吸引力。为了提升海报风格的多样性和内容质量,我们利用其自我反思和多模态评估的特性,优化文本描述与图像匹配的效果。
4.3.2 相关技术
大语言模型(deepseek)
- 负责解析论文内容,生成摘要和核心要点
- 通过 Prompt Engineering 控制输出风格
- 利用自我反思机制优化文本摘要,使其更加精准和可
多模态模型(CLIP & T2I)
- CLIP:用于文本-图像对齐,计算海报中的图像与文本描述的相似度,过滤出符合风格需求的图像
- 文本生成图像模型(T2I):根据论文内容(description list)自动生成或检索相关的配图
自我反思与迭代优化
- 通过 LLMs 进行多轮文本优化,提升海报文本质量
- 利用 CLIP 进行图像筛选,确保选取最相关的图片
- 结合用户反馈进行风格调整
4.3.3 方案设计
论文解析
- 提取论文的摘要、方法、实验结果等关键信息
- 生成不同风格的文本描述(学术风、科普风等)
图像匹配
- 若论文包含原始图片,进行智能筛选和增强
- 若缺少配图,利用 CLIP 进行图像检索,或者利用 T2I 生成相关图片
海报生成
- 采用模板填充方式,结合文本+图片自动排版
- 通过 LLM 进行风格优化,确保内容通俗易懂
用户交互
- 提供多种风格选项(简约、科技感、炫酷等)
- 允许用户对自动生成的海报进行微调
4.3.4 量化指标
文本摘要质量 BLEU、ROUGE 评分,可以使用 nltk 库中的 bleu_score 模块来计算 BLEU 分数,或者可以使用 rouge 库来计算 ROUGE 分数。 文本-图像匹配度 CLIP 相似度分数 >60%。处理一篇论文的平均时间 <50s
4.4 论文概述与Poster图片的匹配
4.4.1 任务要点
内容语义对齐:将论文各章节(Introduction/Method/Results)中的文字描述与对应图表/示意图精准关联。确保Poster中的图文组合与论文内容逻辑一致(如Method文字段落旁放置对应算法流程图)。
4.4.2 相关技术与量化指标
- 粗粒度判断:BLIP-2区域定位文本中关键词对应的图片的小标题。局部对齐IOU ≥0.6
- 细粒度判断:CLIP多模态编码计算上下文文本描述与图片的相似度,判断选择那些图片。匹配准确率(Top-3召回率 ≥65%)
4.5 前后端图形化展示
4.5.1 前端工作内容
用户界面设计与实现:
- PDF上传界面开发
- 支持拖拽上传、文件选择、格式校验(仅允许PDF文件)
- 展示上传进度条、文件列表及上传状态(成功/失败)
- 错误提示(如文件过大、格式错误)
- 海报编辑界面开发
- 实时保存草稿功能(本地缓存或自动同步后端)
- 实时预览功能
- 展示海报生成效果,支持样式调整(颜色、字体、布局等)
用户交互逻辑:
- 事件处理
- 实现按钮点击事件(如“生成海报”“保存草稿”“导出PDF”)
- 处理表单提交逻辑(用户参数输入、配置选择)
- 状态反馈
- 加载状态提示(如上传中、AI处理中、生成中等)
- 错误反馈(网络异常、模型处理失败)
组件集成与优化:
- PDF解析组件
- 基于 pdf.js 改造的文本/图表提取组件
- 解析结果可视化展示(如摘要、关键图表预览)
- 海报渲染引擎
- 支持导出高分辨率海报图片(PNG/PDF格式)
数据与后端交互:
- 上传PDF文件至后端
- 数据处理
- 解析后端返回的AI生成结果(如图片URL、错误码)
- 本地缓存用户草稿及历史任务记录
4.5.2 后端工作内容
AI模型对接:
- 模型接口封装
- 调用模型 解析PDF内容,提取标题、摘要、图表数据
- 调用模型 生成海报布局及视觉效果(基于用户参数)
- 处理模型返回结果(如图片存储路径、错误日志)
核心接口开发:
- 文件上传接口(支持大文件分片上传)
- 任务提交/查询/取消接口
- 海报生成接口(接收用户参数,触发AI处理)
4.5.3 量化指标
论文PDF解析准确率≥ 65%,能够准确提取出论文中的标题、方法、结果等关键信息。单任务生成时间≤ 50秒,从上传PDF到生成最终海报的时间
5. 总结
【如果想学习更多深度学习文章,可以订阅一下热门专栏】
如果想要学习更多pyTorch/python编程的知识,大家可以点个关注并订阅,持续学习、天天进步你的点赞就是我更新的动力,如果觉得对你有帮助,辛苦友友点个赞,收个藏呀~~~