最近字节、滑铁卢大学相关团队同时放出了他们使用Agent进行海报生成的技术方案,P2P和Paper2Poster,传统方案如类似ppt生成等思路,基本上采用固定的模版,提取相关的关键元素进行模版填充,因此,海报生成的质量完全依赖于规则模版的丰富程度。下面来看一下这两个团队使用Agent进行海报生成的技术思路,覆盖多种技术链路,如:文档智能解析、LLM、布局生成、Agent等。比如有趣,下面来看看这两个技术方案,供参考。
学术海报在科学交流中起着至关重要的作用,需要在有限的页面上压缩长篇幅的多模态文档。
因此,如何使用Agent生成海报,并且评价生成的海报质量?
P2P框架
由三个Agent组成:
Figure Agent: 负责处理输入研究论文中的所有视觉元素。使用DocLayout-YOLO模型进行版式分析,提取图表,同时,图描述器(LLM结合prompt)通过空间关系分析识别相应的图注。并通过空间关系分析识别相应的标题,最终合成语义视觉单元。
Section Agent:
(1)Section Generator: 分析输入论文,动态推断目标海报的详细结构模式(如引言、方法、结果等)。
(2)Content Generator: 利用结构模式、原始输入论文和Figure Agent提供的视觉元素描述,生成语义连贯的海报文本。
Orchestrate Agent: HTML Generator: 利用Section Agent生成的Markdown格式文本和Figure Agent提取的实际视觉元素,生成HTML和CSS格式的海报。
P2PEVAL
构建了一个数据-P2PEVAL数据集包括从ACL会议系列和SciPostLayout收集的121篇论文-海报对,保留了原始研究论文的PDF格式和相应的学术海报的PDF和PNG格式。
- 通用海报评估
- 𝑈1:作者与标题准确率
- 𝑈2:图像唯一性与质量
- 𝑈3:平衡空白
- 𝑈4:上下文相关性
- 𝑈5:最佳视觉与文本比例
- 𝑈6:维度适宜性
- 𝑈7:视觉一致性
- 𝑈8:内容保真度
- 𝑈9:信息流逻辑
- 𝑈10:自包含解释
训练了一个专门的打分模型 - XGBoost 模型通过 10 折交叉验证得出通用评分。
- 细粒度海报评估
使用上述公式对细分指标进行赋分。专门用于衡量每张生成海报在内容和视觉元素上对官方学术海报的相似性,这一块的ground truth来源于标注规范。
实验性能
PosterAgent框架
如上图,PosterAgent是论文的核心创新,包含三个主要组件:
解析器(Parser):
- 功能:将科学论文提炼为结构化资产库。
- 过程:首先摄取论文的PDF文件,使用MARKER和DOCLING等文档解析工具将其转换为Markdown格式。然后,通过大模型处理Markdown,生成JSON-like的大纲。这一资产库包含论文的关键元素,如:文本、图表和表格,为后续步骤提供结构化输入。
- 目的:确保论文内容被组织成易于处理的格式。
所以这一部分的技术点又回到了之前介绍过的《文档智能》相关内容。PDF解析清晰的过程如下:
规划器(Planner):
- 功能:将文本和视觉元素(如图表)排列成连贯的布局。形成(section, figure)对
- 过程:从解析器获取结构化资产库,采用二叉树布局策略排列内容。布局设计考虑阅读顺序(例如从左到右、从上到下)和空间平衡,使用逐步放大的策略迭代生成面板。规划器还会估计内容长度(如字数、图表大小)以适应海报的尺寸限制。
- 目的:创建逻辑清晰、视觉平衡的布局,确保海报易于阅读和理解。
技术点:图文匹配、布局生成(这里使用的是二叉树的布局生成策略,确保布局合理,内容分配均匀,阅读顺序清晰。)
绘制-评论者循环(Painter–Commenter Loop):
- 功能:优化每个面板的视觉和文本质量。
- 过程:
- 绘制组件(Painter):为海报的每个部分生成要点总结,并使用python-pptx生成渲染代码,创建面板的视觉布局。绘制组件确保文本以子弹点形式呈现,字体大小如标题60、要点48,保持一致性。
- 评论者(Commenter):一个视觉-语言模型(VLM),分析生成的面板,检测文本溢出、空余空间等问题。通过上下文参考提示(例如一个显示溢出的例子和一个理想布局的例子)提供反馈,确保对齐和美观。循环在绘制和评论之间迭代,直到面板达到预期质量。
- 目的:确保每个面板既信息丰富又美观,避免溢出或错位。
技术点:VLM充当Commenter。
评价维度
这篇文章还有一个值得看的点就是它的评价维度,总结如下:
评估维度 | 描述 |
---|---|
视觉质量 | 测量生成的海报与人类设计的海报在语义上的对齐程度,确保视觉元素(如图表、图片)放置适当且相关。 |
文本连贯性 | 评估海报上文本的流畅度和连贯性,确保文本清晰、简洁,无语法错误。 |
整体评估 | 使用六项细化标准评估海报的美学和信息方面,包括布局平衡、可读性和视觉吸引力,由VLM-as-judge评分,确保客观性。 |
PaperQuiz | 测量海报传达论文核心内容的能力,通过VLM生成的测验测试海报是否有效传递关键信息,例如论文的主要发现和结论。 |
实验性能
一些结论:
- 视觉质量和文本连贯性:GPT-4o生成的图像在视觉上最具吸引力,但文本连贯性较差。PosterAgent在图形相关性方面表现最佳,视觉相似性仅次于人类设计的海报。
- VLM-as-Judge:人类设计和GT海报在美学和信息得分上最高。PosterAgent-4o在这些指标上表现接近人类设计海报,综合得分为3.72。
- PaperQuiz:GPT-4o的4o-HTML变体在美学得分上最高,但在信息得分上较低。PosterAgent变体在信息质量上表现最佳,综合考虑Verbatim和Interpretive问题的得分最高。
- 效率:PosterAgent在使用GPT-4o时平均消耗101.1K tokens,在使用Qwen-2.5-7B时消耗47.6K tokens,显著减少了计算成本。
参考文献:
- paper:Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers,https://arxiv.org/pdf/2505.21497v1
- code:https://github.com/Paper2Poster/Paper2Poster
- P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark,https://arxiv.org/abs/2505.17104
- code:https://github.com/multimodal-art-projection/P2P