2025年5月22日,伊利诺伊大学厄巴纳-香槟分校的研究团队在《arXiv》上发表了一篇前瞻性研究论文《TrialPanorama: Database and Benchmark for Systematic Review and Design of Clinical Trials》,该研究建立了一个临床试验数据库TrialPanorama,该数据库整合了从 15 个全球来源汇总的 1,657,476 条临床试验记录,并对试验级别的设计和结果属性进行了标准化,旨在为临床试验设计和审查以及为这些任务开发人工智能模型提供一个很好的资源。
一款新药从研发到上市,平均需要10年时间和超过20亿美元的投入,而其中临床试验是耗时最长、成本最高的阶段。然而,全球海量的临床试验数据分散在数十个注册平台和学术论文中——就像一座座信息孤岛,缺乏统一标准,导致医生、企业和研究人员难以快速获取有效证据,甚至可能重复失败的设计。TrialPanorama旨在打破数据壁垒,整合海量数据资源,让AI真正助力临床研究提速。
图1 TRIALPANORAMA数据集和benchmark流程概览
一、TrialPanorama数据库
1. 数据规模与来源
包含 1,657,476 条临床试验记录。
整合15 个全球数据源,包括 ClinicalTrials.gov, PubMed, 国际临床试验注册平台 (ICTRP),欧盟临床试验注册库,中国临床试验注册中心 (ChiCTR),澳大利亚新西兰注册库 (ANZCTR) 等。
2. 核心价值——数据结构化与标准化
不仅收集数据,更将临床试验的关键要素结构化并链接到标准生物医学本体 (Ontologies),如DrugBank(标准化药物信息)、MedDRA:(标准化不良事件和医疗术语)、MeSH(标准化疾病/条件术语)。
包含 10 个核心数据表,分为四大类:
试验元数据 (Trial Metadata): 标题、摘要、申办方、状态、阶段、开始年份等。
试验方案 (Trial Protocols): 药物 (Drugs)、疾病条件 (Conditions)、生物标志物 (Biomarkers)、分组设计 (Dispositions/Arms)、主要终点 (Endpoints)。
试验结果 (Trial Results): 总体结果 (Outcomes)、详细结果 (Results)、不良事件 (Adverse Events)。
研究链接 (Study Links): 不同来源记录(如注册记录与发表论文)之间的关系 (Relations),以及系统评价纳入/排除研究的链接。
3. 数据质量: 通过人工抽检约1500条记录进行评估,大部分表格的准确率超过90%。
4. 与已有资源比较(图2):
覆盖更广: 多来源(15个 vs 通常1-2个),规模更大(165万 vs 通常数万到数十万)。
结构更丰富: 同时包含详细的试验设计(方案)和试验结果数据,并建立了它们之间的链接。
本体链接: 强链接到标准本体,提升数据的可计算性和互操作性。
基准任务导向: 直接基于数据库构建了8个实用的AI基准任务。
图2 TRIALPANORAMA 与之前的临床试验数据集和基准的比较
二、TrialPanorama基准测试集
1. 目标:评估AI(特别是大语言模型LLMs)在支持系统评价 (Systematic Review, SR)和临床试验设计 (Clinical Trial Design, CTD)关键任务上的能力。
2. 构建方法:充分利用TrialPanorama数据库的结构化数据和关系表(特别是relations表用于链接系统评价和试验),构建了高质量的训练集、验证集和测试集(保留最新研究作为测试集)。
3. 任务类别 (8个任务)
系统评价任务 (3个 - 模拟PRISMA流程):
- 研究检索 (Study Search):
根据系统评价的背景、目标和入选标准,生成检索式并检索相关研究。指标:Recall@K。
- 研究筛选 (Study Screening):
判断候选研究是否符合系统评价的入选标准(基于背景、目标、标准和研究摘要/元数据)。指标:准确率、精确率、召回率。
- 证据总结 (Evidence Summarization):
基于纳入研究的证据回答关于治疗效果的临床问题。指标:准确率、Macro-F1。
- 临床试验设计任务 (5个):
- 分组设计 (Arm Design):
根据试验标题和摘要,选择正确的试验分组(如实验组、对照组)及其干预措施描述。指标:准确率、Macro-F1。
- 入选标准设计 (Eligibility Criteria Design):
根据试验标题和摘要,选择正确的入排标准描述。指标:准确率、Macro-F1。
- 终点设计 (Endpoint Design):
根据试验标题和摘要,选择正确的主要终点描述。指标:准确率、Macro-F1。
- 样本量估算 (Sample Size Estimation):
根据试验设计方案和统计假设(效应量、α、功效、脱落率),估算所需受试者数量。指标:准确率(预测值在真实值±20%内)、平均绝对误差 (MAE)。
- 试验完成度评估 (Trial Completion Assessment):
根据试验方案(阶段、分组数、设盲、分配、入排标准等)预测试验是否会完成还是提前终止,若终止则预测主要原因(如入组困难、安全性、疗效不足等)。指标:平衡准确率 (Binary Outcome & Termination Reason)。
- 分组设计 (Arm Design):
三、大模型实验结果与启示
1. 测试模型:GPT-4o, GPT-4o-mini, O3-mini (专注重推理), LLaMA-3.3-70B-Instruct, LLaMA-3.1-8B-Instruct。
2. 关键发现
通用LLMs在临床任务上表现不足:虽然展示出一定的零样本(Zero-Shot)能力,但整体性能远未达到支撑高风险临床工作流程的要求。
任务难度差异大:
相对较好:分组设计 (Arm Design) 任务表现最好(准确率~86%),因为干预信息通常在方案中明确描述。
中等难度:研究筛选 (Study Screening) 和证据总结 (Evidence Summarization) 表现中等(准确率~55-79%)。研究检索 (Study Search) 尤其困难(Recall@100 仅~12-28%)。
非常困难:样本量估算 (Sample Size Estimation)(准确率<26%,MAE高)和终点设计 (Endpoint Design)(准确率~52-69%)表现很差,需要扎实的统计学基础和临床推理。试验完成度预测 (Trial Completion Assessment) 接近随机水平(平衡准确率~50-55%)。
模型差异:O3-mini 在研究检索和筛选上表现突出,但在证据总结上较弱;LLaMA-70B 在证据总结上表现最好;GPT-4o 在部分设计任务上表现稳定。
3. 核心启示
当前通用LLMs无法可靠地支持关键的临床试验设计和系统评价决策,尤其在需要统计推理、可行性预测或情境感知的任务上。
亟需开发面向临床试验领域的专业化AI模型(领域适应、微调、结合专业知识和规则)。
高质量、结构化、任务导向的基准数据(如TrialPanorama)是推动该领域AI进步的关键基础。
另,作者公开释放了TrialPanorama数据库和基准,鼓励社区使用以推动面向临床试验的AI研究。未来工作包括改进数据质量、探索更先进的模型架构、在实际工作流中进行前瞻性评估等。