2024年,大模型百家争鸣,同时也出现了专业化大模型、垂类大模型、小模型等细分场景的大模型应用。
遍地开花的大模型在使用过程中也出现过很多啼笑皆非的例子,有的甚至存在明显的杜撰和实时性错误,归根到底,大模型的发展和完善离不开人的训练和优化。由此,一款大模型产品是否达到预期水平,对大模型开展准确客观的评估评测成为了一项重要工作。
大模型评测分类
自然语言处理评测
1、自然语言理解(NLU)
自然语言理解能力评测用于评估模型在理解自然语言方面的能力,常见任务有情感分析、文本匹配、文本分类和阅读理解等。已有GLUE、XTREME和CLUE等评测基准。
2、自然语言生成(NLG)
自然语言生成能力评测针对模型生成自然语言的能力,常见任务有机器翻译、生成式文本摘要、自动对话等。评测指标有BLEU、METEOR、ROUGE等。
3、综合评测
随着大语言模型的发展,单一的评测基准已无法满足需求,因此需要全面评估汉语理解和生成能力。
全面的大语言模型评测
1、准确率评测
准确率是衡量大语言模型性能的重要指标,它反映了模型预测或生成结果的正确比例。准确率对于大语言模型在自然语言处理任务中的应用至关重要。评估准确率的方法因场景和任务而异,常见的评估指标包括判别类问题的评测指标(如F1值和Accuracy值)、生成类问题的评测指标(如BLEU和ROUGE)以及精确匹配(EM)等。
2、校准度
准确率衡量模型输出的正确性,而校准度衡量模型预测概率的准确性。校准度评估对大语言模型至关重要,因为它有助于提高模型的可靠性和置信度估计的准确性。高校准度的模型更可靠,预测结果更可能避免误解和错误决策。此外,校准度还帮助使用者理解模型预测结果,并在必要时进行人工介入。
期望校准误差(ECE)是一种评估模型校准度的方法,通过将概率区间均分成M个小区间,计算每个区间内预测正确的样例数与预测概率的乘积之和,再除以该区间内所有样例数,得到每个区间的准确率。然后计算每个区间的平均置信度,即该区间内所有样例预测概率的平均值。最后,将所有区间的校准差距的期望值相加,得到期望校准误差。
3、泛化能力
模型泛化能力的评估主要关注模型在域外数据集上的表现,通常在小样本或零样本设置下进行。小样本是指模型在预测时仅给少量示例作为参考,参数通常不作更新,如上下文学习。零样本与小样本类似,不同在于不提供参考样例,只给模型提供需要解答的问题和对应的文本,由模型直接推理出答案。由于小样本和零样本通常不对模型参数进行更新,这种评估方式能够较好地体现模型的泛化能力,泛化能力也在一定程度上预示着模型应用于下游任务时的效果。因此,泛化能力的评估是评估大语言模型能否广泛应用于诸多实际下游应用场景的关键之一,也将成为未来大型模型评估的一个重要组成部分。
4、适配能力
大模型在通用性和特定任务上的性能存在差异,需要考虑适配问题。适配是将原始模型转换成适用于下游具体任务的过程,适配能力指模型在不同适配策略下的性能优劣。适配策略有三种:不更新原模型参数的适配,增加适配层并调整适配层参数的适配,以及对原模型做全参数更新的适配。不更新模型参数的适配中,最典型的方法是通过设计提示和上下文例子使模型在下游任务上获得更好的效果。增加适配层并调整适配层参数的适配是一类高效率,低损耗的适配方法。一种极端的适配方式是更新模型的全部参数,具体而言,就是利用下游任务中的数据对模型进行再训练,从而迭代更新整个模型的参数。模型对不同适配策略的适配程度与模型的结构设计,预训练方式等因素有关。
5、鲁棒性(稳定性)
大语言模型在复杂现实世界中的表现可能并不突出,因为其鲁棒性不强,即对输入数据中的扰动或噪声的抵抗能力不足。模型鲁棒性的评估方法之一是对文本输入进行扰动,观察模型输出的变化。扰动大致分为两类:对抗扰动和非对抗扰动。对抗扰动是为了误导模型做出错误预测而故意对输入内容进行修改,对模型的预测结果会产生明显影响。非对抗扰动则是对输入内容更自然和随机的改动,用于模拟现实世界中输入的复杂情况。对抗扰动可以用来评估模型对恶意输入的处理能力,而非对抗扰动可用于衡量模型在现实世界中面对有自然误差的输入时的表现。在评估大语言模型时,需要综合考虑这两种扰动类型的影响,以更全面地评估模型的鲁棒性。
6、有害性
大语言模型的有害性是指其生成有害言论的能力。大语言模型有害性评估是一个重要的问题,需要开发有害性检测系统来检测文本中可能含有的有害成分。研发者需要谨慎地考虑系统设计的合理性、数据集标注的准确性和是否存在偏见等问题,同时需要平衡准确率和公平性,避免对某些群体的过度惩罚或忽视对他们的有害言论。提高系统及其数据的开源性和透明度有助于全面评估系统,提高可信度和有效性。