ARM SMMUv3故障和错误(五)

发布于:2025-07-07 ⋅ 阅读:(18) ⋅ 点赞:(0)

1.概述

SMMU有三种方式将故障和错误(Faults and Errors)报告给软件,具体如下:

  1. 提交给SMMU命令在某些情况下不正确时,命令队列有机制报告这些错误。
  2. 事件队列中记录了一些错误和故障。包括了来自设备流量(traffic)引起的错误和故障,比如配置错误或者设备地址引起的缺页异常。
  3. 一种基于全局寄存器的SMMU_GERROR机制用于上报以下情况引发的事件:当无法将记录写入事件队列或PRI队列时,以及其他无法写入内存的灾难性事件。这种情况可能发生在事件队列指针错误的指向不存在的内存,或发生队列溢出的情况下。

2.命令队列错误

命令队列中的消费者读指针寄存器如下图所示,RD保存命令队列读取索引,ERR保存错误码。当有命令错误时,SMMU会将错误码保存到ERR区域,同时触发SMMU_GERROR.CMDQ_ERR中断,通知CPU处理。

命令队列错误

位域 名称 意义
[19:0] RD 命令队列读取索引。该位域分为两个部分,具体由配置的命令队列大小决定。
Bit[QS]: RD_WRAP - 队列读取索引掉头从头开始的标志。
Bits[QS-1:0]: RD - 命令队列读取索引。
QS == SMMU_CMDQ_BASE .LOG2SIZE and SMMU_CMDQ_BASE .LOG2SIZE <= SMMU_IDR1.CMDQS <= 19.
[30:24] ERR 错误码。当检测到命令执行错误,ERR保存命令执行错误的错误码,同时触发SMMU_GERROR.CMDQ_ERR中断。
0x00: CERROR_NONE,没有错误发生
0x01: CERROR_ILL,非法的命令,如命令opcode不正确,命令有效但使用了保留区域或者无效的值
0x02: CERROR_ABT,读取命令失败,比如读取命令时发生外部错误,导致读取终止
0x03: CERROR_ATC_INV_SYNC,ATS Invalidation完成超时

命令队列中的命令按顺序执行,当有检测到命令错误或者命令预取失败时:

  1. SMMU会停止执行命令
  2. 错误命令之前的命令将会被执行
  3. SMMU_(*_)CMDQ_CONS.RD依旧指向错误命令的位置
  4. SMMU将错误码更新到SMMU_(*_)CMDQ_CONS.ERR区域
  5. 触发SMMU_(*_)GERROR .CMDQ_ERR中断,此时SMMU不会执行命令队列中的命令
  6. 比错误命令更新的命令不起作用,如果SMMU已经读取该命令,则会丢弃该命令
    当发生命令队列错误时,ARM推荐软件先修复命令队列错误,然后通过向SMMU_()GERRORN写入合适的值响应CMDQ_ERR,最终达到重启命令队列的目的。软件不需要写SMMU(_)CMDQ_PROD来重新触发命令处理。

3.事件队列记录的故障类型

事件队列记录三种类别的事件:

  1. Configuration errors
    配置错误是由不正确的寄存器、STE或CD内容引起的,并且与传入的事务地址转换有关。在响应事务之前,不会报告内存中的不正确配置。任何传入的事务最多可能导致一个事件报告,该报告可能是一个配置错误,或者如果配置全部有效,则可能是几种类型的事务地址转换故障之一(可能适用于阶段1或阶段2)。
  2. Faults from the translation process
    只有当事务地址尝试转换时,才会报告转换错误。SMMU的实现可能会以实现特定的方式预取配置项和TLB条目。预取的错误配置不会记录配置错误(即使是为了响应显式的CMD_PREFETCH_*命令而预取),只有在收到事务时,才会记录转换故障或配置错误。
  3. Miscellaneous
    杂项事件(例如E_PAGE_REQUEST)的记录与传入的数据事务异步进行。
    Event queue记录的事件参考ARM SMMUv3命令和事件队列分析(四)

4.全局错误

当有全局错误发生时,SMMU会产生中断通知软件处理。软件通过SMMU_()GERROR寄存器获取全局错误类型,而不是基于内存的事件队列。SMMU中总共定义了10种全局错误,SMMU(_)GERROR寄存器中每一个bit对应一种全局错误,具体如下图所示。

全局错误

SMMU_(*_)GERROR表示的全局错误如下表所示。

位域 错误标记 意义
[0] CMDQ_ERR 命令队列错误
[2] EVENTQ_ABT_ERR 事件队列访问中止。当EVENTQ_ABT_ERR设置时,SMMU将停止向事件队列中记录事件。
[3] PRIQ_ABT_ERR PRI队列访问中止。当PRIQ_ABT_ERR设置时,SMMU将停止向事件队列中记录事件。
[4] MSI_CMDQ_ABT_ERR CMD_SYNC触发的MSI写入中止(若支持MSI中断)。
[5] MSI_EVENTQ_ABT_ERR 事件队列触发的MSI写入中止(若支持MSI中断)。
[6] MSI_PRIQ_ABT_ERR PRI队列触发的MSI写入中止 (Non-secure GERROR only)(若支持MSI中断)。
[7] MSI_GERROR_ABT_ERR GERROR触发的MSI写入中止(若支持MSI中断)。
[8] SFM_ERR
SMMU进入Service Failure Mode。该错误在SMMU_GERROR和SMMU_S_GERROR寄存器中的意义相同。
[9] CMDQP_ERR 命令队列控制页错误(control page error)。适用于增强型命令队列(Enhanced Command queue),增强型命令队列拥有256 Command queue control pages,每个control pages最多拥有256个队列,适用于复杂系统。
[10] DPT_ERR DPT(Device Permission Table)查找错误。错误信息保存在 SMMU_(R_)DPT_CFG_FAR寄存器中,

SMMU_(*_)IRQ_CTRL .GERROR_IRQEN == 1时将会打开全局中断,当有全局错误发生时,SMMU会触发全局中断。

5.故障模式

故障模式(Fault models)表示SMMU对错误的处理方式,有两种模式,分别是Terminate model和Stall model。Fault models配置为Terminate model时,当有错误发生时,SMMU会向client device返回错误并立即终止事务。Fault models配置为Stall model时,当有错误发生时,SMMU会以RAZ/WI的方式响应client device,此时client device会认为事物成功了,感觉不到错误,SMMU也不会处理错误事务,会把错误的信息记录到事件队列中,软件可以通过发送CMD_RESUME or CMD_STALL_TERM命令重启事务或者终止事务。

5.1.配置

第一阶段地址转换的Fault models通过CD.{A,R,S}标志配置,第二阶段地址转换的Fault models通过STE.{S2R,S2S}标志配置。CD.{A,R,S}和STE.{S2R,S2S}控制下面错误的Fault models。下面的错误都和事务地址转换相关。

  • F_TRANSLATION.
  • F_ACCESS.
  • F_ADDR_SIZE.
  • F_PERMISSION.
    下面是A、R、S三个标志的意义:
A 事务终止时的中止行为(Abort behavior upon transaction termination)
1. 当A==1时,当事务以地址转换相关的4种错误终止时,SMMU会向client device返回abort和bus error。
2. 当A==0时,事务都会以RAZ(Read As Zero)/WI(Write Ignored)行为成功完成,就算有错误发生,client device都不会收到错误。
3. A标志只存在第一阶段地址转换中,第二阶段地址转换将以abort终止,相当于A==1。
4. 有些SMMU可能只实现了abort termination(不支持RAZ/WI),可以通过 SMMU_IDR0.TERM_MODEL获取SMMU对Fault models的支持情况。在这种情况下,配置CD.A == 0会导致CD描述符无效。
5. A标志不影响ATS转换请求引发的错误,因为ATS不支持RAZ/WI行为。
R 记录事件(Record event) 1. 当R==1时,SMMU检测的错误事件将会记录到事件队列中。
2. 当R==0时,SMMU检测的错误事件不会记录到事件队列中。
3. R标志只会影响当S==0且是和地址转换相关的四种错误。
S 遇到故障时停止运行(Stall upon fault ) 1. 当S==1时,当发生和地址转换相关的4种错误时,会进入Stall model,在软件发出resume或terminate命令之前,不会对事务作出响应,因此事务要么被重试,要么被终止。
2. 当S==1时,发生错误时的行为由A标志决定。

下面是ARS三个标志组合起来表示的意义。

ARS 意义
0b000 静默地终止SMMU上的事务,并且会以RAZ/WI成功的响应事务
0b010 以RAZ/WI的方式终止事务,并且会将错误事务记录到事件队列中
0bxx1 Stall model,会将错误记录到事件队列中,软件可以通过发送CMD_RESUME or CMD_STALL_TERM命令重启事务或者终止事务
0b100 静默的将事务中止报告client device
0b110 将事务中止报告client device,并且会将错误事务记录到事件队列中

5.2.故障处理流程

SMMU检测到Fault时的处理流程如下图所示。
故障处理流程

参考资料

  1. Arm ® System Memory Management Unit Architecture Specification version 3.

网站公告

今日签到

点亮在社区的每一天
去签到