ARM指令集(Instruction Set)细节

发布于:2025-09-12 ⋅ 阅读:(17) ⋅ 点赞:(0)

ARM指令集(Instruction Set)细节

本文旨在深入探讨 ARM 指令集(Instruction Set)的细节。这是一个非常广泛的主题,我会将其分解为关键概念、不同版本的区别以及核心特性,并提供一些示例。

ARM 指令集的核心在于 RISC(精简指令集计算机) 设计哲学,这意味着:

  • 指令数量少且规整:大多数指令长度固定(通常是32位或16位),格式一致,解码简单。
  • 加载-存储架构:只有专门的加载(LDR)和存储(STR)指令可以访问内存。所有算术和逻辑运算都是在寄存器之间进行的。
  • 大量的通用寄存器:拥有16个(在AArch32下)或31个(在AArch64下)通用寄存器,减少了访问内存的次数,提高了效率。

1. 两种主要指令集状态:AArch32 与 AArch64

AArch32/64的全称是 ARM Architecture 32/64-bit

这是理解现代 ARM 指令集的首要概念。ARMv8 架构引入了 64 位执行状态,并向后兼容 32 位。

特性 AArch32 (ARM 32-bit) AArch64 (ARM 64-bit)
架构版本 ARMv4T 到 ARMv8-A (兼容模式) ARMv8-A 及更高
指令集 ARMThumbThumb-2 A64
指令长度 ARM: 32-bit; Thumb: 16-bit; Thumb-2: 16/32-bit 固定 32-bit
通用寄存器 16个 (R0-R15),包括:
- R13: SP (堆栈指针)
- R14: LR (链接寄存器)
- R15: PC (程序计数器)
31个 (X0-X30),加上:
- XZR: 零寄存器 (恒为0)
- SP: 堆栈指针 (独立)
程序计数器 是通用寄存器 R15 不是通用寄存器,无法直接操作
条件执行 大多数指令都可以条件执行(通过条件码) 只有分支等少数指令可以条件执行
操作数 第二个操作数非常灵活(立即数 + 移位/循环) 寻址模式更严格,但仍有灵活性

2. AArch32 下的指令集变体

在 32 位世界中,处理器可以在两种主要状态之间切换:

a. ARM 指令集 (32-bit)
  • 特点:高性能、全功能。所有指令都是 32 位宽。
  • 条件执行:这是 ARM 模式的一个标志性特性。几乎每条指令都可以根据 APSR(程序状态寄存器)中的条件标志(N, Z, C, V)来条件地执行。
    • 示例:ADDEQ R0, R1, R2 ; 如果相等(Z=1),则执行 R0 = R1 + R2
  • 灵活的第二个操作数
    • 示例 1: ADD R0, R1, #42 ; 立即数
    • 示例 2: ADD R0, R1, R2 ; 寄存器
    • 示例 3: ADD R0, R1, R2, LSL #3 ; 寄存器 R2 逻辑左移 3 位后的值
    • 示例 4: ADD R0, R1, R2, ROR R3 ; 寄存器 R2 循环右移 R3 位后的值
b. Thumb / Thumb-2 指令集 (16/32-bit)
  • 初衷 (Thumb):提供更高的代码密度。指令是 16 位的,因此占用的内存空间更小。性能通常低于 ARM 模式,因为需要更多指令来完成相同任务。
  • 进化 (Thumb-2):ARMv6T2 及以后版本引入。它混合了 16 位和 32 位指令,在保持高代码密度的同时,提供了接近 ARM 模式的性能。Thumb-2 是现代 Cortex-M 和 Cortex-R 系列处理器唯一支持的指令集状态(它们无法执行传统的 32 位 ARM 指令)。
  • 特点:指令长度可变(2 字节或 4 字节),条件执行能力有限(主要用于分支指令)。

3. AArch64 下的 A64 指令集

这是纯粹的 64 位指令集,设计上吸取了 AArch32 的经验教训。

  • 固定长度:所有指令都是 32 位宽,解码简单。
  • 取消大规模条件执行:只有分支、比较和少数其他指令支持条件执行。这释放了宝贵的指令编码空间,用于其他功能。
  • 新的指令编码:拥有 31 个通用寄存器(X0-X30),64位(X)和32位(W)视图。
    • ADD X0, X1, X2 ; 64位加法
    • ADD W0, W1, W2 ; 32位加法,结果高32位清零
  • 改进的立即数和寻址模式:虽然不如 AArch32 灵活,但仍然功能强大。
  • 零寄存器XZR/WZR 寄存器始终返回 0,简化了许多操作(例如,比较、清零)。
    • 示例:MOV X0, XZR ; 将 X0 清零 (实际上是一条 ORR 指令的别名)

4. 关键指令类别(通用)

a. 数据处理指令
  • 算术运算ADD, ADC (带进位加), SUB, SBC (带借位减), MUL, MLA (乘加)
  • 逻辑运算AND, ORR (或), EOR (异或), BIC (位清除, A AND NOT B)
  • 移位操作LSL (逻辑左移), LSR (逻辑右移), ASR (算术右移), ROR (循环右移)
  • 比较指令CMP (比较,本质上是 SUBS), CMN (负数比较), TST (位测试,本质上是 ANDS), TEQ (相等测试)
b. 加载-存储指令

这是 ARM 架构的基石。

  • 单寄存器传输
    • LDR R0, [R1] ; 从 R1 指向的地址加载一个字到 R0
    • STR R0, [R1] ; 将 R0 中的字存储到 R1 指向的地址
    • 支持前变址、后变址等多种寻址模式:
      • LDR R0, [R1, #4]! ; 前变址:地址 = R1+4,然后 R1 = R1+4
      • LDR R0, [R1], #4 ; 后变址:地址 = R1,然后 R1 = R1+4
  • 多寄存器传输LDM (加载多个), STM (存储多个),用于高效地操作堆栈和内存块。
    • 示例:STMDB SP!, {R4-R11, LR} ; 压栈:将寄存器 R4-R11 和 LR 压入堆栈 (在函数开头)
    • 示例:LDMIA SP!, {R4-R11, PC} ; 出栈:从堆栈恢复 R4-R11,并将返回地址直接装入 PC (函数返回)
c. 分支与控制流指令
  • B label ; 无条件跳转到标签 label
  • BL label ; 分支并链接:跳转到标签,同时将返回地址 (PC+4) 存入 LR (R14)。用于函数调用
  • BX R0 ; 分支并交换指令集(例如,从 ARM 切换到 Thumb,反之亦然)
  • RET X30 ; (A64) 从函数返回,相当于 MOV PC, LR
d. 协处理器和系统指令
  • MRS R0, CPSR ; 将特殊寄存器(如 CPSR)的值移动到通用寄存器 R0
  • MSR CPSR, R0 ; 将 R0 的值移动到特殊寄存器
  • SVC #0x80 ; (AArch32) 发起一个系统调用(软件中断)
  • HVC, SMC ; 用于虚拟化和安全监控调用

5. 条件执行(AArch32 的精华)

条件码附加在指令助记符的后面。条件基于 APSR 中的标志位:

条件码 含义 标志位测试
EQ 相等 Z == 1
NE 不相等 Z == 0
CS/HS 进位置位/无符号高于或相同 C == 1
CC/LO 进位清零/无符号低于 C == 0
MI 负数 N == 1
PL 正数或零 N == 0
VS 溢出 V == 1
VC 无溢出 V == 0
HI 无符号高于 (C == 1) && (Z == 0)
LS 无符号低于或相同 (C == 0) || (Z == 1)
GE 有符号大于或等于 N == V
LT 有符号小于 N != V
GT 有符号大于 (Z == 0) && (N == V)
LE 有符号小于或等于 (Z == 1) || (N != V)
AL 总是执行 无条件

示例:高效的除法余数计算

; C 代码: if (a > b) { a = a - b; }
; R0 = a, R1 = b
CMP R0, R1       ; 比较 a 和 b
SUBHI R0, R0, R1 ; 如果 a > b (无符号), 则执行 a = a - b
; 这避免了分支指令,提高了效率(无流水线冲刷)。

总结

  • ARM (AArch32):功能强大,灵活性高,以条件执行和灵活的桶式移位器为特点。
  • Thumb-2:代码密度高,性能好,是 Cortex-M 系列的默认和唯一选择。
  • A64 (AArch64):现代 64 位设计,规则化,拥有更多寄存器,专注于性能和能效,用于高端应用处理器。

理解 ARM 指令集的关键在于实践。使用 QEMU 模拟器或一块简单的开发板(如 Raspberry Pi 或 STM32 Nucleo),通过反汇编编译器生成的代码,是学习细节的最佳方式。


网站公告

今日签到

点亮在社区的每一天
去签到