一,序言
从代码到能跑的程序,整个过程就像 “把外文翻译成母语,再组装成能直接用的东西”,一步步来更清楚:
源代码(程序员写的代码,如C语言文件)
↓
预处理(处理#开头的命令,如#include、#define)
↓
编译(把预处理后的代码转成汇编语言)
↓
汇编(把汇编语言转成二进制机器码,生成目标文件,如main.o)
↓
链接(合并多个目标文件和库文件,解决函数/变量地址问题)
↓
可执行文件(生成能直接运行的文件,如.exe、ELF格式)
↓
加载运行(操作系统把文件加载到内存,开始执行代码)
二,相关步骤简介
一、源代码:程序员写的 “原始稿”
就是我们用编程语言(比如 C 语言)写的代码,比如这个打印 “你好世界” 的小程序:
#include <stdio.h>
int main() {
printf("Hello, World!\n");
return 0;
}
二、预处理:先 “整理” 代码
用预处理器(比如 GCC 里的 cpp)处理代码里带#的命令,让代码更 “干净”:
1,比如#include <stdio.h>,会直接把 stdio.h 文件里的内容 “复制粘贴” 到代码里(因为 printf 函数的定义就在这个文件里);
2,要是有#define PI 3.14,会把代码里所有 “PI” 换成 “3.14”;
3,还能根据#ifdef这类命令,选择性保留代码(比如调试时用一段,发布时用另一段)。
处理完后,代码里就没有#命令了,只剩纯代码。
三、编译:翻译成 “汇编语言”
用编译器(比如 GCC 里的 cc1)把预处理后的代码,转成电脑硬件能理解的 “汇编语言”(相当于 “二进制的半成品”)。
过程中会检查代码对不对:比如语法错了(少个括号)、类型不匹配(整数函数返回空值)都会报错。
举个例子,前面的代码会变成类似这样的汇编:
main:
推栈操作
准备"Hello, World!"这个字符串
调用printf函数
返回0
出栈操作
四、汇编:转成 “二进制指令”
用汇编器(比如 GCC 里的 as)把汇编语言转成电脑能直接执行的 “二进制机器码”,生成 “目标文件”(比如 main.o)。
这个文件里存着:
1,代码段:二进制的指令(比如调用 printf 的操作);
2,数据段:已经初始化的变量(比如int a=10);
3,符号表:记着变量、函数的位置(比如 printf 在哪儿)。
五、链接:拼出 “能跑的程序”
用链接器(比如 GCC 里的 ld)把多个目标文件(比如自己写的 main.o,还有系统提供的库文件)合并成一个 “可执行文件”。
核心是解决 “找不到东西” 的问题:比如代码里用了 printf,但目标文件里只知道有这个函数,不知道它在哪儿 —— 链接器会找到它在标准库(比如 libc)里的实际位置,把地址填对。
链接分两种:
1,静态链接:直接把库代码(比如 printf 的实现)复制到可执行文件里,文件会变大,但能独立运行;
2,动态链接:只记着依赖哪个库(比如 libc.so),运行时再加载,文件小,但需要系统里有这个库。
六、可执行文件:最终的 “成品”
生成的文件(比如 Windows 的.exe、Linux 的 ELF 文件)里有:
1,文件头:告诉系统怎么加载它、从哪儿开始执行;
2,代码和数据:合并后的二进制指令、变量;
3,动态链接信息(如果用了动态链接):记着需要哪些库。
七、运行:双击就能跑
双击可执行文件后,操作系统会:
1,给它分配内存,建个 “进程”;
2,把文件里的代码、数据从硬盘读到内存;
3,如果是动态链接,会加载需要的库;
4,最后跳到入口点(比如 main 函数),开始执行代码 —— 屏幕上就会显示 “Hello, World!” 啦。
编译型 vs 解释型语言,简单说:
类型 | 编译型(比如 C/C++) | 解释型(比如 Python) |
---|---|---|
执行前 | 先编译 + 链接,生成单独的可执行文件 | 不用编译,直接用解释器一行行读代码跑 |
速度 | 快(直接跑机器码) | 稍慢(每次都要解释) |
跨平台 | 不同系统可能要重新编译(比如 Windows 和 Linux) | 一次写完,有解释器就能跑 |