56 关于 linux 的 oom killer 机制

发布于:2024-05-08 ⋅ 阅读:(19) ⋅ 点赞:(0)

前言

这里主要讲的是 linux 的 oom killer 机制 

在系统可用内存较少的情况下,内核为保证系统还能够继续运行下去,会选择杀掉一些进程释放掉一些内存。
通常oom_killer的触发流程是:进程A想要分配物理内存(通常是读写内存)->触发缺页异常->内核去分配物理内存->物理内存不足,触发OOM。

 

 

测试用例

只要写一个 main, 不断地 malloc, 然后 访问一下 分配的空间即可 

然后 编译, 运行程序, 最终 linux 会 kill 这个进程 

 

完整的 oom_score 日志输出如下 

[  231.115880] Test06Unlimited invoked oom-killer: gfp_mask=0x14280ca(GFP_HIGHUSER_MOVABLE|__GFP_ZERO), nodemask=0, order=0, oom_score_adj=0
[  231.118999] Test06Unlimited cpuset=/ mems_allowed=0
[  231.121073] CPU: 0 PID: 253 Comm: Test06Unlimited Not tainted 4.10.14 #1
[  231.122613] Hardware name: QEMU Standard PC (i440FX + PIIX, 1996), BIOS Ubuntu-1.8.2-1ubuntu1 04/01/2014
[  231.124569] Call Trace:
[  231.124569]  __dump_stack+0x1f/0x21
[  231.124569]  dump_stack+0x58/0x76
[  231.124569]  dump_header+0x71/0xb1
[  231.124569]  oom_kill_process+0x9d/0x365
[  231.124569]  ? oom_evaluate_task+0x8d/0x10c
[  231.124569]  out_of_memory+0x1a6/0x1f1
[  231.124569]  __alloc_pages_slowpath+0xa75/0xae4
[  231.124569]  __alloc_pages_nodemask+0x161/0x218
[  231.124569]  alloc_pages_vma+0x1b4/0x235
[  231.124569]  do_anonymous_page+0x27a/0x585
[  231.124569]  handle_pte_fault+0x115/0x235
[  231.124569]  __handle_mm_fault+0x2b4/0x2ea
[  231.124569]  handle_mm_fault+0x148/0x1f0
[  231.124569]  __do_page_fault+0x40c/0x511
[  231.124569]  do_page_fault+0x22/0x27
[  231.124569]  page_fault+0x28/0x30
[  231.124569] RIP: 0033:0x7f0bf714d3e2
[  231.124569] RSP: 002b:00007ffca24d61d0 EFLAGS: 00000206
[  231.124569] RAX: 0000000000020b21 RBX: 00007f0bf7490b20 RCX: 0000000000100011
[  231.124569] RDX: 0000003c15d8f4e0 RSI: 0000003c15e8f4e0 RDI: 00007f0bf7490b20
[  231.124569] RBP: 0000000000100011 R08: 0000003c15db0000 R09: 00007f0bf76b8700
[  231.124569] R10: 0000003c15db0000 R11: 0000000000000001 R12: 0000000000120b31
[  231.124569] R13: 0000003c15d8f4d0 R14: 0000000000100000 R15: 0000000000100000
[  231.135287] Mem-Info:
[  231.136124] active_anon:312765 inactive_anon:8 isolated_anon:0
[  231.136124]  active_file:1 inactive_file:12 isolated_file:0
[  231.136124]  unevictable:24494 dirty:0 writeback:0 unstable:0
[  231.136124]  slab_reclaimable:2145 slab_unreclaimable:1265
[  231.136124]  mapped:653 shmem:8 pagetables:155990 bounce:0
[  231.136124]  free:13189 free_pcp:150 free_cma:0
[  231.140296] Node 0 active_anon:1251060kB inactive_anon:32kB active_file:4kB inactive_file:48kB unevictable:97976kB isolated(anon):0kB isolated(file):0kB mapped:2612kB dirty:0kB writeback:0kB shmem:32kB shmem_thp: 0kB shmem_pmdmapped: 0kB anon_thp: 0kB writeback_tmp:0kB unstable:0kB pages_scanned:3181 all_unreclaimable? yes
[  231.141882] Node 0 DMA free:8132kB min:356kB low:444kB high:532kB active_anon:5140kB inactive_anon:0kB active_file:0kB inactive_file:0kB unevictable:0kB writepending:0kB present:15992kB managed:15908kB mlocked:0kB slab_reclaimable:0kB slab_unreclaimable:4kB kernel_stack:0kB pagetables:2588kB bounce:0kB free_pcp:0kB local_pcp:0kB free_cma:0kB
[  231.143295] lowmem_reserve[]: 0 1945 1945 1945 1945
[  231.143840] Node 0 DMA32 free:44624kB min:44696kB low:55868kB high:67040kB active_anon:1245932kB inactive_anon:32kB active_file:4kB inactive_file:48kB unevictable:97976kB writepending:0kB present:2080640kB managed:2032384kB mlocked:0kB slab_reclaimable:8580kB slab_unreclaimable:5056kB kernel_stack:992kB pagetables:621372kB bounce:0kB free_pcp:600kB local_pcp:600kB free_cma:0kB
[  231.145484] lowmem_reserve[]: 0 0 0 0 0
[  231.145639] Node 0 DMA: 1*4kB (U) 0*8kB 0*16kB 0*32kB 1*64kB (M) 1*128kB (M) 1*256kB (M) 1*512kB (M) 1*1024kB (U) 1*2048kB (U) 1*4096kB (M) = 8132kB
[  231.146861] Node 0 DMA32: 2*4kB (UM) 11*8kB (UE) 5*16kB (UE) 7*32kB (ME) 5*64kB (UME) 5*128kB (UE) 3*256kB (UME) 1*512kB (M) 1*1024kB (M) 2*2048kB (ME) 9*4096kB (M) = 44624kB
[  231.147655] Node 0 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=2048kB
[  231.148490] 24515 total pagecache pages
[  231.148622] 0 pages in swap cache
[  231.148784] Swap cache stats: add 0, delete 0, find 0/0
[  231.149277] Free swap  = 0kB
[  231.149358] Total swap = 0kB
[  231.149506] 524158 pages RAM
[  231.149634] 0 pages HighMem/MovableOnly
[  231.149977] 12085 pages reserved
[  231.150064] 0 pages cma reserved
[  231.150148] 0 pages hwpoisoned
[  231.150292] [ pid ]   uid  tgid total_vm      rss nr_ptes nr_pmds swapents oom_score_adj name
[  231.151042] [  112]     0   112     6615      596      17       3        0         -1000 systemd-udevd
[  231.151642] [  241]     0   241     1169      425       8       3        0             0 sh
[  231.152080] [  253]     0   253 79844610   312881  155953     307        0             0 Test06Unlimited
[  231.152734] Out of memory: Kill process 253 (Test06Unlimited) score 888 or sacrifice child

 

 

oom-killer 进程的选择

场景是操作系统在申请物理内存的时候 资源已经没有了

然后 导致操作系统需要选择一个 物理内存占用相对较高的进程进行杀掉

然后 这里来看一下 具体的情况

 

 

这里是根据策略寻找一个 最佳匹配的进程

然后下面 oom_kill_process 发送信号, 杀掉对应的进程 

1c46121b93aa4104ba174fbd1b706929.png

 

select_bad_process 相关 

循环所有的进程, 计算 oom_score, oc 中记录 oom_score 最大的分数, 以及对应的进程 

ac70d107256f43e7806f98afd17959ba.png

 

oom_evaluate_task 相关 

某一些进程不能杀, 直接跳过 比如 init进程, 内核进程 

如果给定的进程已经被杀掉了 跳过/放弃

如果进程 有 oom_flag_origin, 直接 select 该进程, 并设置 score 为 LONG_MAX

接下来是根据 进程的情况计算 oom_score, 如果 score 比已有的 oc.choosen_points 大, 更新 oc->choosen, oc->choosen_points

f19f07e824534d78b33bf6941eda5bd7.png

 

oom_unkillable_task 不能杀的这一部分进程 

cfdefb7e01534437875b2eeaea2369f8.png

 

 

oom_badness 计算进程得分情况 

如果 进程不能杀, 得 0 分 

如果进程不存在, 得 0 分 

如果 oom_score_adj 为 OOM_SCORE_ADJ_MIN 或者 有 MMF_OOM_SKIP 标记, 得 0 分 

points 基础为 FILEPAGES + ANNOPAGES + SHMEMPAGES + SWAP_EVENTS + 页框数量 + pmd 数量 

然后 再计算一个 oom_score_adj 的一个偏移 (rampages + swappages) / 1000

最终得分为 points + oom_score_adj

79709ec57ab049119eda97186a0af288.png 

 

在外面 select_bad_process 的地方对于 oom_score 有调整

以这里的 Test06Unlimited 为例

rss 为 312881
swapents 为 0
nr_ptes 为 155953
nr_pmds 为 307
oom_adj_score 为 0
totalpages 为 524158 – 12085 = 512073

根据计算规则 oom_badness 中 oom_score 计算结果为 (((312881 + 0 + 155953 + 307) + (0 * (512073 / 1000))) * 0.97) = 455066
然后 外层的 select_bad_process 更新 oom_score 为 455066 * 1000 / 512073 = 888

MM_RSS 为 FILEPAGES + ANNOPAGES + SHMEMPAGES  3ebda27ff9ed4eac88e60e8dfab8b1fe.png

 

 

输出任务, 寄存器信息

task_struct->comm 可以查看 给定的进程的 执行程序的信息

输出进程相关信息 

5c60bc8e8004406799f86a94d45a5656.png

fbd02266c8434eaba52592aeb937c4c3.png 

 

输出堆栈信息 

printk_stack_address 是输出每一行调用栈信息 

__show_regs 中输出各个寄存器相关 

c167f5544a1b4c25baf3660dbee67816.png

4d6e8048f3574bf49835e835f282cde2.png

0842a513815b470f8f25d646e9bde349.png

 

__show_regs 输出各个寄存器相关信息 

c089d22531c4468aa582680bc391a2d1.png

 

 

输出内存信息 

fcc54fd549e3482c9377dcab6459f314.png

75adb2bd982a4923a720314ccd7eb5b9.png

 

 

输出进程的相关信息 

只要是可以杀掉的进程 统统列出来, 根据这些信息已经可以大致计算出每一个进程的 得分情况了

aa10344810e646aaa8f64c2e9524b40b.png

 

 

输出要杀的进程的信息

40e5d83cf4ab4916b8b27749c51f99f7.png

 

 

 

 

 


网站公告

今日签到

点亮在社区的每一天
去签到