网易运维面试题及参考答案-EW帮帮网

介绍一下 OSI 七层模型，（TCP、DNS、HTTP 等协议）工作在哪层？

OSI 七层模型从下到上分别是：

物理层：负责处理物理介质上的信号传输，比如电缆、光纤等传输介质，以及相关的物理设备，如集线器、中继器等。它定义了硬件的电气、机械特性等，确保比特流能在物理介质上正确传输。
数据链路层：主要功能是将物理层传来的原始比特流组织成帧，进行差错检测和纠正，以及介质访问控制。像以太网协议就属于数据链路层协议，常见设备有交换机。
网络层：负责将数据包从源节点传输到目标节点，主要处理网络地址和路由选择。IP 协议就在此层，它为每个设备分配 IP 地址，路由器根据 IP 地址进行数据包的转发。
传输层：提供端到端的通信服务，确保数据的可靠传输。TCP 和 UDP 协议位于此层。TCP 提供可靠的面向连接的服务，通过三次握手建立连接，保证数据的有序和无差错传输；UDP 则是无连接的，不保证数据的可靠性，但传输速度快，常用于实时性要求高的应用，如视频流、音频流。
会话层：负责建立、维护和管理会话，如会话的建立、拆除和同步等。
表示层：主要处理数据的表示、转换和加密等，例如将数据转换为特定的格式，如 ASCII、UTF - 8 等，或者进行数据加密和解密。
应用层：为用户提供应用程序接口，直接与用户和应用程序交互，像 HTTP、DNS、SMTP、FTP 等协议都在应用层。HTTP 用于网页访问，DNS 用于域名解析，将域名转换为 IP 地址，方便网络设备找到目标服务器。

问一下网络，交换机和路由器的区别？路由器和交换机关注的重点是什么（交换机如何维护一个地址转发表）？

交换机和路由器有以下区别：

工作层次：交换机工作在数据链路层，主要根据 MAC 地址转发数据帧；路由器工作在网络层，依据 IP 地址转发数据包。
功能：交换机用于连接多个设备，构建局域网，实现设备间的高速数据交换，能隔离冲突域，但不能隔离广播域；路由器用于连接不同的网络，实现网络间的数据路由和通信，可隔离广播域，还能进行网络地址转换（NAT）等。
寻址方式：交换机通过学习 MAC 地址来建立和维护地址转发表，根据目的 MAC 地址转发数据帧；路由器通过路由表来确定数据包的转发路径，根据目的 IP 地址进行转发。

路由器关注的重点是网络层的路由选择和数据包转发，要根据网络拓扑结构和路由协议，计算出最佳的数据包转发路径，确保数据能在不同网络之间准确传输。同时，还需处理网络地址转换、访问控制等功能。

交换机关注的重点是数据链路层的数据帧转发和交换，要快速准确地根据 MAC 地址将数据帧从一个端口转发到另一个端口，以实现局域网内设备间的高速通信。

交换机维护地址转发表的方式如下：当交换机收到一个数据帧时，会检查帧中的源 MAC 地址和接收端口。如果源 MAC 地址不在地址转发表中，交换机就会将该 MAC 地址和接收端口的对应关系添加到地址转发表中。当交换机需要转发数据帧时，会查找地址转发表，根据目的 MAC 地址找到对应的端口，然后将数据帧从该端口转发出去。同时，地址转发表中的条目有一定的老化时间，若在一段时间内没有收到某个 MAC 地址对应的数据包，交换机就会删除该条目，以保证地址转发表的有效性和及时性。

路由协议了解哪些？介绍下 RIP 和 OSPF 的区别，讲一下 OSPF 的 DR 选举过程。

常见的路由协议有 RIP（路由信息协议）、OSPF（开放式最短路径优先）、BGP（边界网关协议）等。

RIP 和 OSPF 的区别如下：

协议类型：RIP 是距离矢量路由协议，它通过向邻居发送自己的路由表信息来更新路由；OSPF 是链路状态路由协议，路由器会向整个网络泛洪链路状态信息，每个路由器根据这些信息构建网络拓扑图，然后计算到达目标网络的最短路径。
度量值：RIP 以跳数作为度量值，即数据包到达目标网络所经过的路由器数量。OSPF 使用带宽、延迟、可靠性等因素综合计算出的开销作为度量值，能更准确地反映网络的实际情况。
收敛速度：RIP 收敛速度较慢，尤其是在大型网络中，当网络拓扑发生变化时，可能需要较长时间才能将变化传播到整个网络。OSPF 收敛速度快，能快速感知网络拓扑的变化并更新路由表，减少网络中断时间。
网络规模：RIP 适用于小型网络，因为跳数限制（最大 15 跳）以及慢收敛的特点，在大型网络中可能会出现路由环路等问题。OSPF 适合大型网络，可支持大量的路由器和网络节点，能有效管理复杂的网络拓扑。

OSPF 的 DR（指定路由器）选举过程如下：

首先，在一个 OSPF 网络中，路由器启动后会发送 Hello 报文来发现邻居路由器。
每个路由器会在 Hello 报文中携带自己的优先级、Router ID 等信息。优先级默认为 1，取值范围是 0 - 255，优先级越高越有可能被选举为 DR，优先级为 0 表示该路由器不参与 DR 选举。Router ID 是一个唯一标识路由器的 32 位数字，通常是路由器的接口 IP 地址或通过手工配置。
当路由器收到邻居的 Hello 报文后，会比较优先级。如果优先级不同，优先级高的路由器将被选举为 DR；如果优先级相同，则比较 Router ID，Router ID 大的路由器被选举为 DR。
在广播型网络（如以太网）中，DR 选举完成后，还会选举出 BDR（备份指定路由器），选举过程与 DR 类似，BDR 在 DR 出现故障时会接替 DR 的工作。
DR 和 BDR 选举出来后，其他路由器成为 DROther。DROther 只与 DR 和 BDR 建立完全邻接关系，互相交换链路状态信息，而 DROther 之间只建立部分邻接关系，这样可以减少网络中的链路状态信息泛洪，提高网络效率。

常用有哪些网络诊断工具？讲一下 ping、traceroute、tcpdump 实现的原理，traceroute 是如何在 TTL 过期后，得知发送下一个报文的？ping 的作用是什么？如果 ping 不通，可能原因是？

常用的网络诊断工具包括 ping、traceroute、tcpdump、netstat、nslookup 等。

ping 的原理是利用 ICMP（互联网控制报文协议）协议。它向目标主机发送 ICMP Echo Request 报文，目标主机收到后会返回 ICMP Echo Reply 报文。通过发送和接收这些报文，来判断源主机与目标主机之间的网络连通性和往返时间。

traceroute 的原理是通过发送 UDP 数据包或 ICMP Echo Request 报文，并设置不同的 TTL（生存时间）值。每个路由器在转发数据包时会将 TTL 值减 1，当 TTL 值减为 0 时，路由器会向源主机发送 ICMP Time Exceeded 报文，源主机根据收到的这些报文来确定数据包经过的路由器路径。

tcpdump 是一个网络数据包捕获工具，它通过监听网络接口，捕获流经该接口的所有数据包，并根据用户指定的过滤条件进行筛选和显示。它可以分析数据包的头部信息，包括源地址、目的地址、协议类型、端口号等，帮助用户了解网络中正在传输的数据内容。

traceroute 在 TTL 过期后得知发送下一个报文的方式是：当路由器发现数据包的 TTL 值为 0 时，会向源主机发送 ICMP Time Exceeded 报文，报文中包含了路由器的 IP 地址。traceroute 程序收到该报文后，就知道了数据包在哪个路由器上 TTL 过期，然后将下一个数据包的 TTL 值加 1，继续发送，直到到达目标主机或达到最大跳数限制。

ping 的作用主要有：检查网络连通性，判断源主机与目标主机之间的网络是否可达；测量网络延迟，通过计算往返时间来评估网络的响应速度；验证网络配置，例如检查 IP 地址、网关、DNS 等配置是否正确。

如果 ping 不通，可能原因有：

网络连接问题：如网线未插好、交换机端口故障、路由器故障等，导致物理链路中断。
IP 地址配置错误：源主机或目标主机的 IP 地址配置不正确，如 IP 地址冲突、子网掩码错误、网关配置错误等，导致数据包无法正确路由。
防火墙限制：目标主机或中间网络设备上的防火墙可能阻止了 ICMP 报文的通过，导致 ping 请求被丢弃。
网络拥塞：网络中数据流量过大，导致数据包丢失或延迟过高，可能使 ping 请求无法及时得到响应。
DNS 解析问题：如果使用域名进行 ping 操作，可能是 DNS 解析出现问题，无法将域名正确转换为 IP 地址。

访问一个 URL 经历了哪些过程？

当访问一个 URL 时，通常会经历以下过程：

域名解析：浏览器首先检查本地的 DNS 缓存，看是否有该域名对应的 IP 地址。如果没有，就会向本地 DNS 服务器发送域名解析请求。本地 DNS 服务器可能会继续向根 DNS 服务器、顶级域名服务器等查询，直到找到该域名对应的 IP 地址，并将其返回给浏览器。
建立连接：浏览器根据获得的 IP 地址，与目标服务器建立 TCP 连接。这通过三次握手来完成，首先浏览器发送 SYN 报文，服务器收到后回复 SYN - ACK 报文，最后浏览器发送 ACK 报文，连接建立成功。
发送请求：连接建立后，浏览器根据 URL 中指定的路径和参数，构建 HTTP 请求报文，并将其发送到目标服务器。请求报文中包含请求方法（如 GET、POST 等）、请求头字段（如 User - Agent、Accept 等）以及请求体（如果有）。
服务器处理请求：服务器收到请求后，根据请求的内容进行处理。例如，可能会查询数据库、读取文件、执行脚本等，以生成响应数据。
发送响应：服务器将处理结果封装在 HTTP 响应报文中，发送给浏览器。响应报文包含状态码（如 200 表示成功、404 表示未找到等）、响应头字段（如 Content - Type、Content - Length 等）和响应体（即返回给浏览器的实际数据，如 HTML 页面、图片、视频等）。
浏览器渲染页面：浏览器收到响应后，首先根据状态码判断请求是否成功。如果成功，就会根据响应头中的 Content - Type 字段来确定如何处理响应体。对于 HTML 页面，浏览器会解析 HTML 代码，构建 DOM 树，然后根据 CSS 样式对页面进行布局和渲染，同时加载页面中引用的图片、脚本等资源，最终将完整的页面呈现给用户。
连接关闭：当页面加载完成后，浏览器和服务器之间的 TCP 连接可以根据情况选择关闭或保持一段时间，以便后续的请求复用连接，提高性能。如果连接保持，在一定时间内浏览器再次向同一服务器发送请求时，就可以直接使用已建立的连接，而无需重新进行三次握手。

3 次或 4 次握手的过程是怎样的？SYN 状态位值突然增大可能的原因是什么？

三次握手过程：

客户端向服务器发送一个带有 SYN（同步序列号）标志位的 TCP 报文段。这个报文段中包含客户端选择的初始序列号（Sequence Number），假设为 x。此时客户端进入 SYN_SENT 状态，表示客户端已发送同步请求。
服务器接收到客户端的 SYN 报文后，会向客户端回复一个 SYN + ACK 报文。该报文中的 SYN 标志位表示这也是一个同步请求，ACK 标志位用于确认客户端的 SYN 请求。服务器在这个报文中设置自己的初始序列号，假设为 y，同时确认号（Acknowledgment Number）设置为客户端的序列号 x 加 1，即 x + 1。此时服务器进入 SYN_RCVD 状态。
客户端收到服务器的 SYN + ACK 报文后，再向服务器发送一个 ACK 报文。这个 ACK 报文的确认号为服务器的序列号 y 加 1，即 y + 1，序列号为客户端之前发送的序列号 x 加 1，即 x + 1。服务器收到这个 ACK 报文后，双方的 TCP 连接正式建立，客户端和服务器都进入 ESTABLISHED 状态。

四次握手过程（通常指 TCP 连接关闭时的四次挥手）：

主动关闭方（假设为客户端）发送一个 FIN（结束标志位）报文，该报文的序列号为 u，此时客户端进入 FIN_WAIT_1 状态，表示客户端准备关闭连接。
服务器收到客户端的 FIN 报文后，会发送一个 ACK 报文作为确认。这个 ACK 报文的确认号为 u + 1，序列号为 v（服务器之前发送数据时的序列号），此时服务器进入 CLOSE_WAIT 状态，客户端收到 ACK 后进入 FIN_WAIT_2 状态。
当服务器也准备好关闭连接时，会向客户端发送一个 FIN 报文，序列号为 w（可能与之前的 v 不同，具体看数据发送情况），确认号仍为 u + 1，此时服务器进入 LAST_ACK 状态。
客户端收到服务器的 FIN 报文后，发送一个 ACK 报文进行确认，确认号为 w + 1，序列号为 u + 1，客户端进入 TIME_WAIT 状态。经过一段时间（2 倍的 MSL，最大段生存期）后，客户端彻底关闭连接，服务器收到 ACK 后也关闭连接。

SYN 状态位值突然增大可能的原因：

SYN Flood 攻击：攻击者向目标服务器发送大量伪造源 IP 地址的 SYN 报文，服务器为每个 SYN 请求分配资源并返回 SYN + ACK 报文，但由于源 IP 是伪造的，服务器收不到客户端的 ACK 响应，导致大量半连接处于 SYN_RCVD 状态，使得 SYN 状态位值急剧增加。
网络拥塞：网络中数据流量过大，导致部分 TCP 连接建立过程中的报文延迟或丢失。客户端在超时后会重发 SYN 报文，从而导致 SYN 状态位值上升。
服务器性能问题：服务器自身处理能力不足，无法及时处理大量的 TCP 连接请求，使得 SYN 请求堆积，SYN 状态位值增大。例如服务器 CPU、内存等资源被其他进程过度占用，导致处理 SYN 请求的速度变慢。

TIME_WAIT 状态过多，该怎么办？需要调哪些参数？

当系统中 TIME_WAIT 状态过多时，可能会占用大量的系统资源，影响新的 TCP 连接的建立。可以采取以下措施：

优化应用程序层面：

减少短连接使用：如果应用程序频繁创建和关闭 TCP 连接，尝试优化应用逻辑，将短连接改为长连接。例如，对于一些频繁查询数据库的操作，如果每次查询都创建一个新的 TCP 连接到数据库服务器，可改为复用已有的连接，这样能减少连接建立和关闭的次数，从而减少 TIME_WAIT 状态的产生。
合理设置连接关闭时机：确保应用程序在合适的时间关闭 TCP 连接，避免不必要的连接关闭和重新建立。例如，在一个数据传输任务完成后，不要立即关闭连接，如果后续还有可能进行相关的数据交互，可保持连接一段时间，等待下一次任务使用。

操作系统参数调整：

net.ipv4.tcp_tw_reuse：该参数用于控制是否允许重用处于 TIME_WAIT 状态的连接。将其设置为 1，表示允许重用。这样在新的 TCP 连接建立时，如果有合适的处于 TIME_WAIT 状态的连接可以复用，就能减少新连接的建立时间和资源消耗。但启用此参数需要注意，只有在客户端的时间戳（Timestamp）功能开启时才有效。
net.ipv4.tcp_tw_recycle：此参数决定是否开启 TIME_WAIT 状态连接的快速回收。设置为 1 时，系统会尝试快速回收处于 TIME_WAIT 状态的连接。然而，在 NAT 环境下，该参数可能会导致一些问题，因为 NAT 会改变数据包的源 IP 地址，使得系统无法正确识别不同客户端的连接，可能会错误地回收连接，所以在 NAT 环境中使用此参数需要谨慎评估。
net.ipv4.tcp_fin_timeout：它定义了 TCP 连接在 FIN_WAIT_2 状态下等待对方关闭连接的时间。默认值通常为 60 秒，可以适当减小这个值，比如设置为 30 秒，这样能加快处于 FIN_WAIT_2 状态的连接进入 TIME_WAIT 状态并最终被清理的速度，从而减少 TIME_WAIT 状态的数量。但设置得过小可能会导致某些正常的连接关闭流程出现问题，需要根据实际情况调整。

抓包分析工具都用过哪些？tcpdump 如何添加 IP 和端口？

常见的抓包分析工具众多，以下为你介绍几款：

Wireshark：一款广受欢迎的开源抓包工具，具备直观的图形化界面。能支持众多网络协议的解析，从常见的 TCP、UDP 到较为复杂的蓝牙、802.11 无线协议等。用户可以通过简单的鼠标操作进行数据包的捕获与分析，并且能方便地使用过滤器筛选出关注的数据包，如按 IP 地址、端口号、协议类型等条件筛选。
tcpdump：常用于 Linux 系统的命令行抓包工具。它以高效著称，无需复杂的图形界面支持，在服务器环境中使用方便。通过简单的命令参数即可实现数据包的捕获与过滤。
Tshark：作为 Wireshark 的命令行版本，继承了 Wireshark 强大的协议解析能力。在一些不便于使用图形界面的场景，如远程服务器的抓包分析工作中，Tshark 能发挥重要作用，同样可通过命令参数设置抓包条件。
Sniffer Pro：曾经广泛应用于 Windows 系统的抓包工具，具有丰富的功能。不仅可以进行数据包捕获，还能对网络流量进行实时监控与分析，生成直观的图表，帮助用户快速了解网络状况。

使用 tcpdump 添加 IP 和端口进行抓包，有多种方式：

指定源 IP 和目的 IP：若要捕获源 IP 为 192.168.1.100 且目的 IP 为 192.168.1.200 的数据包，命令为 tcpdump host 192.168.1.100 and host 192.168.1.200。其中，host关键字用于指定 IP 地址，and用于连接多个条件。
指定源端口或目的端口：如果要捕获源端口为 80 或者目的端口为 8080 的数据包，命令为 tcpdump port 80 or port 8080。这里，port关键字用于指定端口号，or表示满足其中一个条件即可。
同时指定 IP 和端口：假设要捕获源 IP 为 192.168.1.100 且源端口为 80 的数据包，命令为 tcpdump src host 192.168.1.100 and src port 80。其中，src表示源，dst则表示目的，可根据实际需求灵活组合使用。

SSH 如何指定端口和协议？

SSH（Secure Shell）是一种用于远程登录和文件传输的安全协议。在使用 SSH 时，可以通过特定的参数来指定端口和协议。

指定端口：
默认情况下，SSH 使用 22 端口。但有时服务器可能会将 SSH 服务运行在其他端口上，以增强安全性或满足特定的网络配置需求。要指定 SSH 连接的端口，可以使用-p参数。例如，要连接到 IP 地址为 192.168.1.100，端口为 2222 的服务器，命令如下：
ssh -p 2222 username@192.168.1.100
这里，username是在目标服务器上的用户名。通过-p参数明确指定了连接的端口为 2222，SSH 客户端会尝试连接到该指定端口上的 SSH 服务。

指定协议：
SSH 协议有两个主要版本，即 SSH1 和 SSH2。SSH2 相对 SSH1 更加安全和高效，目前大多数系统默认使用 SSH2。如果要明确指定使用的 SSH 协议版本，可以使用-o Protocol=version参数，其中version可以是 1 或 2。例如，要使用 SSH1 协议连接到目标服务器，命令如下：
ssh -o Protocol=1 username@192.168.1.100
不过，由于 SSH1 存在一些安全漏洞，现在很少使用，除非目标服务器仅支持 SSH1 协议，否则一般建议使用默认的 SSH2 协议，无需特别指定协议版本。在大多数情况下，直接使用ssh username@192.168.1.100这样的命令，客户端会自动尝试使用 SSH2 协议进行连接，如果连接失败，再根据错误提示进一步排查，如是否需要指定端口或其他连接参数。

iptables 映射时用到什么链？介绍一下 iptables 的四表五链，NAT 表都有哪些链，如何开启 Linux 系统的路由转发功能，写一条防火墙规则拒绝别人访问自己的 IP。

iptables 映射时用到的链：在 iptables 进行网络地址转换（NAT）映射时，通常会用到POSTROUTING链。比如在源地址转换（SNAT）场景中，当数据包从内部网络发往外部网络时，在数据包离开本地系统之前，POSTROUTING链会对数据包的源 IP 地址进行转换。而在目的地址转换（DNAT）时，对于进入本地系统且需要进行目的地址映射的数据包，一般会在PREROUTING链进行处理，不过具体的配置也会根据实际的网络拓扑和需求有所不同。

iptables 的四表五链：

四表：
- filter 表：主要用于包过滤，根据定义的规则决定是否允许数据包通过。它是 iptables 中使用最频繁的表，可基于源 IP、目的 IP、端口号、协议等条件对数据包进行过滤。
- nat 表：负责网络地址转换，包括源地址转换（SNAT）和目的地址转换（DNAT）。常用于实现内网主机共享公网 IP 访问互联网，或者将公网的特定端口映射到内网的某个主机。
- mangle 表：主要用于修改数据包的某些字段，如 TOS（服务类型）、TTL（生存时间）等，也可用于设置数据包的标记，以便后续在其他规则中进行更复杂的处理。
- raw 表：主要用于配置数据包的连接跟踪，在数据包进入连接跟踪机制之前对其进行处理，可用于排除某些数据包不进行连接跟踪，以提高性能。
五链：
- INPUT 链：用于处理进入本地系统的数据包，决定是否允许这些数据包到达本地系统上运行的应用程序。
- OUTPUT 链：处理本地系统产生并向外发送的数据包，可对本地系统发出的数据包进行过滤或修改。
- FORWARD 链：当系统作为路由器转发数据包时，用于处理经过本地系统但不发给本地系统的数据包，决定是否允许这些数据包从一个网络接口转发到另一个网络接口。
- PREROUTING 链：在数据包到达路由决策之前进行处理，常用于目的地址转换（DNAT），例如将发往公网 IP 特定端口的数据包重定向到内网的某个主机。
- POSTROUTING 链：在数据包完成路由决策之后，即将离开本地系统时进行处理，常用于源地址转换（SNAT），比如让内网主机共享公网 IP 上网。

NAT 表的链：NAT 表包含PREROUTING、POSTROUTING和OUTPUT链。PREROUTING链用于目的地址转换（DNAT），在数据包进入系统进行路由决策之前，修改数据包的目的 IP 地址；POSTROUTING链用于源地址转换（SNAT），在数据包离开系统之前，修改数据包的源 IP 地址；OUTPUT链用于处理本地系统产生的数据包的地址转换，当本地系统产生的数据包需要进行地址转换时，可在此链进行配置。

开启 Linux 系统的路由转发功能：在 Linux 系统中，可以通过修改/etc/sysctl.conf文件来开启路由转发功能。打开该文件，找到并确保net.ipv4.ip_forward = 1这一行存在且未被注释（如果不存在则添加这一行）。修改完成后，在终端执行sysctl -p命令使配置生效。执行该命令后，系统会读取/etc/sysctl.conf文件中的配置，并应用新的参数设置，从而开启 Linux 系统的路由转发功能，使系统能够像路由器一样转发数据包。

写一条防火墙规则拒绝别人访问自己的 IP：使用 iptables 可以编写如下规则拒绝别人访问自己的 IP。假设本地系统的 IP 地址为 192.168.1.100，要拒绝所有外部主机对该 IP 的访问，可以在INPUT链中添加规则。命令如下：
iptables -A INPUT -s 0.0.0.0/0 -d 192.168.1.100 -j DROP
这条命令的含义是，在INPUT链中追加（-A）一条规则，源地址（-s）为任意地址（0.0.0.0/0 表示所有地址），目的地址（-d）为 192.168.1.100，当匹配到这样的数据包时，执行丢弃（-j DROP）操作，从而实现拒绝别人访问自己 IP 的目的。

数字签名的原理是什么？认证过程是怎样的？

数字签名的原理基于公钥加密技术和哈希算法。首先，发送方对要发送的消息使用哈希算法生成一个固定长度的哈希值，这个哈希值是消息的 “指纹”，它唯一地代表了该消息，无论消息大小如何，哈希值的长度都是固定的。然后，发送方使用自己的私钥对这个哈希值进行加密，得到数字签名。

认证过程如下：接收方收到消息和数字签名后，首先使用与发送方相同的哈希算法对收到的消息生成一个哈希值。接着，接收方使用发送方的公钥对数字签名进行解密，得到发送方加密前的哈希值。最后，接收方将自己生成的哈希值与解密得到的哈希值进行对比，如果两者相等，就说明消息在传输过程中没有被篡改，并且该消息确实是由拥有对应私钥的发送方发送的，因为只有发送方的私钥才能正确加密生成这个数字签名，而只有发送方的公钥才能正确解密这个数字签名。

SSH 的公钥认证中，公私钥的存放方式是怎样的，公钥在服务器还是私钥在服务器？

在 SSH 公钥认证中，公私钥的存放方式如下：私钥存放在客户端用户的本地设备上，并且需要严格保密，只有用户自己能够访问和使用。公钥则存放在服务器上，通常存放在服务器上用户的家目录下的.ssh目录中，文件名为authorized_keys。

当用户使用 SSH 客户端连接到服务器时，客户端会向服务器发送自己的公钥。服务器收到公钥后，会在authorized_keys文件中查找是否有匹配的公钥。如果找到匹配的公钥，服务器就会使用该公钥对一个随机数进行加密，并将加密后的随机数发送给客户端。客户端收到加密后的随机数后，使用本地的私钥进行解密，并将解密后的结果发送回服务器。服务器收到客户端发送的结果后，进行验证，如果验证通过，就允许用户登录。这种方式避免了在网络上传输明文密码，提高了安全性。

谈一下对 Linux 的理解。

Linux 是一种开源的、多用户、多任务的操作系统，具有高度的稳定性、安全性和灵活性。它最初是由 Linus Torvalds 开发的，基于 Unix 操作系统的理念，经过多年的发展，已经成为了一个庞大而成熟的操作系统家族。

Linux 的内核是其核心部分，负责管理系统资源、进程调度、内存管理、设备驱动等底层功能。它支持多种硬件平台，从个人电脑到服务器，甚至是嵌入式设备，都可以运行 Linux 系统。

Linux 拥有丰富的软件资源，包括各种开发工具、服务器软件、办公软件、图形界面等。用户可以根据自己的需求自由选择和安装软件，满足不同的工作和学习需求。

Linux 的文件系统结构清晰，采用树形结构，以/为根目录，将系统文件和用户文件分别存放在不同的目录下，便于管理和维护。

此外，Linux 具有强大的命令行功能，用户可以通过命令行执行各种操作，如文件管理、进程管理、系统配置等。命令行工具丰富且功能强大，熟练掌握命令行操作可以提高系统管理和运维的效率。

Linux 还支持多用户同时使用系统，每个用户都有自己的账户和权限，可以根据需要进行资源分配和访问控制，保证系统的安全性和稳定性。

介绍一下学习的 Linux 命令有哪些？

ls：用于列出目录下的文件和子目录。可以通过不同的参数来实现不同的显示效果，如-l以长格式显示文件的详细信息，包括文件权限、所有者、大小、修改时间等；-a显示所有文件，包括隐藏文件。
cd：用于切换当前工作目录。可以通过指定绝对路径或相对路径来切换到不同的目录。例如，cd /home/user可以切换到/home/user目录，cd..可以切换到上一级目录。
cp：用于复制文件或目录。可以将一个或多个文件复制到指定的目标位置，也可以复制整个目录及其内容。例如，cp file1.txt file2.txt将file1.txt复制为file2.txt，cp -r dir1 dir2将dir1目录及其所有内容复制到dir2目录。
mv：用于移动文件或目录，也可以用于重命名文件或目录。如果目标位置与源位置不同，则将文件或目录移动到目标位置；如果目标位置是一个新的文件名，则实现重命名操作。例如，mv file1.txt /home/user/file2.txt将file1.txt移动到/home/user目录下并命名为file2.txt，mv file1.txt file3.txt将file1.txt重命名为file3.txt。
rm：用于删除文件或目录。使用时要小心，因为删除的文件或目录很难恢复。例如，rm file1.txt删除file1.txt文件，rm -r dir1删除dir1目录及其所有内容。
grep：用于在文件中搜索指定的字符串或模式。可以通过各种参数来实现不同的搜索功能，如-i忽略大小写，-n显示匹配行的行号。例如，grep "hello" file.txt在file.txt文件中搜索包含hello字符串的行。
ps：用于查看当前系统中的进程状态。可以显示进程的 PID、PPID、占用的 CPU 和内存等信息。例如，ps -ef以全格式显示所有进程的详细信息。
top：用于实时监控系统的资源使用情况，包括 CPU、内存、进程等。可以动态显示系统中占用资源最多的进程，并实时更新信息。
chmod：用于修改文件或目录的权限。可以通过数字模式或符号模式来设置权限。例如，chmod 755 file.txt将file.txt的权限设置为所有者可读、可写、可执行，组用户和其他用户可读、可执行。

centos 都用过哪些版本，不同版本之间有什么区别，比如在安装包时有什么区别？

CentOS 有多个版本，常见的有 CentOS 6、CentOS 7 和 CentOS 8 等。

CentOS 6：使用的是较旧的系统架构和软件版本。在安装包方面，它默认使用yum包管理工具，但软件源相对较少，软件更新速度也较慢。它的内核版本较低，对一些新硬件的支持可能不够完善。在系统管理方面，采用init系统进行进程初始化和服务管理。
CentOS 7：相比 CentOS 6 有了较大的改进。内核版本更新，对新硬件的支持更好，性能也有所提升。在安装包方面，仍然使用yum，但软件源更加丰富，软件更新也更加及时。它引入了systemd作为系统和服务管理器，取代了传统的init系统，使得系统启动速度更快，服务管理更加方便和灵活。
CentOS 8：在 CentOS 7 的基础上进一步发展。它采用了更现代化的软件架构和技术，软件版本更加新。在安装包方面，除了yum，还引入了dnf（Dandified Yum）包管理工具，dnf在性能和依赖解决方面有更好的表现。它对容器技术的支持更加完善，并且在安全性方面有了更多的改进和优化。

不同版本在安装包时的区别主要体现在以下几个方面：首先，软件源的配置可能不同，新版本可能有更多的官方和第三方软件源可供选择。其次，不同版本对软件包的依赖关系处理可能有所不同，新版本在解决依赖问题上可能更加智能和高效。最后，由于软件版本的不同，相同功能的软件包在不同版本上可能有不同的安装方式和参数设置。例如，在 CentOS 8 上安装某些软件可能需要使用dnf install命令，而在 CentOS 6 或 7 上则使用yum install命令。同时，一些新软件可能只在较新的 CentOS 版本上有可用的安装包，而在旧版本上则需要手动编译安装。

普通用户没有对密码文件的权限，如何修改密码？

在 Linux 系统中，普通用户确实没有直接对密码文件（通常是/etc/shadow）的读写权限，因为该文件包含了敏感的用户密码信息，需要严格的安全保护。普通用户修改密码是通过passwd命令来实现的。

当普通用户执行passwd命令时，系统会进行一系列的验证和操作。首先，passwd命令会提示用户输入当前密码，以验证用户的身份。只有输入正确的当前密码，才能继续进行密码修改操作。这是为了确保只有用户本人能够修改自己的密码，防止他人随意篡改。

然后，passwd命令会提示用户输入新密码，并要求用户再次确认新密码，以避免输入错误。在用户输入新密码后，passwd命令会对新密码进行一定的强度检查，例如检查密码长度、是否包含特殊字符、数字和字母等，以确保新密码具有一定的安全性。

如果新密码符合要求，passwd命令会将新密码进行加密处理，然后将加密后的密码更新到/etc/shadow文件中对应的用户记录中。虽然普通用户没有直接对/etc/shadow文件的写权限，但是passwd命令具有特殊的权限（通常通过设置setuid位来实现），允许它以超级用户的权限来更新密码文件，从而实现普通用户修改自己密码的功能。

ll 命令中第一个字母是 b 代表什么？讲一下文件权限，权限是如何得到的？

在ll命令（通常是ls -l的别名）的输出中，第一个字母表示文件的类型。当这个字母是b时，代表该文件是一个块设备文件。块设备文件通常用于访问硬盘、分区、光驱等存储设备，数据以块为单位进行读写。

文件权限是 Linux 系统中用于控制对文件和目录访问的机制。文件权限分为读（r）、写（w）和执行（x）三种权限，分别对应数字 4、2 和 1。对于文件所有者、所属组和其他用户，可以分别设置不同的权限组合。例如，rwxr-xr-x表示文件所有者具有读、写和执行权限，所属组用户和其他用户具有读和执行权限，但没有写权限。

文件权限是在文件创建时由创建者或系统根据一定的规则来设置的。通常，创建文件的用户会成为文件的所有者，具有对文件的最高控制权。文件的初始权限可以通过用户的默认权限掩码（umask）来确定。umask定义了在创建文件或目录时需要从默认权限中减去的权限。例如，默认的文件创建权限是rwxrwxrwx，如果umask的值是022，那么最终文件的权限就是rwxr-xr-x。此外，文件所有者或具有足够权限的用户（如超级用户）可以使用chmod命令来修改文件的权限，以满足不同的访问控制需求。

介绍一下文件系统，软链接和硬链接的区别，以及它们创建时，文件系统分别发生了什么变化？介绍一下 iNode。

文件系统是操作系统用于管理存储设备上文件和目录的一种机制，它负责组织、存储和检索文件数据，提供了对文件的创建、删除、读取、写入等操作的支持。常见的 Linux 文件系统有 ext4、XFS 等。

软链接和硬链接是文件系统中用于创建文件关联的两种方式，它们有以下区别：

链接性质：软链接类似于 Windows 系统中的快捷方式，是一个独立的文件，它指向另一个文件的路径。硬链接则是为文件创建了一个额外的目录项，多个硬链接指向同一个文件的物理存储位置。
跨文件系统支持：软链接可以跨越不同的文件系统，而硬链接只能在同一个文件系统内创建。
文件删除影响：删除源文件后，软链接会失效，因为它依赖的是源文件的路径。而硬链接不受影响，只要还有至少一个硬链接存在，文件的数据就不会被删除。

创建软链接时，文件系统会创建一个新的文件，该文件的内容是指向源文件的路径。在读取软链接时，系统会根据路径找到源文件并进行相应操作。创建硬链接时，文件系统会在目录中增加一个新的目录项，该目录项与源文件的 inode 号相同，指向相同的物理存储位置，相当于为同一个文件增加了一个新的引用。

iNode 是文件系统中的一个重要概念，它是一个数据结构，包含了文件的元数据信息，如文件的大小、创建时间、修改时间、所有者、所属组、权限等，以及指向文件数据块的指针。每个文件在文件系统中都有唯一的 iNode 号，通过 iNode 号可以在文件系统中快速定位和访问文件的相关信息和数据。文件系统通过 iNode 来管理文件，而目录则是包含了文件名和 iNode 号的映射关系，当访问一个文件时，系统首先根据目录中的映射找到对应的 iNode，然后从 iNode 中获取文件的详细信息和数据存储位置，从而实现对文件的访问。

PATH 环境变量相关知识。

PATH环境变量是 Linux 系统中一个非常重要的环境变量，它用于指定可执行文件的搜索路径。当用户在终端中输入一个命令时，系统会在PATH变量所包含的目录中依次查找对应的可执行文件，并执行找到的第一个文件。

PATH环境变量的值是一个由冒号（:）分隔的目录列表。例如，在典型的 Linux 系统中，PATH可能包含/usr/bin、/bin、/usr/sbin、/sbin等目录。这些目录中存放着系统自带的各种命令和工具，如ls、cp、mkdir等。当用户输入ls命令时，系统会在PATH指定的目录中查找ls可执行文件，然后执行它。

用户可以根据自己的需求修改PATH环境变量。比如，当用户安装了一些第三方软件，而这些软件的可执行文件不在默认的PATH目录中时，就需要将软件的安装目录添加到PATH中，以便能够方便地通过命令行访问这些软件。修改PATH环境变量可以通过编辑用户的配置文件（如~/.bashrc或~/.bash_profile）来实现。在文件中添加或修改PATH变量的赋值语句，例如export PATH=$PATH:/home/user/bin，将/home/user/bin目录添加到PATH中。修改完成后，需要重新加载配置文件，或者重新打开终端，使修改后的PATH环境变量生效。

此外，PATH环境变量还可以在脚本中进行临时修改，只影响脚本的执行环境，而不影响系统的全局PATH设置。这样可以在脚本中方便地使用特定目录下的可执行文件，而不会对系统的其他部分产生影响。

系统负载用啥命令查看？那三个值啥意思？咋算出来的？

在 Linux 系统中，可以使用top命令或uptime命令来查看系统负载。

以uptime命令为例，它会输出类似这样的信息：14:22:01 up 1 day, 1:23, 2 users, load average: 0.00, 0.01, 0.05。其中，load average后面的三个值分别表示系统在过去 1 分钟、5 分钟和 15 分钟内的平均负载。

这些值的含义是系统中处于可运行状态（正在运行或等待运行）的进程数与系统 CPU 核心数的比值。如果这个值小于 1，表示系统负载较轻，CPU 有足够的空闲时间来处理新的进程；如果值等于 1，说明系统负载适中，CPU 刚好能够处理当前的进程；如果值大于 1，则表示系统负载较重，可能存在进程等待 CPU 资源的情况，需要进一步分析系统资源使用情况，以确定是否需要进行优化或调整。

系统负载的计算方式是通过统计系统中处于可运行状态和不可中断睡眠状态的进程数来实现的。内核会定期（通常是每隔一段时间，如 1 秒钟）检查进程的状态，并根据一定的算法计算出平均负载值。这个算法会考虑到不同时间段内的进程数变化情况，对近期的负载情况给予更高的权重，从而更准确地反映系统的负载趋势。例如，过去 1 分钟的负载值主要反映了系统近期的负载情况，而过去 15 分钟的负载值则更能体现系统的长期负载趋势。通过观察这三个值的变化，可以帮助管理员了解系统负载的变化情况，及时发现系统性能问题，并采取相应的措施进行优化和调整。

如何查看一个文件被哪个进程占用？如何查看某个 pid 对应的进程？如何查看一个进程，ps 命令里面的 aux 是什么意思？

查看文件被哪个进程占用：在 Linux 系统中，可以使用lsof命令来查看一个文件被哪个进程占用。lsof会列出当前系统中所有打开的文件和相关的进程信息。例如，要查看文件/etc/passwd被哪个进程占用，只需在终端输入lsof /etc/passwd，命令执行后会显示相关进程的详细信息，包括进程 ID、进程名称、用户等。
查看某个 pid 对应的进程：可以使用ps -p <pid>命令来查看指定进程 ID 对应的进程信息。例如，ps -p 1234（其中 1234 是具体的进程 ID），该命令会显示与该进程 ID 相关的详细信息，如进程的状态、启动时间、执行的命令等。另外，也可以使用top -p <pid>命令，它能以动态的方式显示指定进程的资源使用情况等信息。
ps 命令中 aux 的含义：ps命令用于查看系统中的进程状态。aux是ps命令的常用参数组合。其中，a表示显示所有与终端相关的进程，包括其他用户的进程；u以用户为主的格式来显示进程信息，会显示进程所有者的相关信息，如用户名、启动时间、CPU 和内存使用情况等；x表示显示所有非终端的进程，包括没有控制终端的进程。通过ps aux命令，可以全面地查看系统中正在运行的各个进程的详细状态信息，帮助运维人员了解系统资源的分配和进程的运行情况，以便进行故障排查和系统优化等工作。

进程有哪些状态？如果一个进程强制 kill 也 kill 不掉，是什么原因？

进程的状态：进程在生命周期中会处于多种状态，常见的有以下几种。
- 运行态（Running）：进程正在 CPU 上执行，或者正在等待 CPU 资源分配，一旦获得 CPU 时间片就可以立即执行。
- 就绪态（Ready）：进程已经具备了运行的条件，但是由于 CPU 资源有限，暂时在就绪队列中等待被调度到 CPU 上执行。
- 阻塞态（Blocked）：进程因为等待某个事件的发生而暂停执行，比如等待 I/O 操作完成、等待信号量、等待锁的释放等。在等待的事件发生之前，进程不会被调度到 CPU 上执行。
- 停止态（Stopped）：进程被暂停执行，通常是由于收到了特定的信号，如SIGSTOP信号，或者是在调试过程中被暂停。
- 僵尸态（Zombie）：进程已经结束运行，但是其父进程还没有回收其资源，如进程的退出状态等信息，此时进程就处于僵尸态。
进程强制 kill 不掉的原因：当使用kill命令无法杀死进程时，可能有以下原因。
- 进程处于不可中断的睡眠状态：进程可能正在进行一些关键的 I/O 操作，如读写磁盘、等待网络响应等，此时它处于不可中断的睡眠状态（通常在进程状态中显示为D）。这种情况下，进程不能被信号中断，直到 I/O 操作完成或超时。
- 进程持有重要的系统资源且未释放：例如，进程可能持有文件锁、信号量或其他系统资源，并且在收到kill信号后没有正确释放这些资源。其他进程可能正在等待这些资源的释放，导致系统处于一种僵持状态，使得该进程无法被杀死。
- 权限问题：如果没有足够的权限来杀死进程，kill命令可能会失败。只有超级用户（root）或具有相应权限的用户才能杀死其他用户的进程。
- 内核或系统故障：在极少数情况下，系统内核出现错误或故障，可能导致进程管理出现异常，使得进程无法被正常杀死。这可能需要重启系统来解决问题。

如何增加进程连接数？

在 Linux 系统中，要增加进程连接数，可以从以下几个方面进行设置：

调整系统参数：可以通过修改sysctl.conf文件来调整系统级别的参数。例如，net.ipv4.tcp_max_syn_backlog参数用于设置 TCP 连接中 SYN 队列的最大长度，增加该值可以允许更多的并发连接请求。可以通过在sysctl.conf文件中添加或修改net.ipv4.tcp_max_syn_backlog = [想要的值]来调整该参数，然后执行sysctl -p使设置生效。另外，net.core.somaxconn参数定义了系统中每个端口的最大连接数，也可以适当增大该值。同样在sysctl.conf文件中设置net.core.somaxconn = [新的值]，并执行sysctl -p。
修改应用程序配置：不同的应用程序可能有自己的连接数限制配置。例如，对于 Web 服务器 Apache，可以在其配置文件httpd.conf中找到MaxClients指令，该指令用于设置允许的最大并发客户端连接数，根据服务器的性能和资源情况适当增加该值。对于 Nginx 服务器，可以在nginx.conf文件中通过worker_connections参数来设置每个工作进程的最大连接数，调整该参数可以增加 Nginx 服务器的整体连接数处理能力。
增加硬件资源：如果服务器的硬件资源不足，如内存、CPU 等，即使增加了连接数的配置参数，系统也可能无法处理大量的连接。因此，在必要时，可以考虑增加服务器的内存、升级 CPU 或添加更多的网络接口卡等硬件资源，以提高服务器处理连接的能力。同时，合理调整服务器的资源分配，确保各个组件能够协调工作，以支持更多的进程连接数。

虚拟内存和物理内存有啥区别？free 命令里面的 shared 是啥意思，和 buffer 等的区别是什么？

虚拟内存和物理内存的区别：
- 物理内存：是计算机硬件中实际存在的随机存取存储器（RAM），用于直接存储和处理计算机正在运行的程序和数据。它与 CPU 直接进行数据交互，速度快，但容量有限。当物理内存不足时，系统可能会出现卡顿甚至无法运行更多程序的情况。
- 虚拟内存：是操作系统通过软件技术在硬盘上划分出的一部分空间，作为物理内存的补充。它为每个进程提供了一个独立的、连续的地址空间，使得进程可以使用比实际物理内存更大的内存空间。虚拟内存通过将不常用的数据和程序页面交换到硬盘上的交换空间（swap），来释放物理内存以用于其他更需要的程序和数据。这样，即使物理内存有限，系统也能运行较大的程序或同时运行多个程序，但由于涉及到硬盘的读写，访问虚拟内存的速度比物理内存慢。
free 命令中 shared 和 buffer 的区别：
- shared：在free命令的输出中，shared表示多个进程共享的内存区域。这部分内存通常用于进程间通信（IPC），例如通过共享内存段进行数据交换。多个进程可以同时访问和修改这块共享内存区域，以实现数据的共享和交互。
- buffer：buffer主要用于缓存磁盘数据。当系统读取磁盘数据时，会将数据先存储在缓冲区中，以便后续再次访问时可以直接从缓冲区获取，而不必再次读取磁盘，从而提高数据访问速度。同样，在向磁盘写入数据时，数据也会先写入缓冲区，然后由系统在适当的时候将缓冲区的数据刷新到磁盘上。buffer的作用是减少磁盘 I/O 操作，提高系统性能。与shared不同，buffer主要是用于优化磁盘数据的读写，而不是用于进程间的直接数据共享。

如何加内存？

为计算机增加内存通常需要以下步骤：

确认硬件兼容性：首先要确定计算机的主板支持的内存类型、规格和最大容量。可以查看主板的说明书或者在制造商的官方网站上查询相关信息。例如，不同的主板可能支持不同代的 DDR 内存（如 DDR3、DDR4 等），并且有各自的频率限制和内存插槽数量。确保要添加的内存与主板兼容，否则无法正常使用。
选择合适的内存模块：根据主板支持的信息，选择合适容量、频率和品牌的内存模块。一般来说，尽量选择与现有内存相同品牌、型号和规格的内存，以确保更好的兼容性和稳定性。如果计算机原本使用的是 8GB DDR4 2666MHz 的内存，那么最好添加同样规格的 8GB 内存，组成双通道或更多通道的内存架构，以提高内存性能。
关闭计算机并切断电源：在添加内存之前，务必关闭计算机并拔掉电源插头，以防止在操作过程中发生触电或损坏硬件的情况。同时，为了释放身体上的静电，可以触摸一下金属物体，如机箱外壳，避免静电对内存模块造成损坏。
打开机箱并找到内存插槽：打开计算机机箱，找到主板上的内存插槽。内存插槽通常位于 CPU 附近，有多个并排的插槽。有些主板可能会用不同的颜色来区分不同的内存通道。注意，在操作过程中要小心，避免碰到其他硬件组件，以免造成损坏。
安装内存模块：将内存模块以正确的方向插入内存插槽中。内存模块上通常有一个或多个缺口，与内存插槽上的凸起相对应，确保方向正确后，轻轻按下内存模块，直到两边的卡扣自动卡住内存模块，表明安装到位。如果是安装多条内存，要按照主板说明书的建议，将内存安装在合适的插槽中，以实现最佳的性能和兼容性。
关闭机箱并连接电源：确认内存安装牢固后，关闭机箱，将电源插头重新插回计算机，然后打开计算机。
检查内存是否识别：计算机启动后，可以进入操作系统的系统信息或任务管理器中查看内存是否被正确识别。如果内存没有被正确识别，可能是内存安装不正确、内存不兼容或硬件出现故障，可以重新检查安装步骤或更换内存模块进行测试。

Linux 的安装方式有哪些？

Linux 的安装方式丰富多样，能够满足不同用户和场景的需求，以下是一些常见的安装方式：

光盘安装：这是较为传统的安装方式。用户需要准备一张包含 Linux 安装镜像的光盘，将其放入计算机的光驱中。在计算机启动时，通过设置 BIOS 或 UEFI 引导顺序，优先从光驱启动。随后，按照安装向导的提示进行操作，包括选择安装语言、地区、键盘布局等基本设置，接着对磁盘进行分区，可选择自动分区或手动分区方式，以合理分配磁盘空间。完成分区后，开始安装系统文件，整个过程可能需要一些时间，安装完成后，取出光盘并重启计算机，即可进入新安装的 Linux 系统。光盘安装适用于没有网络连接或者对安装过程有更直观控制需求的用户。
U 盘安装：这是目前比较流行的安装方式。首先需要准备一个容量合适的 U 盘（一般建议 8GB 以上），使用专门的工具（如 Rufus、UltraISO 等）将 Linux 的安装镜像写入 U 盘中，制作成可引导的安装盘。然后将 U 盘插入计算机，同样在启动时设置 BIOS 或 UEFI 从 U 盘引导。后续的安装步骤与光盘安装类似，进行各项设置和磁盘分区等操作。U 盘安装的优势在于方便快捷，且 U 盘比光盘更便于携带和使用，适合大多数用户。
网络安装：该方式要求计算机能够连接到网络。在启动计算机时，通过网络引导选项从网络服务器获取安装文件。网络安装又可细分为 PXE（预启动执行环境）安装和网络镜像安装。PXE 安装常用于大规模部署，管理员在服务器端配置好 PXE 服务器，客户端通过网络从 PXE 服务器获取安装引导文件，然后自动进行安装过程，大大提高了安装效率。网络镜像安装则是从网络上指定的镜像站点下载安装文件进行安装，用户可以根据自己的网络情况选择合适的镜像站点，以获得较快的下载速度。
虚拟机安装：借助虚拟机软件（如 VMware Workstation、VirtualBox 等）在已有的操作系统（如 Windows）上创建一个虚拟的计算机环境，然后在这个虚拟环境中安装 Linux 系统。虚拟机安装的好处是可以在不影响主机系统的情况下，方便地测试和使用不同版本的 Linux 系统，并且可以灵活地调整虚拟机的硬件配置，如内存大小、CPU 核心数、磁盘空间等。用户还可以在虚拟机中进行各种实验和操作，不用担心对真实系统造成损坏。
硬盘安装：如果计算机上已经有一个可引导的操作系统，并且有足够的空闲磁盘空间，可以将 Linux 的安装镜像文件复制到硬盘的某个分区中，然后通过引导加载器（如 GRUB）来引导安装程序进行安装。这种方式相对复杂一些，需要对引导加载器的配置有一定的了解，但对于一些特殊情况或者不想使用外部存储设备的用户来说，也是一种可行的选择。

Linux 的系统运行级别介绍一下。

在 Linux 系统中，运行级别是用于定义系统在不同状态下运行的模式，不同的运行级别会启动不同的服务和进程，以满足用户的不同需求。常见的 Linux 系统运行级别有以下几种：

运行级别 0：系统停机状态，用于关闭系统。当系统进入运行级别 0 时，所有正在运行的服务和进程都会被正常关闭，系统会执行关机操作。在进行系统维护或者需要关闭计算机时，可将系统切换到运行级别 0。但需要注意的是，直接切换到运行级别 0 可能会导致数据丢失或系统损坏，因此在执行关机操作前，最好先确保所有重要数据已经保存。
运行级别 1：单用户模式，也称为维护模式。在这个运行级别下，系统只启动基本的必要服务，如文件系统、网络等基本功能，并且只有一个用户（通常是 root 用户）可以登录系统。单用户模式常用于系统出现故障时进行修复和维护操作，例如忘记 root 密码时，可以进入单用户模式重置密码；或者当系统文件系统出现错误时，可以在单用户模式下进行文件系统的检查和修复。
运行级别 2：多用户模式，但不包含 NFS（网络文件系统）服务。在运行级别 2 下，系统可以支持多个用户同时登录，但不会自动挂载 NFS 共享目录。这种模式适用于一些不需要网络文件系统服务的场景，例如在一个独立的局域网环境中，不需要访问外部的 NFS 共享资源时，可以使用运行级别 2。
运行级别 3：完全的多用户文本模式，是最常用的运行级别之一。在这个运行级别下，系统会启动所有的网络服务和多用户支持，用户可以通过终端以文本方式登录系统，进行各种操作。大多数服务器环境都运行在运行级别 3，因为在这种模式下，系统资源消耗相对较少，并且可以方便地进行远程管理和维护。
运行级别 4：通常是用户自定义的运行级别，用户可以根据自己的需求配置在这个运行级别下启动的服务和进程。一般情况下，运行级别 4 并不常用，用户可以根据具体的应用场景进行个性化设置。
运行级别 5：多用户图形模式，在这个运行级别下，系统会启动图形化桌面环境，用户可以通过图形界面进行操作，如使用鼠标和窗口管理器等。对于普通桌面用户来说，运行级别 5 是比较常用的，因为它提供了更加直观和便捷的操作方式。
运行级别 6：系统重启状态，当系统进入运行级别 6 时，会先关闭所有正在运行的服务和进程，然后重新启动计算机。在需要重新启动系统以应用新的配置或者更新时，可以将系统切换到运行级别 6。

在 Linux 系统中，可以使用init命令来切换运行级别，例如init 0表示切换到运行级别 0（关机），init 6表示切换到运行级别 6（重启）。

Linux 的防火墙讲一下。

Linux 系统中的防火墙是一种重要的安全机制，用于保护系统免受外部网络的攻击和非法访问，同时也可以对内部网络的访问进行控制。常见的 Linux 防火墙有iptables、ufw和firewalld等。

iptables：是 Linux 系统中最常用的防火墙工具之一，它基于内核的netfilter框架实现。iptables通过定义一系列的规则来过滤和处理网络数据包，这些规则可以根据数据包的源 IP 地址、目的 IP 地址、端口号、协议类型等条件进行匹配。iptables包含多个表（如filter表、nat表、mangle表等）和链（如INPUT链、OUTPUT链、FORWARD链等），不同的表和链用于实现不同的功能。filter表主要用于包过滤，决定是否允许数据包通过；nat表用于网络地址转换，如实现内网主机共享公网 IP 访问互联网；INPUT链用于处理进入本地系统的数据包，OUTPUT链用于处理本地系统发出的数据包，FORWARD链用于处理经过本地系统但不发给本地系统的数据包。用户可以使用iptables命令来添加、删除和修改规则，例如iptables -A INPUT -p tcp --dport 22 -j ACCEPT表示允许 TCP 协议的 22 端口（通常是 SSH 服务端口）的数据包进入系统。
ufw：即 Uncomplicated Firewall，是一个简单易用的防火墙配置工具，它基于iptables，提供了更加简洁的命令行接口，适合初学者使用。ufw的规则设置相对简单，例如ufw allow 22表示允许 22 端口的流量通过，ufw deny 80表示拒绝 80 端口的流量。ufw还支持一些基本的状态检测功能，如跟踪连接状态，确保只有合法的连接才能通过防火墙。
firewalld：是 CentOS 7 及以上版本默认的防火墙管理工具，它同样基于netfilter框架。firewalld提供了动态的防火墙管理功能，可以在不重启防火墙服务的情况下，实时添加、修改和删除规则。它支持区域（zone）的概念，每个区域可以定义不同的规则集，例如public区域用于公共网络环境，默认只允许一些基本的流量通过；home区域用于家庭网络环境，可以允许更多的流量。用户可以使用firewall-cmd命令来管理firewalld，例如firewall-cmd --zone=public --add-port=80/tcp --permanent表示在public区域中永久添加 80 端口的 TCP 协议流量。

防火墙的配置需要根据系统的具体需求和安全策略进行合理设置，以确保系统的安全性和网络的正常运行。同时，定期检查和更新防火墙规则也是非常重要的，以应对不断变化的网络安全威胁。

一些 grep、sed、awk 的文本操作：

grep、sed和awk是 Linux 系统中强大的文本处理工具，它们在文本操作方面各有特点和用途。

grep：主要用于在文本文件中搜索指定的字符串或模式。它的基本语法是grep [选项] 模式文件名。grep支持多种模式匹配，包括基本正则表达式和扩展正则表达式。例如，grep "hello" file.txt表示在file.txt文件中搜索包含字符串 “hello” 的行；grep -i "hello" file.txt中的-i选项表示忽略大小写进行搜索；grep -r "hello" /path/to/directory中的-r选项表示递归地在/path/to/directory目录及其子目录下的所有文件中搜索包含 “hello” 的行。grep还可以与其他命令结合使用，通过管道（|）将一个命令的输出作为grep的输入，实现更复杂的文本处理。
sed：是一个流编辑器，用于对文本进行编辑和修改。它可以在不修改原始文件的情况下，对输入的文本进行各种操作，如删除、替换、插入等。sed的基本语法是sed [选项] '命令' 文件名。例如，sed 's/old/new/g' file.txt表示将file.txt文件中所有的 “old” 字符串替换为 “new”，其中s表示替换命令，g表示全局替换；sed '1d' file.txt表示删除file.txt文件的第一行，d是删除命令；sed '2i insert this line' file.txt表示在file.txt文件的第二行插入 “insert this line” 这一行，i是插入命令。sed可以处理大规模的文本数据，并且效率较高。
awk：是一种强大的文本处理编程语言，它不仅可以进行简单的文本搜索和替换，还可以进行复杂的数据处理和分析。awk的基本语法是awk [选项] '模式 {动作}' 文件名。例如，awk '{print $1}' file.txt表示打印file.txt文件中每行的第一个字段，$1表示第一个字段，$2表示第二个字段，以此类推；awk '/pattern/ {print $0}' file.txt表示当行匹配 “pattern” 模式时，打印该行的全部内容，$0表示整行内容；awk '{sum+=$3} END {print sum}' file.txt表示计算file.txt文件中每行第三个字段的总和，并在处理完所有行后输出总和，END表示在处理完所有输入后执行的动作。awk可以处理结构化的文本数据，如日志文件、CSV 文件等，通过灵活的编程语句实现各种复杂的文本处理任务。

在实际应用中，grep、sed和awk常常相互配合使用，以满足不同的文本处理需求，帮助用户高效地处理和分析文本数据。

使用 grep 命令查找同时有 test、var 的行。

要使用grep命令查找同时包含 “test” 和 “var” 的行，可以使用grep的正则表达式和逻辑组合来实现。以下是几种常见的方法：

使用 - E 选项（扩展正则表达式）和逻辑与操作：grep -E 'test.*var|var.*test' file.txt。这里的-E选项表示使用扩展正则表达式，test.*var表示匹配先出现 “test”，然后后面跟着任意字符（.*表示任意字符出现 0 次或多次），最后出现 “var” 的行；var.*test表示匹配先出现 “var”，然后后面跟着任意字符，最后出现 “test” 的行。|表示逻辑或操作，这样就可以找到同时包含 “test” 和 “var” 的行，无论它们的顺序如何。
使用两个 grep 命令通过管道连接：grep "test" file.txt | grep "var"。首先，grep "test" file.txt会在file.txt文件中查找包含 “test” 的行，并将这些行输出；然后，通过管道（|）将这些行作为第二个grep命令的输入，grep "var"会在这些行中进一步查找包含 “var” 的行，最终得到同时包含 “test” 和 “var” 的行。

假设file.txt文件包含以下内容：

this is a line with test and var
this line has only test
this line contains var
another line with var and test

使用上述两种方法中的任意一种，都可以得到以下输出：

this is a line with test and var
another line with var and test

这两种方法都能有效地找到同时包含 “test” 和 “var” 的行，用户可以根据具体的需求和习惯选择合适的方法。

使用 awk 命令，打印出文件的最后一列。

在处理文本文件时，awk命令能轻松实现打印文件最后一列的操作。awk是一种强大的文本处理工具，它通过按行读取文件内容，并依据指定的规则对每行数据进行处理。

假设我们有一个名为data.txt的文件，其内容如下：

apple 10 red
banana 20 yellow
cherry 15 red

要打印出这个文件的最后一列，可使用以下awk命令：

awk '{print $NF}' data.txt

在上述命令中，$NF代表每行的最后一个字段。awk在读取文件的每一行时，会将该行内容按空格或其他指定的分隔符进行字段划分，NF是awk的内置变量，它表示当前行的字段总数，所以$NF就指向了最后一个字段。当awk读取到每一行时，都会执行print $NF这个动作，从而将每行的最后一个字段打印出来。

执行上述命令后，输出结果如下：

red
yellow
red

若文件中的字段分隔符并非空格，而是其他字符，比如逗号，那么需要通过-F选项来指定分隔符。假设data.csv文件内容如下：

apple,10,red
banana,20,yellow
cherry,15,red

此时可使用命令：

awk -F, '{print $NF}' data.csv

这里通过-F,将分隔符指定为逗号，这样awk就能正确识别文件中的字段，并打印出最后一列。

rpm 命令的用法，如何查找一个文件所在的目录？

rpm（Red - Hat Package Manager）是 Red Hat 系 Linux 系统中用于管理软件包的重要工具，它的功能丰富，使用广泛。

安装软件包：要安装一个 rpm 格式的软件包，使用rpm -ivh命令，例如安装package.rpm软件包，命令为rpm -ivh package.rpm。其中，-i表示安装（install），-v用于显示详细信息（verbose），-h会以 #号显示安装进度（hash）。
升级软件包：若要升级已安装的软件包，可使用rpm -Uvh命令，如rpm -Uvh new_package.rpm，它会自动将旧版本升级到新版本。
卸载软件包：卸载软件包用rpm -e命令，比如要卸载名为package_name的软件包，命令为rpm -e package_name。需注意，卸载时指定的是软件包名称，而非 rpm 文件名。
查询软件包信息：使用rpm -q命令可查询软件包相关信息。rpm -q package_name能查看软件包是否安装；rpm -qi package_name可获取软件包的详细信息，如软件描述、版本号、发布者等；rpm -ql package_name则列出软件包安装后生成的所有文件和目录。

若要查找一个文件所在的目录，可利用rpm -qf命令。比如系统中有一个名为file.txt的文件，要查找它属于哪个 rpm 软件包，可执行rpm -qf /path/to/file.txt。若该文件是由某个 rpm 软件包安装生成的，命令会返回对应的软件包名称。若文件并非由 rpm 软件包安装产生，命令将提示找不到该文件所属的软件包。

此外，若要查找某个软件包安装后在系统中创建的文件和目录位置，使用rpm -ql package_name命令，它会列出该软件包安装到系统中的所有文件和目录路径，从而能轻松知晓软件包的安装布局。

数据库的索引机制介绍一下。

数据库索引机制是一种用于提升数据检索效率的数据结构和算法体系。在数据库中，数据量可能极为庞大，若没有索引，每次查询都需全表扫描，效率极低。索引就如同书籍的目录，通过特定的规则对数据进行组织，让数据库能快速定位到所需数据。

从数据结构角度看，常见的索引类型基于不同的数据结构实现，各有特点。

B 树索引：B 树是一种自平衡的多路查找树，常用于数据库索引。在 B 树中，节点可存储多个键值对和对应的数据指针。当进行查询时，从根节点开始，通过比较键值来决定向下查找的路径，直至找到目标数据或确定数据不存在。B 树的优点是能够高效地处理范围查询和等值查询，因为它的节点存储了多个键值，在一定程度上减少了磁盘 I/O 操作。
B + 树索引：B + 树是 B 树的一种变体，在数据库中应用更为广泛。与 B 树不同，B + 树的所有数据记录都存储在叶子节点，非叶子节点仅用于索引，即只存储键值和指向子节点的指针。这种结构使得 B + 树在范围查询上表现更优，因为叶子节点通过链表相连，只需遍历链表即可获取范围内的数据。同时，由于所有数据都在叶子节点，B + 树的查询效率更为稳定，因为无论查询哪个数据，都需要从根节点遍历到叶子节点，查询路径长度基本一致。
哈希索引：哈希索引基于哈希表实现。它通过对索引键值进行哈希运算，将数据存储在对应的哈希桶中。哈希索引在等值查询时速度极快，因为只需计算哈希值并直接定位到对应的哈希桶即可找到数据。但它的缺点是不支持范围查询，因为哈希表的存储方式不具备顺序性。

索引机制在数据库操作中扮演着关键角色。在插入数据时，数据库不仅要将数据插入到表中，还需同时更新相关索引，以确保索引与数据的一致性。查询数据时，数据库会根据查询条件选择合适的索引进行数据定位，大大减少查询时间。但索引并非越多越好，过多的索引会占用额外的存储空间，并且在插入、更新和删除数据时，由于需要同时更新索引，会增加操作的时间开销。因此，在设计数据库索引时，需要综合考虑数据量、查询频率、查询类型等因素，合理创建索引，以达到优化数据库性能的目的。

结合项目讲一下，如何使用 MySQL，有什么优化？MySQL 查询优化相关，Explain 相关。

在过往项目中，我们使用 MySQL 构建数据存储与管理系统，在使用和优化过程中积累了诸多经验。

在使用 MySQL 方面，首先要依据项目需求设计合理的数据库架构。确定数据库中表的结构，包括字段类型、长度、是否可为空等。例如在一个电商项目中，设计products表，包含产品 ID（product_id，设为主键，数据类型为整数）、产品名称（product_name，字符串类型，长度根据实际需求设定）、价格（price，浮点数类型）等字段。

连接 MySQL 数据库时，使用合适的数据库连接工具，如在 Java 项目中可利用 JDBC（Java Database Connectivity）。通过加载 MySQL 驱动，设置连接 URL、用户名和密码等参数，建立与数据库的连接，进而执行 SQL 语句进行数据操作，如插入数据：

INSERT INTO products (product_id, product_name, price) VALUES (1, 'T - Shirt', 29.99);

查询数据：

SELECT product_name, price FROM products WHERE price > 50;

关于 MySQL 优化，有多个方面。在表设计层面，合理选择字段类型能节省存储空间并提升性能。例如对于固定长度的字符串，使用CHAR类型；对于可变长度字符串，若长度较短，使用VARCHAR类型。同时，避免使用过多的可为空字段，因为这会增加查询时的复杂性。

查询优化是重点。使用EXPLAIN关键字是优化查询的重要手段。EXPLAIN用于分析 SQL 查询语句的执行计划，通过它能了解数据库如何执行查询，包括使用的索引、表连接顺序等信息。例如有如下查询：

EXPLAIN SELECT * FROM products WHERE product_name = 'Laptop';

执行结果中，type字段若显示为ALL，表示全表扫描，性能较差；若为index，表示使用了索引扫描，性能较好。若查询未使用索引，可通过创建合适的索引来优化。如上述查询可对product_name字段创建索引：

CREATE INDEX idx_product_name ON products (product_name);

此外，优化查询语句结构也很重要。避免使用子查询嵌套过深，尽量使用连接查询替代。在多表连接时，合理选择连接类型，如INNER JOIN（内连接）、LEFT JOIN（左连接）、RIGHT JOIN（右连接）等，根据业务需求确定哪种连接类型能最有效地获取所需数据。同时，尽量减少返回的字段数量，避免使用SELECT *，只选择实际需要的字段，这样可减少数据传输量，提升查询速度。

结合简历，问熟悉 MySQL 哪一部分的原理，例如索引。对索引讲解进行提问，B + 树相关。

在 MySQL 的原理中，索引部分是理解数据库高效运行的关键。以 B + 树索引为例，它在 MySQL 数据库索引体系里占据重要地位。

B + 树是一种特殊的数据结构，专为数据库索引场景设计。与普通的二叉树不同，B + 树是一种多路搜索树，其节点能容纳多个键值对和指向子节点的指针。在 B + 树索引中，所有数据记录都存储在叶子节点，非叶子节点仅用于索引目的，存储键值和指向子节点的指针。

这种结构设计带来诸多优势。从查询角度看，B + 树的查询效率稳定且高效。由于所有数据都在叶子节点，无论查询哪个数据，都需从根节点开始，沿着特定路径遍历到叶子节点，查询路径长度基本一致，不像二叉树可能出现查询路径长短不一的情况。这使得 B + 树在大量数据存储的数据库环境中，能保证查询时间的可预测性。

在范围查询方面，B + 树表现尤为出色。因为叶子节点通过链表相连，当执行范围查询时，如查询价格在某个区间内的产品，数据库只需定位到区间起始值对应的叶子节点，然后顺着链表依次读取后续节点，直至达到区间结束值对应的节点，即可获取所有符合条件的数据，无需像其他数据结构那样进行复杂的回溯或多次查找。

在插入和删除数据时，B + 树也有相应的维护机制。插入数据时，若叶子节点空间足够，直接插入；若空间不足，则进行节点分裂，将节点数据重新分配到新节点，同时调整非叶子节点的索引信息，以保持树的平衡。删除数据时，若叶子节点删除数据后导致节点数据过少，会进行节点合并或数据重新分配，同样要调整非叶子节点索引，确保 B + 树的结构合理性，从而保证索引的高效性。

正是由于 B + 树索引在查询、插入和删除操作中的良好表现，使得 MySQL 等数据库系统广泛采用它作为索引实现方式，以提升整体的数据处理性能。

问简历上做过的数据迁移经历，基于此问外键相关。sql_mode 是否了解？写 SQL 中遇到过的报错。

数据迁移经历：在过往的数据迁移项目中，首先需要对源数据库和目标数据库进行详细的评估，包括数据量、数据类型、表结构等。然后制定迁移策略，比如是采用一次性迁移还是分批次迁移。在迁移过程中，要确保数据的完整性和一致性，对迁移后的数据进行校验。例如，从一个老旧的 MySQL 数据库迁移到新的数据库时，通过编写脚本实现数据的快速复制，并使用数据库自带的工具进行数据校验。
外键相关：外键是保证数据库中数据一致性的重要机制。它是一个表中的字段，其值与另一个表的主键相对应。通过外键，不同表之间可以建立关联关系。在数据迁移时，外键的处理需要特别注意。如果源数据库中有外键约束，在迁移数据时要确保目标数据库中相关表的结构和数据能够满足外键约束，否则可能会导致数据不一致或迁移失败。
sql_mode：sql_mode 是 MySQL 数据库的一个系统变量，用于设置 MySQL 的运行模式。它可以影响 SQL 语句的执行行为和结果。常见的 sql_mode 值包括 STRICT_TRANS_TABLES、NO_ZERO_IN_DATE、NO_ZERO_DATE 等。例如，STRICT_TRANS_TABLES 模式会在插入或更新数据时，对不符合数据类型或约束条件的值进行严格检查，报错并阻止操作；NO_ZERO_IN_DATE 模式禁止在日期字段中插入零值。
SQL 报错：在编写 SQL 时，可能会遇到各种报错。比如 “Error 1054 - Unknown column 'column_name' in 'field list'”，这表示查询中引用了不存在的列名，可能是列名拼写错误或者表结构发生了变化。还有 “Error 1452 - Cannot add or update a child row: a foreign key constraint fails”，这是因为在插入或更新数据时，违反了外键约束，可能是关联表中不存在对应的主键值。

在项目里是如何引用执行 SQL 的，如 ORM 相关、Raw SQL，Raw SQL 有什么弊端？

ORM（对象关系映射）：在项目中，常使用 ORM 框架来操作数据库。例如使用 Python 的 Django 框架，它提供了一套强大的 ORM 系统。通过定义模型类，将数据库表映射为 Python 对象，然后可以使用对象的方法来进行数据库操作，如创建、查询、更新和删除数据。这样的好处是代码更加面向对象，易于理解和维护，同时还能实现数据库的跨平台操作，因为 ORM 框架会根据不同的数据库类型生成相应的 SQL 语句。
Raw SQL：有时也会直接使用 Raw SQL，特别是在一些复杂查询或性能要求较高的场景下。比如在进行多表联合查询且需要对查询结果进行复杂的分组和排序时，直接编写 SQL 语句可以更灵活地控制查询逻辑。通过数据库连接对象的游标来执行 Raw SQL 语句，获取查询结果。
Raw SQL 的弊端：首先，Raw SQL 缺乏代码的可读性和可维护性。大量的 SQL 语句分散在代码中，使得代码结构不清晰，难以理解其业务逻辑。其次，它不具备数据库的跨平台性。不同的数据库对 SQL 语法的支持略有不同，当需要更换数据库时，可能需要对大量的 Raw SQL 语句进行修改。再者，Raw SQL 存在 SQL 注入的风险。如果没有对用户输入进行严格的过滤和转义，恶意用户可能通过构造特殊的 SQL 语句来获取或篡改数据库中的数据。

MySQL 主从原理，MySQL 如何做主从复制？

MySQL 主从原理：MySQL 主从复制是基于二进制日志（Binary Log）实现的。主服务器将数据库的更改操作记录在二进制日志中，从服务器通过连接主服务器，读取二进制日志，并将其中的操作在从服务器上重放，从而实现主从服务器数据的同步。这样可以保证从服务器的数据与主服务器的数据保持一致，实现数据的冗余备份和读写分离等功能。
MySQL 主从复制的设置步骤：
- 配置主服务器：在主服务器的配置文件（如 my.cnf）中，设置唯一的服务器 ID（server-id），并开启二进制日志功能（log-bin）。然后创建一个用于从服务器连接的用户，并授予其 REPLICATION SLAVE 权限。
- 配置从服务器：在从服务器的配置文件中，设置不同的服务器 ID。通过 CHANGE MASTER TO 语句指定主服务器的 IP 地址、端口、用户名、密码以及二进制日志的文件名和位置，启动从服务器的 I/O 线程和 SQL 线程。I/O 线程负责从主服务器读取二进制日志，SQL 线程负责将读取到的日志在从服务器上执行，从而实现数据同步。

了解 Redis 吗？结合项目讲一下，如何使用 Redis？

Redis 简介：Redis 是一款高性能的内存数据库，常用于缓存、消息队列、分布式锁等场景。它支持多种数据类型，如字符串、哈希、列表、集合和有序集合等，这使得它在不同的业务场景中具有很强的灵活性。
项目中的应用：在一个电商项目中，Redis 被用于缓存热门商品数据。当用户访问商品详情页时，首先从 Redis 中查找商品信息。如果存在，则直接返回给用户，大大提高了响应速度；如果不存在，再从数据库中查询，并将查询结果存入 Redis，设置适当的过期时间。这样可以减轻数据库的压力，提高系统的整体性能。同时，Redis 还被用作分布式锁。在多个服务器同时处理订单时，通过在 Redis 中设置一个唯一的锁键来确保同一时间只有一个服务器能够处理订单，避免了数据冲突和重复下单的问题。此外，Redis 的列表数据类型还被用于实现消息队列。将用户的操作日志等消息放入 Redis 列表中，由后台的消费者进程从列表中取出消息进行处理，实现了异步处理，提高了系统的稳定性和响应速度。

说一下 MHA 的原理。

MHA（Master High Availability）原理：MHA 是 MySQL 的高可用解决方案，主要用于在主服务器出现故障时，自动将从服务器提升为新的主服务器，实现故障转移，保证系统的高可用性。MHA 由管理节点和多个 MySQL 节点组成。管理节点会定期监控各个 MySQL 节点的状态，通过检测主服务器的心跳来判断其是否正常运行。当管理节点发现主服务器故障时，会先确定最新的从服务器，然后协调其他从服务器将二进制日志应用到最新的位置，最后将该从服务器提升为新的主服务器，并更新应用程序的连接配置，使应用程序能够连接到新的主服务器上，继续提供服务。在这个过程中，MHA 会尽量保证数据的一致性和完整性，通过自动处理二进制日志的复制和应用，减少数据丢失的可能性。同时，MHA 还提供了一些脚本和工具，用于手动或自动地进行主从切换、节点管理等操作，方便运维人员对 MySQL 集群进行管理和维护。

说一下主数据库是如何创建的，grant 这个权限是什么权限？如果执行 reset master 会发生什么？

主数据库创建：以 MySQL 为例，首先要安装 MySQL 数据库软件，可通过官方下载安装包，根据操作系统的不同进行相应的安装配置。安装完成后，启动 MySQL 服务。然后使用管理员账号登录 MySQL，通常默认的管理员账号是 root。通过执行 SQL 语句来创建数据库，例如CREATE DATABASE database_name;，其中database_name是要创建的主数据库名称。还可以在创建数据库时指定字符集、排序规则等参数，如CREATE DATABASE database_name CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;，以满足不同的业务需求。
grant 权限：GRANT是 MySQL 中用于授权用户访问数据库对象的命令。它可以将各种权限授予用户，包括对数据库、表、视图、存储过程等对象的操作权限。比如，可以授予用户SELECT权限来查询数据，INSERT权限来插入新数据，UPDATE权限来更新数据，DELETE权限来删除数据，以及CREATE权限来创建新的数据库对象，DROP权限来删除数据库对象等。通过GRANT命令，可以精细地控制每个用户对数据库资源的访问，确保数据的安全性和完整性。例如，GRANT SELECT, INSERT ON database_name.table_name TO 'user'@'localhost';表示将对指定数据库中特定表的查询和插入权限授予指定用户。
执行 reset master 的结果：在 MySQL 中，RESET MASTER命令用于清除主服务器上的二进制日志，并重新创建一个新的二进制日志文件。执行该命令后，所有的二进制日志文件将被删除，二进制日志索引文件也会被重置。这意味着从服务器将无法再通过二进制日志来进行数据同步，因为它们所依赖的二进制日志已经被删除。如果在主从复制环境中执行RESET MASTER，需要谨慎操作，并且通常需要在从服务器上也进行相应的配置调整，例如重新设置主从关系、重新指定二进制日志位置等，以确保主从复制能够正常继续。

你的 MySQL 数据库存放的磁盘是什么格式的？

MySQL 数据库可以存放在多种磁盘格式上，常见的有以下几种：

InnoDB：这是 MySQL 默认的存储引擎，也是最常用的格式之一。它支持事务处理、行级锁、外键约束等功能，具有较高的数据一致性和完整性。InnoDB 将数据存储在表空间中，表空间可以是一个或多个文件，数据以页为单位进行管理。它适合处理大量并发的读写操作，尤其在事务处理方面表现出色，广泛应用于各种企业级应用中。
MyISAM：曾经是 MySQL 中常用的存储引擎之一。它不支持事务和行级锁，但是具有较高的查询性能，尤其是对于只读查询。MyISAM 将表的数据和索引分别存储在不同的文件中，数据文件以.MYD为扩展名，索引文件以.MYI为扩展名。它适合用于一些对查询性能要求较高，而对事务处理要求不严格的场景，如数据仓库、日志记录等。
Memory：这种存储引擎将数据存储在内存中，因此具有非常高的读写速度。但是，由于数据存储在内存中，一旦服务器重启或出现故障，数据将丢失。Memory 存储引擎通常用于临时表或缓存数据，例如在查询过程中用于存储中间结果，以提高查询效率。

选择哪种磁盘格式取决于具体的业务需求。如果应用对事务处理和数据一致性要求高，InnoDB 是较好的选择；如果注重查询性能且对事务要求不高，MyISAM 可以考虑；而对于需要快速读写且能接受数据丢失风险的场景，Memory 存储引擎可能更合适。

虚拟机都调过哪些参数？

在使用虚拟机时，通常会根据实际需求调整以下一些参数：

CPU 参数：可以调整虚拟机分配的 CPU 核心数和 CPU 资源份额。增加 CPU 核心数可以提高虚拟机的计算能力，适用于运行需要大量计算资源的应用程序，如数据库服务器、大型企业级应用等。而调整 CPU 资源份额则可以在多个虚拟机之间合理分配 CPU 资源，确保关键虚拟机能够优先获得足够的 CPU 资源。例如，将重要的生产环境虚拟机的 CPU 资源份额设置得较高，以保证其在系统资源紧张时能够稳定运行。
内存参数：内存大小是影响虚拟机性能的重要因素。根据虚拟机中运行的应用程序的内存需求，合理调整虚拟机的内存分配。如果内存分配过小，可能导致应用程序运行缓慢甚至出现内存不足的错误；而分配过大则可能造成资源浪费。一般来说，对于运行数据库的虚拟机，需要根据数据库的大小和并发访问量来分配足够的内存，以确保数据库的缓存能够有效工作，提高查询性能。对于 Web 服务器虚拟机，也需要根据同时连接的用户数量和应用程序的内存占用情况来调整内存大小。
磁盘参数：包括磁盘大小、磁盘类型和磁盘 I/O 限制等。增加磁盘大小可以满足虚拟机存储更多数据的需求。磁盘类型方面，有不同的模拟磁盘类型可供选择，如 SCSI、IDE 等，不同类型的磁盘在性能和兼容性上有所差异。此外，还可以设置磁盘 I/O 限制，以防止某个虚拟机占用过多的磁盘 I/O 资源，影响其他虚拟机的性能。例如，对于一些对磁盘 I/O 要求较高的数据库应用，可以选择性能较好的 SCSI 磁盘，并适当调整磁盘 I/O 限制，以保证数据库的读写性能。
网络参数：可以配置虚拟机的网络连接方式，如桥接模式、NAT 模式、仅主机模式等。桥接模式下，虚拟机可以直接连接到物理网络，获得与物理机相同的网络地位，适用于需要虚拟机与外部网络进行直接通信的场景。NAT 模式则通过主机的网络地址转换功能，使虚拟机能够访问外部网络，同时外部网络无法直接访问虚拟机，提供了一定的安全性。仅主机模式下，虚拟机只能与主机和其他处于仅主机模式的虚拟机进行通信，适用于内部测试环境等场景。此外，还可以调整虚拟机的网络带宽限制，以控制虚拟机的网络流量。

Docker 和虚拟化 KVM 的区别。

Docker 和虚拟化 KVM 有以下一些区别：

架构层面：KVM 是基于硬件虚拟化技术的完整虚拟机解决方案，它在宿主机操作系统之上创建多个隔离的虚拟机，每个虚拟机都有自己独立的操作系统、内核和硬件资源模拟。而 Docker 是基于容器技术，它利用宿主机的操作系统内核，在同一操作系统内核上创建多个相互隔离的容器，容器内运行的是应用程序及其依赖的运行时环境，没有独立的操作系统内核。
资源占用：KVM 虚拟机由于需要模拟完整的硬件环境和运行独立的操作系统，因此对资源的占用较大，包括内存、CPU 和磁盘空间等。每个虚拟机都需要分配一定的内存和 CPU 资源，并且操作系统本身也会占用一定的资源。而 Docker 容器共享宿主机的操作系统内核，不需要额外的操作系统开销，因此在资源占用方面相对较小，能够更高效地利用硬件资源，同一台物理机上可以运行更多的 Docker 容器。
启动速度：KVM 虚拟机的启动过程包括加载操作系统内核、初始化硬件设备等，启动速度相对较慢，通常需要几十秒甚至几分钟的时间。而 Docker 容器的启动速度非常快，因为它不需要启动完整的操作系统，只需要启动容器内的应用程序和相关服务，一般可以在几秒内完成启动。
隔离性：KVM 虚拟机提供了更强的隔离性，每个虚拟机都是一个独立的系统，相互之间的隔离非常彻底，包括操作系统、进程空间、网络等方面。而 Docker 容器虽然也提供了一定的隔离性，但由于共享宿主机内核，在某些情况下可能存在一定的安全风险，例如内核漏洞可能影响到所有容器。不过，通过一些安全机制和配置，可以提高 Docker 容器的安全性和隔离性。
应用场景：KVM 适用于需要运行多种不同操作系统、对隔离性要求较高、对硬件资源有独立需求的场景，如服务器虚拟化、多用户环境等。而 Docker 则更适合于应用程序的快速部署、微服务架构、持续集成和持续交付等场景，能够方便地实现应用的打包、分发和运行，提高开发和运维效率。

Docker 和传统虚拟机的区别是什么？Docker 和传统虚拟机的优势和缺点是什么？

区别：
- 隔离程度：传统虚拟机通过硬件虚拟化技术实现多个虚拟机的隔离，每个虚拟机有独立的操作系统和硬件资源，隔离性强。Docker 则是基于操作系统层面的容器技术，容器共享宿主机操作系统内核，虽然也有一定隔离性，但相对较弱。
- 资源利用：传统虚拟机由于模拟完整硬件和运行独立操作系统，资源占用大。Docker 容器共享内核，资源占用小，能在同一主机上运行更多容器，资源利用率高。
- 启动速度：传统虚拟机启动需加载操作系统等，启动慢。Docker 容器启动只需启动应用和相关服务，启动速度快。
- 部署灵活性：Docker 将应用及其依赖打包成镜像，部署更灵活，可快速在不同环境中部署。传统虚拟机部署相对复杂，需要安装操作系统和配置各种软件。
优势：
- Docker：具有轻量级、启动快、便于部署和扩展、资源利用率高、易于实现持续集成和持续交付等优势，适合微服务架构和敏捷开发。
- 传统虚拟机：提供了更强的隔离性和安全性，适用于对安全性要求高、需要运行不同操作系统且对资源独立性要求高的场景。
缺点：
- Docker：由于共享内核，存在一定安全风险，对一些需要特定内核功能的应用支持可能有限，且隔离性不如传统虚拟机。
- 传统虚拟机：资源占用大，导致硬件成本高，启动慢，部署和管理相对复杂，灵活性较差。

Docker 是怎么实现隔离的？

Docker 通过多种技术来实现隔离，主要包括以下几个方面：

命名空间（Namespaces）：这是实现隔离的基础技术之一。Docker 利用命名空间为容器提供独立的运行环境。例如，PID 命名空间让每个容器都有自己独立的进程树，容器内的进程看不到容器外的进程，也不会与其他容器的进程相互干扰；网络命名空间使每个容器都有自己的网络栈，包括独立的 IP 地址、端口等，容器之间的网络相互隔离，就像在不同的网络环境中一样；Mount 命名空间允许容器有自己独立的文件系统挂载点，容器内对文件系统的挂载和操作不会影响到宿主机和其他容器。
控制组（Control Groups，cgroups）：cgroups 主要用于限制容器对系统资源的使用。通过 cgroups，可以为容器分配特定的 CPU 时间片、内存大小、磁盘 I/O 带宽等资源，确保每个容器只能使用分配给它的资源，不会因为某个容器的资源占用过多而影响其他容器或宿主机的正常运行。例如，可以限制一个容器最多只能使用 2 个 CPU 核心和 1GB 的内存，这样即使该容器内的程序出现异常，也不会耗尽宿主机的资源。
Union 文件系统（UnionFS）：UnionFS 用于将多个文件系统层次结构合并成一个统一的文件系统视图。在 Docker 中，容器的文件系统是基于 UnionFS 构建的。它将容器的镜像层和可写层联合起来，镜像层是只读的，包含了运行容器所需的基础文件和程序，而可写层则用于存储容器运行时产生的临时数据和对文件系统的修改。这样，每个容器都有自己独立的文件系统视图，对文件的读写操作都局限在自己的可写层，不会影响到其他容器的文件系统。

Kubernetes 介绍一下，有什么优势？

Kubernetes 是一个开源的容器编排平台，用于自动化容器化应用的部署、扩展和管理。

它提供了一系列的功能，包括服务发现和负载均衡，能让容器化应用之间方便地进行通信，并自动将流量均衡到多个副本上；自动伸缩功能可根据应用的负载情况自动调整容器的数量，以确保资源的高效利用；存储管理方面，支持多种存储类型，方便为容器化应用提供持久化存储；还具备强大的故障恢复能力，当容器或节点出现故障时，能自动进行重启或重新调度。

Kubernetes 的优势众多。首先，它具有高度的可扩展性，可以轻松地管理大规模的容器集群，从几十到成千上万的容器都能高效管理。其次，它提供了良好的资源利用率，通过自动调度和弹性伸缩，能根据应用的实际需求动态分配资源，避免资源浪费。再者，Kubernetes 具有很强的灵活性，支持多种不同类型的应用架构，无论是微服务架构还是传统的单体应用，都能在其上很好地运行。而且，它提供了统一的管理界面和命令行工具，方便运维人员进行部署、管理和监控。另外，Kubernetes 拥有丰富的插件生态系统，可以方便地与各种其他工具和系统集成，如监控系统、日志系统等，进一步扩展其功能。

介绍一下 Keepalived，详细介绍一下 VRRP 协议。

Keepalived 是一个基于 VRRP 协议的实现高可用的软件。它主要用于在服务器集群中实现虚拟路由器的功能，确保网络服务的连续性。

VRRP（Virtual Router Redundancy Protocol）协议，即虚拟路由器冗余协议，是 Keepalived 实现高可用的核心技术。VRRP 通过在一组路由器之间创建一个虚拟路由器来工作。在这个虚拟路由器中，有一个主路由器（Master）和多个备份路由器（Backup）。主路由器负责处理发往虚拟路由器 IP 地址的数据包，而备份路由器则处于监听状态，一旦主路由器出现故障，备份路由器会通过选举机制选出一个新的主路由器，继续承担数据包的转发任务，从而实现网络的不间断运行。

VRRP 协议通过发送 VRRP 通告消息来进行路由器之间的状态信息交互。这些消息包含了路由器的优先级、状态等信息。路由器根据接收到的 VRRP 通告消息来判断主路由器的状态，并进行相应的操作。例如，当一个备份路由器在一定时间内没有收到主路由器发送的 VRRP 通告消息时，它会认为主路由器出现故障，然后启动选举过程，根据自身的优先级和其他备份路由器的情况，确定是否成为新的主路由器。

在选举过程中，优先级高的路由器更有可能成为主路由器。如果多个路由器的优先级相同，则会根据路由器的 IP 地址大小来进行选举。通过这种方式，VRRP 协议能够确保在主路由器出现故障时，能够快速、可靠地切换到备份路由器，保证网络的稳定性和可靠性。

LVS 的三种模式（介绍、优缺点、RS 回应报文哪些经过 LVS）

LVS（Linux Virtual Server）有三种模式，分别是 NAT 模式、TUN 模式和 DR 模式。

NAT 模式（Network Address Translation）：在 NAT 模式下，LVS 调度器位于客户端和真实服务器（RS）之间，充当网络地址转换设备。客户端的请求数据包经过 LVS 调度器时，调度器会修改数据包的目的 IP 地址和端口号，将其转发到后端的真实服务器上。真实服务器处理完请求后，将响应数据包发送给调度器，调度器再将数据包的源 IP 地址和端口号修改为自己的地址和端口，然后发送给客户端。这种模式的优点是配置简单，对真实服务器的操作系统和网络设置没有特殊要求，所有的网络地址转换和数据包转发都由 LVS 调度器完成。缺点是 LVS 调度器会成为性能瓶颈，因为所有的数据包都要经过它进行转发，处理能力有限；而且由于调度器需要修改数据包的地址信息，会增加一定的延迟。在 NAT 模式下，RS 回应报文需要经过 LVS 调度器。
TUN 模式（IP Tunneling）：TUN 模式下，LVS 调度器和真实服务器都需要支持 IP 隧道协议。客户端的请求数据包先到达 LVS 调度器，调度器会在原数据包的基础上封装一层新的 IP 头，将目的地址改为真实服务器的 IP 地址，然后将数据包发送到真实服务器。真实服务器收到数据包后，解封装并处理请求，处理完后直接将响应数据包发送给客户端，不需要经过 LVS 调度器。这种模式的优点是可以实现跨网段的负载均衡，并且 LVS 调度器只负责转发请求数据包，不参与响应数据包的处理，性能较高。缺点是对真实服务器的操作系统有一定要求，需要支持 IP 隧道协议，配置相对复杂。在 TUN 模式下，RS 回应报文不经过 LVS。
DR 模式（Direct Routing）：DR 模式中，LVS 调度器和真实服务器共享同一个物理网络，客户端的请求数据包到达 LVS 调度器后，调度器根据负载均衡算法选择一台真实服务器，然后通过修改数据包的 MAC 地址，将数据包直接发送到真实服务器上。真实服务器处理完请求后，直接将响应数据包发送给客户端，不经过 LVS 调度器。DR 模式的优点是性能最高，因为调度器只需要修改数据包的 MAC 地址，处理速度快，而且真实服务器可以直接响应客户端，减少了中间环节。缺点是对网络配置要求较高，真实服务器的网关必须指向 LVS 调度器，且调度器和真实服务器需要在同一个局域网内。在 DR 模式下，RS 回应报文不经过 LVS。

LVS 的 4 种模式介绍

LVS 除了上述三种模式外，还有一种 FullNAT 模式。

FullNAT 模式：在 FullNAT 模式下，LVS 调度器对进出的数据包都进行网络地址转换。客户端的请求数据包到达调度器后，调度器会将其目的 IP 地址和端口转换为后端真实服务器的地址和端口，然后转发给真实服务器。真实服务器的响应数据包返回时，调度器再将源 IP 地址和端口转换为自己的地址和端口，发送给客户端。与 NAT 模式相比，FullNAT 模式的不同之处在于它对响应数据包的源地址也进行了转换，这样可以使后端真实服务器的地址更加隐蔽，提高了安全性。同时，FullNAT 模式也可以实现跨网段的负载均衡，对网络拓扑的适应性更强。不过，FullNAT 模式由于对数据包的进出都进行地址转换，会增加一定的性能开销，处理速度相对较慢。而且配置也相对复杂一些，需要更多的规则来实现地址转换和数据包转发。

综上所述，LVS 的四种模式各有特点，适用于不同的场景。在实际应用中，需要根据具体的网络环境、性能需求和安全要求等来选择合适的模式。

Nginx 的负载均衡介绍一下。Nginx 和 LVS 有什么区别？

Nginx 的负载均衡是通过将客户端的请求均匀分配到多个后端服务器上，以实现服务器集群的负载分担和高可用性。Nginx 支持多种负载均衡算法，如轮询（Round Robin），按顺序依次将请求分配到后端服务器上，均等分配请求；加权轮询（Weighted Round Robin），根据服务器的性能差异为不同服务器设置权重，权重越高的服务器被分配到请求的概率越大；IP 哈希（IP Hash），根据客户端的 IP 地址计算哈希值，通过该哈希值将请求始终路由到同一台后端服务器，适用于有状态服务或需要保持会话一致性的场景。

Nginx 和 LVS 存在多方面区别。从工作层次来看，Nginx 工作在应用层（七层），能对 HTTP 请求进行详细的解析和处理，可根据 URL、请求头信息等进行更灵活的负载均衡决策。LVS 工作在网络层（四层），主要基于 IP 地址和端口进行数据包的转发，处理效率更高，能承载更大的并发量。从功能特性上，Nginx 除了负载均衡外，还具备强大的 HTTP 处理能力，如缓存、反向代理、SSL/TLS 加密等功能，可对请求和响应进行各种处理和优化。LVS 专注于负载均衡和服务器集群管理，主要提供高性能的服务器负载均衡服务，在网络流量调度方面表现出色。在应用场景上，Nginx 适用于对 HTTP 请求处理有较高要求的场景，如 Web 应用、API 服务器等，能根据业务逻辑进行灵活的负载均衡和请求处理。LVS 则更适合于大规模、高并发的网络服务场景，如大型网站的前端负载均衡，能高效地处理大量的网络数据包。

一个日志文件，用 shell 取出访问前 10 名的 IP。

可以使用以下 shell 命令来实现从日志文件中取出访问前 10 名的 IP：

awk '{print $1}' access.log | sort | uniq -c | sort -nr | head -n 10

上述命令的执行过程如下：首先，awk '{print $1}' access.log 这部分使用 awk 命令从 access.log 文件中提取出每一行的第一个字段，通常这个字段就是客户端的 IP 地址。然后，sort 命令对提取出的 IP 地址进行排序，将相同的 IP 地址排列在一起。接着，uniq -c 命令统计每个唯一 IP 地址出现的次数，在输出中会显示每个 IP 地址及其出现的次数。之后，sort -nr 命令按照数字降序对统计结果进行排序，这样出现次数最多的 IP 地址就会排在前面。最后，head -n 10 命令选取前 10 行输出，即得到访问次数最多的前 10 名 IP 地址。

ELK 的架构是怎么样的，Redis 用到 ELK 的什么位置？

ELK 架构由 Elasticsearch、Logstash 和 Kibana 三个主要组件构成。Elasticsearch 是一个分布式的开源搜索引擎，用于存储、搜索和分析日志数据。它能够高效地处理大量的结构化和非结构化数据，并提供强大的搜索和查询功能。Logstash 是一个数据收集和处理引擎，它可以从各种数据源（如文件、数据库、网络接口等）收集日志数据，然后对数据进行过滤、转换和格式化等处理，最后将处理后的数据发送到 Elasticsearch 中进行存储和索引。Kibana 是一个开源的数据分析和可视化平台，它与 Elasticsearch 集成，提供了直观的用户界面，用于创建各种图表、仪表盘和可视化报表，方便用户对日志数据进行分析和监控。

在 ELK 架构中，Redis 通常作为 Logstash 的数据缓存或消息队列来使用。Logstash 在收集和处理大量日志数据时，可能会遇到数据处理速度不一致的情况，例如数据源产生数据的速度超过了 Logstash 向 Elasticsearch 写入数据的速度。这时，Redis 可以作为中间缓存，Logstash 将收集到的数据先暂存到 Redis 中，然后再从 Redis 中逐步读取数据并写入 Elasticsearch，这样可以起到缓冲和削峰填谷的作用，避免数据丢失或处理瓶颈。此外，Redis 也可以作为消息队列，用于在不同的 Logstash 节点之间进行数据传递和协调，提高整个数据收集和处理系统的可靠性和可扩展性。

你的 MySQL 数据库监控是怎么做的，GitLab 仓库有没有遇到过什么问题，有没有想写一些脚本去自动化解决这些问题？

对于 MySQL 数据库监控，可以从多个方面着手。性能指标监控方面，通过 MySQL 自带的性能模式（Performance Schema）或第三方工具如 Prometheus 结合 MySQL Exporter 来收集查询执行时间、缓存命中率、连接数、TPS（每秒事务数）、QPS（每秒查询数）等指标。这些指标能反映数据库的运行状态和性能瓶颈。例如，若查询执行时间过长，可能意味着存在慢查询，需要优化查询语句或索引；缓存命中率低则可能需要调整缓存配置或增加缓存容量。服务器状态监控方面，监控数据库服务器的 CPU 使用率、内存使用率、磁盘 I/O 等系统资源指标。使用工具如 top、vmstat、iostat 等可以实时查看服务器资源的使用情况，若 CPU 使用率过高，可能是查询过于复杂或并发量过大，需要进一步分析和优化。

在 GitLab 仓库管理中，可能会遇到一些问题。比如磁盘空间不足，随着项目的不断发展，GitLab 仓库中的代码、文档等数据不断增加，可能会导致磁盘空间被占满。另外，权限管理问题也较为常见，可能会出现用户权限设置不当，导致某些用户误操作或无法访问其应有的资源。针对磁盘空间不足的问题，可以编写脚本定期检查 GitLab 仓库所在磁盘的空间使用情况，当空间使用率达到一定阈值时，自动清理一些无用的历史版本或备份文件，以释放磁盘空间。对于权限管理问题，可以编写脚本实现定期检查用户权限配置，确保权限设置符合项目的安全策略和业务需求，对于不符合的情况及时发出告警并进行自动调整。

如果让你部署上千台服务器，你会怎么做？

部署上千台服务器是一个复杂的任务，需要进行详细的规划和准备。首先，进行硬件规划，根据业务需求确定服务器的配置，包括 CPU、内存、存储和网络等方面。考虑到不同业务对硬件资源的需求差异，可能需要选择多种不同配置的服务器型号。同时，要规划好服务器的机房布局，包括机架的摆放、电源和网络布线等，确保服务器的物理环境安全可靠，便于管理和维护。

其次，采用自动化部署工具，如 Ansible、Puppet 或 SaltStack 等。这些工具可以通过编写脚本或配置文件，实现服务器的批量配置和软件安装。例如，可以使用 Ansible 的 Playbook 来定义服务器的初始化任务，包括系统更新、安装必要的软件包、配置防火墙规则等。通过模板和变量的方式，可以轻松地对不同类型的服务器进行差异化配置。

然后，建立集中管理平台，用于监控和管理所有服务器。可以使用 Zabbix、Prometheus 等监控工具来收集服务器的性能指标和运行状态信息，及时发现服务器的故障和异常。同时，建立配置管理数据库（CMDB），记录服务器的硬件配置、软件安装情况、IP 地址等信息，方便进行查询和管理。

在部署过程中，要进行分组和分批部署。将服务器按照业务功能或地域等因素进行分组，然后按照一定的顺序分批进行部署，这样可以降低部署风险，便于及时发现和解决问题。部署完成后，要进行全面的测试和验收，确保服务器的功能和性能符合要求。

最后，制定完善的文档和应急预案。详细记录服务器的部署过程、配置信息和相关参数，以便后续的维护和管理。同时，制定应急预案，针对可能出现的服务器故障、网络故障等情况，明确应对措施和恢复流程，确保在出现问题时能够快速恢复服务，减少对业务的影响。

想象一下，如果产品用户达到百万，可能会发生什么问题，怎么解决？

当产品用户达到百万级别时，可能会出现以下几方面问题及相应解决办法。

性能问题：大量用户并发访问可能导致服务器负载过高，响应时间变长。解决方法包括对系统进行性能优化，如数据库查询优化、缓存机制的合理运用，采用分布式架构，增加服务器节点来分担负载。同时，使用性能监测工具，实时监控服务器的各项性能指标，及时发现并解决性能瓶颈。
存储问题：用户数据量的大幅增长会对存储造成压力。需要考虑扩展存储容量，采用分布式存储系统来提高存储的可靠性和可扩展性。定期对数据进行备份和归档，以防止数据丢失，并优化数据存储结构，提高数据的读写效率。
网络问题：大量用户的网络请求可能导致网络拥堵。可以优化网络架构，增加网络带宽，采用内容分发网络（CDN）来缓存静态资源，减少源服务器的压力，提高用户访问速度。
安全问题：用户量增多使系统面临更多的安全风险。要加强安全防护措施，如防火墙设置、用户认证和授权管理、数据加密等。定期进行安全漏洞扫描和渗透测试，及时发现并修复安全隐患。

项目中是怎么使用 Ansible 的，剧本中都用到了哪些模块，对应模块的作用是什么？使用 Ansible 管理主机的优势和缺点？使用 Ansible 能做什么？用过 Ansible 同类软件么？

在项目中，Ansible 通常用于自动化服务器配置、部署和管理。通过编写剧本（Playbook）来定义一系列任务，实现对多台主机的批量操作。

常见的 Ansible 模块有：

Yum 模块：用于在 Linux 系统上安装、更新和删除软件包，比如可以使用它来安装 Apache、MySQL 等服务。
Service 模块：用于管理系统服务，如启动、停止、重启服务，还能设置服务开机自启。
Copy 模块：将本地文件复制到远程主机，可用于部署配置文件、代码等。
File 模块：用于设置文件或目录的权限、所有者、所属组等属性，也能创建或删除文件和目录。

Ansible 管理主机的优势包括：简单易用，采用 YAML 格式编写剧本，可读性高；无需在被管理主机上安装客户端软件；支持批量操作，能高效管理大量主机。缺点是：对复杂任务的处理能力相对有限，不适合大规模的自动化运维场景；执行速度可能较慢，尤其是在处理大量主机时。

Ansible 可以用于服务器的初始配置、软件部署、日常维护任务自动化、配置管理等。同类软件有 SaltStack、Puppet 等。SaltStack 具有更高的性能和更强大的功能，适合大规模的自动化运维；Puppet 则在配置管理方面有丰富的功能和成熟的生态系统。

假如搭建的服务器架构，在网页访问时出现 403 错误，应该如何排查？页面没有状态码时该怎么排查？

当出现 403 错误时，可从以下方面排查：

检查权限设置：确认访问的资源是否设置了正确的权限，是否允许当前用户或 IP 访问。检查服务器上文件和目录的权限，以及 Web 服务器的访问控制配置。
查看日志文件：Web 服务器的日志会记录详细的访问信息，包括请求的 URL、客户端 IP、时间等。通过分析日志，确定具体是哪个请求导致了 403 错误，以及可能的原因。
检查防火墙设置：查看服务器的防火墙规则，是否有阻止相关访问的规则。如果是云服务器，还要检查云平台的安全组设置。
确认用户身份验证：如果应用需要用户登录，检查用户的身份验证信息是否正确，是否具有访问该资源的权限。

当页面没有状态码时，可以采取以下措施排查：

检查网络连接：确保客户端与服务器之间的网络连接正常，没有丢包或延迟过高的情况。可以使用 ping 命令、traceroute 命令等工具检查网络路径。
检查 Web 服务器状态：查看 Web 服务器是否正常运行，进程是否存在，是否有足够的资源（如内存、CPU）来处理请求。
检查应用程序日志：应用程序本身的日志可能会记录一些关于请求处理的信息，有助于发现潜在的问题，如代码中的错误或异常。
进行抓包分析：使用网络抓包工具，如 Wireshark，捕获网络数据包，分析客户端与服务器之间的通信过程，查看是否有异常的请求或响应。

对运维的理解。如果开发要求更新很多版本，而运维为了稳定，不想去更新那么快，你怎么做？

运维是保障系统稳定、可靠、高效运行的重要环节。它涵盖了服务器的管理、软件的部署与维护、性能优化、安全防护、数据备份与恢复等多个方面。运维人员需要时刻监控系统的运行状态，及时处理各种故障和问题，确保业务的连续性。

面对开发要求频繁更新版本而运维担心影响稳定性的情况，可以这样做：

沟通协调：与开发团队坐下来，详细了解他们更新版本的原因和目标，同时向开发团队说明运维对于稳定性的担忧，以及快速更新可能带来的风险，如系统崩溃、数据丢失等。通过沟通，寻找双方都能接受的平衡点。
制定测试计划：共同制定严格的测试计划，在测试环境中对新版本进行充分的测试，包括功能测试、性能测试、兼容性测试等。确保新版本在上线前尽可能稳定，减少潜在问题。
灰度发布：如果测试通过，可以采用灰度发布的方式，先将新版本部署到一小部分用户中，观察系统的运行情况，收集用户反馈。如果没有出现问题，再逐步扩大发布范围。
建立回滚机制：为了应对可能出现的问题，建立完善的回滚机制。一旦新版本上线后出现严重问题，能够迅速回滚到上一个稳定版本，降低对业务的影响。

对 SRE 的理解，觉得比普通运维的区别在哪里？

SRE（Site Reliability Engineering）即站点可靠性工程，是一种将软件工程方法应用于运维领域的实践。SRE 强调通过技术和流程的优化，来提高系统的可靠性和可维护性，同时注重业务指标与技术指标的结合。

SRE 与普通运维的区别主要体现在以下几个方面：

工作重点：普通运维更多地关注服务器的日常维护、故障处理等基础工作。而 SRE 不仅要确保系统的稳定运行，还会深入参与到系统的架构设计、性能优化等方面，从源头上解决问题，提高系统的可靠性。
技术能力：SRE 需要具备更强的编程和开发能力，能够编写自动化脚本和工具，以实现运维任务的自动化和智能化。相比之下，普通运维对开发能力的要求相对较低。
思维方式：SRE 采用工程化的思维方式，将运维工作视为一个系统工程，注重系统的整体性能和可靠性。普通运维可能更侧重于解决当前的具体问题，缺乏对系统整体的考量。
指标关注：SRE 关注与业务相关的关键指标，如系统的可用性、响应时间等，并通过技术手段不断优化这些指标，以满足业务需求。普通运维可能对业务指标的关注度不够，更多地关注服务器的硬件指标和软件的运行状态。

看过哪些 Linux 的书籍？

Linux 领域有许多经典的书籍，不同的书籍在系统管理、编程、网络等方面各有侧重。

《Linux 命令行与 shell 脚本编程大全》是一本全面介绍 Linux 命令和 shell 脚本编程的书籍。它详细讲解了各种常用命令的用法，以及如何编写高效的 shell 脚本，对于想要深入掌握 Linux 操作和自动化任务的运维人员来说，是一本很好的参考手册。通过学习这本书，运维人员可以熟练运用命令行进行系统管理、文件操作、进程管理等工作，并且能够编写脚本实现日常任务的自动化，提高工作效率。

《鸟哥的 Linux 私房菜 - 基础学习篇》以通俗易懂的方式介绍了 Linux 的基础知识，包括 Linux 系统的安装、文件系统、用户管理、权限设置等内容。这本书适合初学者快速入门，它通过大量的实例和详细的解释，帮助读者理解 Linux 的基本概念和操作方法，为进一步学习和实践打下坚实的基础。

《深入理解 Linux 内核》则深入探讨了 Linux 内核的内部机制，包括内存管理、进程调度、中断处理等核心内容。对于想要深入了解 Linux 系统底层原理的运维人员来说，这本书能够帮助他们更好地理解系统的运行机制，从而在遇到系统性能问题或故障时，能够更准确地分析和解决问题。

《Linux 网络编程》专注于 Linux 环境下的网络编程技术，介绍了 socket 编程、网络协议、网络应用开发等方面的知识。运维人员在处理网络相关的问题，如服务器网络配置、网络服务优化等时，这本书可以提供理论支持和实践指导，帮助他们更好地理解网络通信的原理和实现方式。

简历上有说有看过 Go 的相关底层原理，问一下了解什么？

Go 语言有许多独特的底层原理。

Go 的内存管理机制采用了自动垃圾回收（GC）。它通过标记 - 清除等算法来自动回收不再使用的内存，减轻了开发者手动管理内存的负担，降低了内存泄漏和野指针等问题的发生概率。例如，当一个对象不再被任何变量引用时，GC 会在适当的时候将其占用的内存回收，确保系统资源的有效利用。

Go 的协程（Goroutine）是其一大特色。协程是一种轻量级的线程，由 Go 运行时（runtime）进行调度。与传统的线程相比，协程的创建和销毁成本极低，并且可以轻松实现高并发。多个协程可以在同一个线程中并发执行，通过通道（Channel）进行安全的通信和数据共享。比如在一个网络服务器中，可以为每个客户端连接创建一个协程来处理请求，这样可以高效地处理大量并发请求，而不会像传统线程那样因为线程切换开销大而影响性能。

Go 的接口实现也有其独特之处。Go 的接口是一种抽象类型，它定义了一组方法签名。一个类型只要实现了接口中定义的所有方法，就可以被认为实现了该接口，这种非侵入式的接口实现方式使得代码更加灵活和可扩展。例如，不同的数据库驱动可以实现相同的数据库操作接口，这样在使用数据库时，可以根据实际需求动态切换不同的驱动，而无需修改大量的代码。

有没有基于 GitLab 仓库做一些安全的考虑？如果 GitLab 仓库的内存给到很大了，但是还是很卡，你会怎么去做？GitLab 的一个域名是如何解析到 IP 的，有了解过没有？

GitLab 仓库安全考虑：首先，要对用户进行严格的身份验证和授权管理，确保只有授权用户能够访问和操作仓库。可以使用多因素认证来增强登录的安全性。其次，对仓库中的数据进行加密存储，防止数据在存储过程中被窃取或篡改。同时，定期备份仓库数据，以应对可能的灾难或数据丢失情况。另外，限制仓库的访问权限，根据用户的角色和职责分配不同的权限，例如只读、读写等，避免不必要的权限暴露。
GitLab 内存充足但仍卡顿的解决方法：检查 GitLab 的日志文件，查看是否有异常的错误信息或性能瓶颈提示。可能是数据库查询过于复杂或存在大量的并发操作导致性能下降，可以对数据库进行优化，如添加索引、优化查询语句等。同时，检查服务器的 CPU、磁盘 I/O 等资源使用情况，看是否存在其他进程占用大量资源。也可以考虑对 GitLab 进行性能调优，如调整缓存设置、优化工作进程数量等。此外，查看是否有大量的无用数据或历史记录，可以定期清理不必要的数据，以减少存储空间和提高查询效率。
GitLab 域名解析到 IP 的过程：当在浏览器中输入 GitLab 的域名时，首先会向本地的 DNS 服务器发送域名解析请求。本地 DNS 服务器如果缓存中有该域名对应的 IP 地址，则直接返回给客户端。如果没有，则会向根域名服务器发送请求，根域名服务器会根据域名的顶级域名（如.com、.cn 等）返回对应的顶级域名服务器地址。然后本地 DNS 服务器再向顶级域名服务器发送请求，顶级域名服务器会根据域名的二级域名等信息返回 GitLab 域名对应的权威域名服务器地址。最后，本地 DNS 服务器向权威域名服务器发送请求，权威域名服务器返回 GitLab 域名对应的 IP 地址，客户端就可以通过该 IP 地址访问 GitLab 服务器。

每块磁盘都会有寿命，如何去优化解决这个事情？

为了优化磁盘寿命问题，可以采取以下多种措施。

首先，要合理规划磁盘的使用。避免过度使用某一块磁盘，通过负载均衡技术将数据均匀分布到多个磁盘上，减轻单个磁盘的读写压力。例如，在存储大量数据时，可以采用分布式存储系统，将数据分散存储在多个磁盘上，这样不仅可以提高数据的读写性能，还能延长单个磁盘的使用寿命。

其次，定期进行磁盘健康检查。通过磁盘检测工具，及时发现磁盘的潜在问题，如坏道、扇区错误等。对于发现的问题，可以及时进行修复或采取数据迁移等措施，避免问题进一步恶化导致数据丢失。同时，根据磁盘的使用情况和健康状态，合理调整数据的存储位置，将重要数据存储在健康状况较好的磁盘上。

再者，优化数据的读写方式。尽量减少不必要的频繁读写操作，对于一些经常访问的数据，可以考虑使用缓存技术，将数据缓存在内存中，以减少对磁盘的访问次数。例如，在数据库应用中，可以设置合适的缓存大小，将经常查询的数据缓存起来，当再次请求相同数据时，直接从缓存中获取，而不是从磁盘读取，这样可以显著降低磁盘的 I/O 负载，延长磁盘寿命。

另外，注意磁盘的工作环境。保持磁盘所在的服务器环境温度、湿度适宜，避免灰尘、震动等因素对磁盘造成损害。温度过高或湿度过大可能会影响磁盘的性能和寿命，而灰尘和震动则可能导致磁盘硬件故障。

网易运维面试题及参考答案