前言
本文隶属于专栏《机器学习数学通关指南》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和参考文献请见《机器学习数学通关指南》
正文
函数
一、函数的定义与本质
映射关系:函数是 实数集到实数集的映射(或更一般地,非空数集到数集的映射)。
- 规范形式: f : D → R f: D \to \mathbb{R} f:D→R,其中 D ⊆ R D \subseteq \mathbb{R} D⊆R 为定义域, f ( D ) ⊆ R f(D) \subseteq \mathbb{R} f(D)⊆R 为值域。
- 核心要素:定义域( D D D)和 对应法则( f f f),两者共同决定函数的唯一性。若两函数定义域与对应法则相同,则视为同一函数。
变量依赖:自变量 x ∈ D x \in D x∈D 通过对应法则 f f f 唯一确定因变量 y = f ( x ) y = f(x) y=f(x),形成依赖关系。
二、函数的表示与分类
表示方法
- 解析法(公式法):如 y = x 2 y = x^2 y=x2。
- 分段函数:不同定义域区间用不同表达式,如 f ( x ) = { x , x ≥ 0 − x , x < 0 f(x) = \begin{cases} x, & x \geq 0 \\ -x, & x < 0 \end{cases} f(x)={x,−x,x≥0x<0。
- 其他形式(隐函数等):如方程 F ( x , y ) = 0 F(x,y) = 0 F(x,y)=0 隐含 y y y 与 x x x 的依赖关系。
特殊类型
- 反函数:若原函数为单射(不同输入对应不同输出),存在逆映射 f − 1 f^{-1} f−1,如 y = sin x y = \sin x y=sinx 的反函数为 y = arcsin x y = \arcsin x y=arcsinx。
- 满射:值域等于目标集合,如将单位圆周映射到区间 [ − 1 , 1 ] [-1,1] [−1,1]。
三、函数的特性
有界性
- 存在常数 K K K,使 ∣ f ( x ) ∣ ≤ K |f(x)| \leq K ∣f(x)∣≤K 对所有 x ∈ D x \in D x∈D 成立,则函数有界(如 y = sin x y = \sin x y=sinx)。
单调性
- 单调递增: x 1 < x 2 ⇒ f ( x 1 ) ≤ f ( x 2 ) x_1 < x_2 \Rightarrow f(x_1) \leq f(x_2) x1<x2⇒f(x1)≤f(x2)。
- 严格单调递增: x 1 < x 2 ⇒ f ( x 1 ) < f ( x 2 ) x_1 < x_2 \Rightarrow f(x_1) < f(x_2) x1<x2⇒f(x1)<f(x2)(递减同理)。
奇偶性
- 奇函数: f ( − x ) = − f ( x ) f(-x) = -f(x) f(−x)=−f(x),图形关于原点对称(如 y = x 3 y = x^3 y=x3)。
- 偶函数: f ( − x ) = f ( x ) f(-x) = f(x) f(−x)=f(x),图形关于 y y y 轴对称(如 y = x 2 y = x^2 y=x2)。
周期性
- 存在最小正数 T T T(周期),使 f ( x + T ) = f ( x ) f(x + T) = f(x) f(x+T)=f(x) 恒成立,如 sin x \sin x sinx 的周期为 2 π 2\pi 2π。
四、几何与数值意义
- 图形表示:函数 y = f ( x ) y = f(x) y=f(x) 的图像是坐标系中点的集合,直观反映定义域、值域及特性(如单调性)。
- 数值对应:对每个 x 0 ∈ D x_0 \in D x0∈D, f ( x 0 ) f(x_0) f(x0) 表示因变量在 x 0 x_0 x0 处的具体值(如 f ( 2 ) = 4 f(2) = 4 f(2)=4)。
五、示例与应用
- 例证1: f ( x ) = x 2 f(x) = x^2 f(x)=x2 的定义域为 R \mathbb{R} R,值域 [ 0 , + ∞ ) [0, +\infty) [0,+∞),既非单射(如 y = 4 y=4 y=4 对应 x = 2 x=2 x=2 和 x = − 2 x=-2 x=−2)也非满射(值域不覆盖全体实数)。
- 函数构成分析:定义域、表达式或分段规则是判断函数是否相同的核心依据(如 f ( x ) = 1 f(x) = 1 f(x)=1 与 g ( x ) = x x g(x) = \frac{x}{x} g(x)=xx 因定义域不同而不同)。
综上,函数是数学中描述变量间严格依赖关系的工具,通过定义域、对应法则及特性揭示变量变化的规律。
极限
一、极限的定义与核心思想
本质
- 变量趋于某点时的趋势:描述自变量(如数列项数n、函数变量x)无限接近某一状态(如n→∞、x→x₀)时,因变量(数列通项uₑ、函数值f(x))稳定趋近的确定值。
- 几何意义:点的无限趋近行为(如数列点在数轴上向a聚集,函数图像在x→x₀时趋近水平直线y=A)。
严格数学定义(ε语言)
- 数列极限:∀ε>0,∃正整数N,当n>N时,|uₙ−A|<ε。意义:项数充分大时,数列项离A的距离任意小。
示例:lim(1/n)=0,当n→∞时1/n无限接近0。 - 函数极限:
- x→x₀:∀ε>0,∃δ>0,当0<|x−x₀|<δ时,|f(x)−A|<ε。
示例:lim(x→2)(3x−6)=0,当x→2时3x−6是无穷小。 - x→∞:∀ε>0,∃M>0,当|x|>M时,|f(x)−A|<ε。
示例:lim(x→∞)(1/x)=0,x→∞时1/x是无穷小。
- x→x₀:∀ε>0,∃δ>0,当0<|x−x₀|<δ时,|f(x)−A|<ε。
- 数列极限:∀ε>0,∃正整数N,当n>N时,|uₙ−A|<ε。意义:项数充分大时,数列项离A的距离任意小。
二、极限的存在性与判定
必要条件
- 单侧极限存在且相等:例如,f(x)在x₀处极限存在 ⇨ 左极限lim(x→x₀⁻)f(x) = 右极限lim(x→x₀⁺)f(x)。
示例:分段函数f(x)=x−1(x<0),0(x=0),x+1(x>0),x→0时左右极限不相等⇒极限不存在。
- 单侧极限存在且相等:例如,f(x)在x₀处极限存在 ⇨ 左极限lim(x→x₀⁻)f(x) = 右极限lim(x→x₀⁺)f(x)。
存在性准则
- 夹逼准则(准则I):若g(x)≤f(x)≤h(x)且limg(x)=limh(x)=A⇒limf(x)=A。
应用:证明lim(x→0)(sinx/x)=1,利用单位圆面积夹逼。 - 单调有界准则(准则II):单调递增(减)且有上(下)界的数列必收敛。
应用:证明数列{ (1+1/n)ⁿ }收敛(自然对数底e的定义)。
- 夹逼准则(准则I):若g(x)≤f(x)≤h(x)且limg(x)=limh(x)=A⇒limf(x)=A。
三、极限的性质与运算
基本性质
- 唯一性:若极限存在,则唯一。
- 局部有界性:若lim(x→x₀)f(x)=A,则f(x)在x₀某去心邻域内有界。
- 保号性:若limf(x)=A>0,则在x₀某邻域内f(x)>0。
无穷小与无穷大
- 无穷小:极限为0的变量,如lim(x→0)(sinx)=x+o(x)。
运算性质:- 有限个无穷小之和/积仍是无穷小。
- 有界函数与无穷小乘积仍为无穷小。
- 无穷大:变量绝对值无限增大(非数),如lim(x→0)(1/x²)=∞。
关系:若limf(x)=∞⇨lim(1/f(x))=0,反之未必成立。
- 无穷小:极限为0的变量,如lim(x→0)(sinx)=x+o(x)。
运算规则
- 四则运算:若limf(x)=A,limg(x)=B,则:
- lim[f(x)±g(x)]=A±B
- lim[f(x)·g(x)]=A·B
- lim[f(x)/g(x)]=A/B(B≠0)
- 复合运算:若limg(x)=u₀,limf(u)=A,则limf(g(x))=A。
- 四则运算:若limf(x)=A,limg(x)=B,则:
四、重要极限及其应用
基本极限
- lim(x→0)(sinx/x)=1:用于求解含三角函数的0/0型极限。
示例:lim(x→0)(tanx/x)=1·1=1(因tanx=sinx/cosx)。 - lim(x→∞)(1+1/x)ˣ=e:用于指数、对数函数极限及连续复利模型。
应用:lim(n→∞)(1+1/n)ⁿ=e,证明关键为数列单调递增且有上界。
- lim(x→0)(sinx/x)=1:用于求解含三角函数的0/0型极限。
泰勒展开与等价无穷小
- 近似替换:如x→0时,sinx∼x,1−cosx∼x²/2。
注意:等价无穷小替换需乘除项适用,加减法谨慎使用。
- 近似替换:如x→0时,sinx∼x,1−cosx∼x²/2。
五、实际背景与数学思想
起源
- 几何问题:如刘徽割圆术(用正多边形逼近圆面积),阿基米德求抛物线面积。
- 物理问题:瞬时速度(Δt→0时平均速度极限)、曲线切线斜率。
思想方法
- 无限逼近:通过有限步骤无限接近精确解,避免直接计算不可达值。
- 动静结合:变量动态变化中捕捉静态的极限值,如x→x₀时f(x)→A。
示例总结:
- 计算极限:lim(x→2)(3x−6)=0(直接代入法)。
- 判断存在性:lim(x→0)sin(1/x)不存在(震荡无界)。
- 重要应用:自然对数e=lim(n→∞)(1+1/n)ⁿ,源于连续复利模型。
通过对极限概念的深层理解,可掌握微积分核心工具,并为后续导数、积分等学习奠定基础。
连续性与导数
一、连续性的定义与理解
基本定义
函数 f ( x ) f(x) f(x) 在点 x 0 x_0 x0 处连续,需满足:- 三点条件:
- f ( x ) f(x) f(x) 在 x 0 x_0 x0 有定义;
- lim x → x 0 f ( x ) \lim_{x \to x_0} f(x) limx→x0f(x) 存在(包括左极限 lim x → x 0 − f ( x ) \lim_{x \to x_0^-} f(x) limx→x0−f(x) 与右极限 lim x → x 0 + f ( x ) \lim_{x \to x_0^+} f(x) limx→x0+f(x) 存在且相等);
- 极限值等于函数值: lim x → x 0 f ( x ) = f ( x 0 ) \lim_{x \to x_0} f(x) = f(x_0) limx→x0f(x)=f(x0).
几何意义:函数图像在 x 0 x_0 x0 处无间断、跳跃或无限发散。
- 三点条件:
举例分析
例如函数 f ( x ) = { x + 1 , x ≤ 0 sin x x , x > 0 f(x) = \begin{cases} x + 1, & x \leq 0 \\ \frac{\sin x}{x}, & x > 0 \end{cases} f(x)={x+1,xsinx,x≤0x>0 在 x = 0 x = 0 x=0 处连续:- 验证条件:
- f ( 0 ) = 1 f(0) = 1 f(0)=1(在 x = 0 x=0 x=0 处有定义);
- 左极限 lim x → 0 − ( x + 1 ) = 1 \lim_{x \to 0^-} (x + 1) = 1 limx→0−(x+1)=1,右极限 lim x → 0 + sin x x = 1 \lim_{x \to 0^+} \frac{\sin x}{x} = 1 limx→0+xsinx=1;
- lim x → 0 f ( x ) = 1 = f ( 0 ) \lim_{x \to 0} f(x) = 1 = f(0) limx→0f(x)=1=f(0),故连续。
- 验证条件:
间断点分类
- 第一类间断点:左、右极限均存在但不相等(如跳跃型)或极限存在但不等于函数值(如可去型)。
- 第二类间断点:左、右极限至少一个不存在(如无穷型或振荡型)。
例: f ( x ) = x 2 − 1 x 2 − 3 x + 2 f(x) = \frac{x^2 - 1}{x^2 - 3x + 2} f(x)=x2−3x+2x2−1 在 x = 1 x=1 x=1 处为可去间断点( lim x → 1 f ( x ) = − 2 \lim_{x \to 1} f(x) = -2 limx→1f(x)=−2 但 f ( 1 ) f(1) f(1) 无定义),在 x = 2 x=2 x=2 处为第二类间断点( lim x → 2 f ( x ) = + ∞ \lim_{x \to 2} f(x) = +\infty limx→2f(x)=+∞)。
二、导数的定义与核心性质
导数本质
函数 f ( x ) f(x) f(x) 在 x 0 x_0 x0 处的导数描述其 瞬时变化率,定义为:
f ′ ( x 0 ) = lim Δ x → 0 f ( x 0 + Δ x ) − f ( x 0 ) Δ x f'(x_0) = \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} f′(x0)=Δx→0limΔxf(x0+Δx)−f(x0)
或等价形式:
f ′ ( x 0 ) = lim x → x 0 f ( x ) − f ( x 0 ) x − x 0 . f'(x_0) = \lim_{x \to x_0} \frac{f(x) - f(x_0)}{x - x_0}. f′(x0)=x→x0limx−x0f(x)−f(x0).几何意义:切线的斜率。
可导与连续的关系
- 若可导,则必连续(导数存在的必要条件),但直线运动的位移连续不一定可导。
- 连续不一定可导:例如 f ( x ) = [ 2 ] ( @ r e f ) ∣ x ∣ f(x) = [2](@ref)|x| f(x)=[2](@ref)∣x∣ 在 x = 0 x = 0 x=0 处连续但不可导(左导数为 − 1 -1 −1,右导数为 1 1 1)。
导数计算规则
- 四则运算法则:加减、乘法、除法规则。
- 链式法则(复合函数求导):
d y d x = d y d u ⋅ d u d x . \frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}. dxdy=dudy⋅dxdu. - 隐函数求导:对方程 F ( x , y ) = 0 F(x, y) = 0 F(x,y)=0 两边同时关于 x x x 求导。
例:隐函数 ln x 2 + y 2 = arctan y x \ln \sqrt{x^2 + y^2} = \arctan \frac{y}{x} lnx2+y2=arctanxy 求导时需应用复合函数链式法则。
三、连续性与导数的核心联系
方向导数与单侧连续
- 导数存在需 左右导数均存在且相等,而连续性只需左右极限存在且等于函数值。
- 例如 f ( x ) = x 3 f(x) = \sqrt[3]{x} f(x)=3x 在 x = 0 x=0 x=0 处连续但不可导(左右导数为无穷大)。
应用场景
- 在优化问题(如AI训练)中,目标函数需连续以定义导数的方向,进而通过梯度优化求解最小值。
四、总结
- 连续性是研究函数行为的基础,确保函数未发生“断裂”;
- 导数刻画变化的动态特性,是优化算法(如梯度下降)的核心工具;
- 重要关系:可导 ⇒ 连续,但连续 ⇏ 可导。
示例图示:
- f ( x ) = ∣ x ∣ f(x) = |x| f(x)=∣x∣ 在原点连续但不可导(V形尖点);
- 分段函数在分段点的连续性需左右极限验证。
偏导数
偏导数可以用“只动一个变量”的方式来理解。想象你同时调整空调的温度和风速——偏导数就是问:当只调温度时,房间降温速度多少?(风速不变),或者只调风速时降温速度多少?(温度不变)。
举个具体例子:
- 假设你的电费 z = 3 x + 2 y z = 3x + 2y z=3x+2y,其中:
- x x x 是每小时开空调的时间
- y y y 是每小时开灯的时间
✦ 对x的偏导数(只动空调时间):
保持开灯时间 y y y 不变,电费随空调变化的速率是 3 元/小时
(每多开1小时空调,电费增加3元)
✦ 对y的偏导数(只动开灯时间):
保持空调时间 x x x 不变,电费随灯光变化的速率是 2 元/小时
(每多开1小时灯,电费增加2元)
翻译成数学:
- ∂ z ∂ x = 3 \frac{\partial z}{\partial x} = 3 ∂x∂z=3(单纯空调的影响)
- ∂ z ∂ y = 2 \frac{\partial z}{\partial y} = 2 ∂y∂z=2(单纯灯光的影响)
核心要点:
1️⃣ 隔离变量:同时用多个变量控制现象时,单独观察某一个的影响
2️⃣ 建模常用:物理中分析摩擦力、工程中优化成本、机器学习中调节参数都依赖这种“逐个分析变量”的方法
3️⃣ 几何意义:三维曲面在某一个坐标轴方向的倾斜程度(比如山的东-西坡度,忽略南北变化)
方向导数
方向导数的简单解释:
想象你站在山坡上的某一点,山坡高度由数学函数描述。方向导数就是当你朝着特定方向(比如正东、东北或任意斜方向)移动时,海拔的瞬时变化率。它告诉你在那个方向上山坡有多陡。
举个日常例子:
- 空调和电灯每小时的电费是 z = 3x + 2y \(( x:空调时间, y y y:开灯时间)。
- 偏导数好比“只调空调时间”或“只调灯光时间”时电费的变化速度(比如多开1小时空调,电费多3元)。
- 方向导数则是当你同时调整两个时间(比如空调多开0.8小时,灯光多开0.6小时)时,电费的变化速度。此时的变化率是:
方向导数 = 3 × 0.8 + 2 × 0.6 = 3.6 元/小时 [ 2 ] ( @ r e f ) \text{方向导数} = 3 \times 0.8 + 2 \times 0.6 = 3.6 \, \text{元/小时}[2](@ref) 方向导数=3×0.8+2×0.6=3.6元/小时[2](@ref)
其中, 0.8 0.8 0.8 和 0.6 0.6 0.6 是方向的单位分量。
关键点:
- 与坡度的关系:方向导数越大,沿该方向移动越“陡峭”。
- 梯度是方向导数的最大值方向,指向最陡上升方向。
- 偏导数是特例:比如沿纯东或纯北方向的方向导数就是对应的偏导数。
一句话总结:方向导数描述函数在某一方向的“陡峭程度”,是梯度在该方向上的投影。
梯度
梯度的简单解释:
想象你在爬山时,想找到上升最快的路径。梯度就像指南针指向最陡的上坡方向,并且告诉你这个方向的坡度有多陡。数学中,梯度是偏导数的组合,帮你分析多变量函数在各个方向的变化。
举个日常例子:
- 电费公式是 z = 3 x + 2 y z = 3x + 2y z=3x+2y( x x x y y y:开灯时间)。
- 梯度就是 ( 3 , 2 ) (3, 2) (3,2),表示同时调空调和灯光时,电费增长最快的方向——每多开1小时空调 3 + 2 = 5 3+2=5 3+2=5 元(实际需换算为方向)。
数学定义:
对函数 f ( x , y ) f(x, y) f(x,y),梯度写作:
grad f = ( ∂ f ∂ x , ∂ f ∂ y ) \text{grad}f = \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right) gradf=(∂x∂f,∂y∂f)
例如, f = x 2 + y 2 f = x^2 + y^2 f=x2+y2 的梯度是 ( 2 x , 2 y ) (2x, 2y) (2x,2y),在点 ( 1 , 1 ) (1,1) (1,1) 处梯度为 ( 2 , 2 ) (2, 2) (2,2),指向右上方,坡度大小为 2 2 + 2 2 = 2 2 \sqrt{2^2 + 2^2} = 2\sqrt{2} 22+22=22。
关键点:
1️⃣ 方向最陡:梯度方向是函数值增长最快的方向,反方向下降最快。
2️⃣ 垂直于等高线:比如地图上的等高线,梯度指向垂直于等高线的方向(如图,山顶向外的箭头)。
3️⃣ 多远都适用:三元函数 f ( x , y , z ) f(x, y, z) f(x,y,z) 的梯度是 ( f x , f y , f z ) (f_x, f_y, f_z) (fx,fy,fz),指向空间中最速上升方向。
一句话总结:梯度是多变量函数的“方向导数最大值指示器”,既告诉方向又告诉坡度。
原函数
原函数的简单解释:
原函数就像“导数反过来”——如果一个函数的导数等于原来的函数,它就是原函数。
通俗地说,你可以把它理解成**“积分后的函数”**。它有一个关键作用:帮你轻松算面积(定积分)。
举个例子:
- 已知车速随时间变化的函数是 v ( t ) v(t) v(t),那么路程的函数 s ( t ) s(t) s(t) 就是 v ( t ) v(t) v(t) 的原函数。因为速度的导数是加速度,而路程的导数就是速度。
- 牛顿—莱布尼茨公式说:计算车速 v ( t ) v(t) v(t) 在时间 [ a , b ] [a, b] [a,b] 内让你跑的总路程,只需用原函数 s ( t ) s(t) s(t) 在终点 b b b 和起点 a a a 的差,即 s ( b ) − s ( a ) s(b) - s(a) s(b)−s(a)。
数学核心:
- 若 F ′ ( x ) = f ( x ) F'(x) = f(x) F′(x)=f(x),则称 F ( x ) F(x) F(x) 是 f ( x ) f(x) f(x) 的原函数。
- 作用:原函数可以把复杂的积分计算转换成简单的减法(如例题中 f ( x ) = sin ( x ) x f(x) = \frac{\sin(x)}{x} f(x)=xsin(x) 的积分)。
一句话总结:原函数是导数的“逆运算”,是积分难题的快速解法钥匙。