1. 数据结构前言
1.1 数据结构
数据结构 ( Data Structure ) 是计算机存储、组织数据的方式,指相互之间存在⼀种或多种特定关系的数据元素的集合。
没有⼀种单⼀的数据结构对所有用途都有用,所以我们要学各式各样的数据结构。
如:线性表、树、图、哈希等
1.2 算法
算法 ( Algorithm ) :就是定义良好的计算过程,他取⼀个或⼀组的值为输入,并产生出一个或⼀组值作为输出。
简单来说算法就是⼀系列的计算步骤,用来将输入数据转化成输出结果。
1.3 数据结构和算法的重要性
校园招聘笔试必考
校园招聘面试必考
如何学好数据结构和算法
书籍推荐
2. 算法效率
如何衡量⼀个算法的好坏呢?
案例:旋转数组
思路:循环 K 次将数组所有元素向后移动⼀位
void rotate(int* nums, int numsSize, int k)
{
while(k--)
{
int end = nums[numsSize-1];
for(int i = numsSize - 1;i > 0 ;i--)
{
nums[i] = nums[i-1];
}
nums[0] = end;
}
}
当代码点击执行时可以通过,然而点击提交却无法通过,那该如何衡量其好与坏呢?
2.1 复杂度的概念
算法在编写成可执行程序后,运行时需要耗费时间资源和空间(内存)资源。
因此衡量⼀个算法的好坏,⼀般是从时间和空间两个维度来衡量的,即时间复杂度和空间复杂度。
时间复杂度主要衡量⼀个算法的运行快慢,而空间复杂度主要衡量⼀个算法运行所需要的额外空间。
在计算机发展的早期,计算机的存储容量很小。所以对空间复杂度很是在乎。但是经过计算机行业的迅速发展,
计算机的存储容量已经达到了很⾼的程度。所以我们如今已经不需要再特别关注⼀个算法的空间复杂度。
2.2 复杂度的重要性
复杂度在校招中的考察已经很常见,如下:
3. 时间复杂度
定义:在计算机科学中,算法的时间复杂度是⼀个函数式 T(N)
,它定量描述了该算法的运行时间。
时间复杂度是衡量程序的时间效率,那么为什么不去计算程序的运行时间呢?
因为程序运行时间和编译环境和运行机器的配置都有关系,比如同⼀个算法程序,用⼀个老编译器进行编译和新编译器编译,在同样机器下运行时间不同。
同⼀个算法程序,用⼀个老低配置机器和新高配置机器,运行时间也不同。
并且时间只能程序写好后测试,不能写程序前通过理论思想计算评估。
那么算法的时间复杂度是⼀个函数式 T(N)
到底是什么呢?这个 T(N)
函数式计算了程序的执行次数。
通过 C语言 编译链接章节学习,我们知道算法程序被编译后生成二进制指令,程序运行,就是 cpu 执行这些编译好的指令。
那么我们通过程序代码或者理论思想计算出程序的执⾏次数的函数式 T(N)
,
假设每句指令执行时间基本⼀样(实际中有差别,但是微乎其微),那么执行次数和运行时间就是等比正相关,
这样也脱离了具体的编译运行环境。执行次数就可以代表程序时间效率的优劣。
比如解决⼀个问题的算法 a
程序 T(N) = N
,算法 b
程序 T(N) = N^2
,那么算法 a
的效率⼀定优于算法 b
。
案例:
// 请计算⼀下Func1中++count语句总共执⾏了多少次?
void Func1(int N)
{
int count = 0;
for (int i = 0; i < N ; ++ i)
{
for (int j = 0; j < N ; ++ j)
{
++count;
}
}
for (int k = 0; k < 2 * N ; ++ k)
{
++count;
}
int M = 10;
while (M--)
{
++count;
}
}
Func1
执行的基本操作次数:
通过对 N 取值分析,对结果影响最大的⼀项是 N2。
实际中我们计算时间复杂度时,计算的也不是程序的精确的执行次数,
精确执行次数计算起来还是很麻烦的(不同的⼀句程序代码,编译出的指令条数都是不⼀样的),计算出精确的执行次数意义也不大,
因为我们计算时间复杂度只是想比较算法程序的增长量级,也就是当 N
不断变大时 T(N)
的差别,
上面我们已经看到了当 N
不断变大时常数和低阶项对结果的影响很小,所以我们只需要计算程序能代表增长量级的大概执行次数,
复杂度的表示通常使用大 O 的渐进表示法。
3.1 大O的渐进表示法
大O符号(Big O notation):是用于描述函数渐进行为的数学符号。
💡 推导大O阶规则:
- 时间复杂度函数式
T(N)
中,只保留最高阶项,去掉那些低阶项,因为当N
不断变大时,低阶项对结果影响越来越小,当N
⽆穷大时,就可以忽略不计了。- 如果最高阶项存在且不是 1 ,则去除这个项目的常数系数,因为当
N
不断变大,这个系数对结果影响越来越小,当N
无穷大时,就可以忽略不计了。T(N)
中如果没有N
相关的项目,只有常数项,用常数 1 取代所有加法常数。
通过以上方法,可以得到 Func1
的时间复杂度为:O(N2)
3.2 时间复杂度计算示例
3.2.1 示例 1
// 计算Func2的时间复杂度?
void Func2(int N)
{
int count = 0;
for (int k = 0; k < 2 * N ; ++ k)
{
++count;
}
int M = 10;
while (M--)
{
++count;
}
printf("%d\n", count);
}
Func2 执行的基本操作次数:T (N) = 2N + 10
根据推导规则第 3 条得出
Func2的时间复杂度为:O(N)
3.2.2 示例 2
// 计算Func3的时间复杂度?
void Func3(int N, int M)
{
int count = 0;
for (int k = 0; k < M; ++k)
{
++count;
}
for (int k = 0; k < N ; ++k)
{
++count;
}
printf("%d\n", count);
}
Func3 执行的基本操作次数: T (N) = M + N
因此:Func3 的时间复杂度为:O(N)
3.2.3 示例 3
// 计算Func4的时间复杂度?
void Func4(int N)
{
int count = 0;
for (int k = 0; k < 100; ++ k)
{
++count;
}
printf("%d\n", count);
}
Func4 执行的基本操作次数: T (N) = 100
根据推导规则第 1 条得出
Func4 的时间复杂度为:O(1)
3.2.4 示例 4
// 计算strchr的时间复杂度?
const char * strchr ( const char
* str, int character)
{
const char* p_begin = s;
while (*p_begin != character)
{
if (*p_begin == '\0')
return NULL;
p_begin++;
}
return p_begin;
}
strchr 执行的基本操作次数:
若要查找的字符在字符串第⼀个位置,则: T (N) = 1
若要查找的字符在字符串最后的⼀个位置,则: T (N) = N
若要查找的字符在字符串中间位置,则: T (N) = 2N
因此: strchr 的时间复杂度分为:
最好情况:O(1)
最坏情况:O(N)
平均情况: O(N)
💡:总结
通过上⾯我们会发现,有些算法的时间复杂度存在最好、平均和最坏情况。
- 最坏情况:任意输入规模的最大运行次数(上界)
- 平均情况:任意输输入规模的期望运行次数
- 最好情况:任意输入规模的最小运行次数(下界)
大O的渐进表示法在实际中⼀般情况关注的是算法的上界,也就是最坏运行情况。
3.2.5 示例 5
// 计算BubbleSort的时间复杂度?
void BubbleSort(int* a, int n)
{
assert(a);
for (size_t end = n; end > 0; --end)
{
int exchange = 0;
for (size_t i = 1; i < end; ++i)
{
if (a[i-1] > a[i])
{
Swap(&a[i-1], &a[i]);
exchange = 1;
}
}
if (exchange == 0)
break;
}
}
BubbleSort 执行的基本操作次数:
若数组有序,则:T (N) = N
若数组有序且为降序,则:T (N) = 1/2 * N * (N + 1)
因此: BubbleSort 的时间复杂度取最差情况为:O(N2)
3.2.6 示例 6
void func5(int n)
{
int cnt = 1;
while (cnt < n)
{
cnt *= 2;
}
}
当 n = 2 时,执行次数为 1
当 n = 4 时,执行次数为 2
当 n = 16 时,执行次数为 4
假设执行次数为 x ,则 2x = n
因此执行次数:x = log2n
因此:Func5 的时间复杂度取最差情况为:O(log2n)
注意课件中和书籍中 log2n 、log n 、lg n 的表示当 n 接近无穷大时,底数的大小对结果影响不⼤。
因此,⼀般情况下不管底数是多少都可以省略不写,即可以表示为 log n 不同书籍的表示方式不同,以上写法差别不大,
我们建议使用 log n
3.2.7 示例 7
// 计算阶乘递归Fac的时间复杂度?
long long Fac(size_t N)
{
if(0 == N)
return 1;
return Fac(N-1)*N;
}
调用一次Fac函数的时间复杂度为O(1)⽽在Fac函数中,存在 n 次递归调⽤Fac函数
因此阶乘递归的时间复杂度为:O(n)
4. 空间复杂度
空间复杂度也是⼀个数学表达式,是对⼀个算法在运行过程中因为算法的需要额外临时开辟的空间。
空间复杂度不是程序占⽤了多少 bytes 的空间,因为常规情况每个对象大小差异不会很大,所以空间复杂度算的是变量的个数。
空间复杂度计算规则基本跟实践复杂度类似,也使用大O渐进表示法。
注意:函数运行时所需要的栈空间(存储参数、局部变量、⼀些寄存器信息等)在编译期间已经确定好了,
因此空间复杂度主要通过函数在运行时候显式申请的额外空间来确定。
4.1 空间复杂度计算示例
4.1.1 示例 1
// 计算BubbleSort的时间复杂度?
void BubbleSort(int* a, int n)
{
assert(a);
for (size_t end = n; end > 0; --end)
{
int exchange = 0;
for (size_t i = 1; i < end; ++i)
{
if (a[i-1] > a[i])
{
Swap(&a[i-1], &a[i]);
exchange = 1;
}
}
if (exchange == 0)
break;
}
}
函数栈帧在编译期间已经确定好了,只需要关注函数在运行时额外申请的空间。
BubbleSort 额外申请的空间有 exchange 等有限个局部变量,使用常数个额外空间
因此空间复杂度为 O(1) 。
在这里读者们可能有一些疑问,在循环中 exchange 明明创建了 n 次,为什么最终的空间复杂度只有 O(1) 。
这时因为 exchange 是我们在循环内创建的变量,在这次循环结束后变量被销毁,所以并不会出现占据多个空间的现象,
而是只是占据着一个空间,销毁,然后继续创建。我们观察一下 exchange 的地址就可以看出一些端倪。
可以看到地址都是相同的,所以并不会开辟多个空间,只是在一个空间反复创建,销毁。
4.1.2 示例 2
// 计算阶乘递归Fac的空间复杂度?
long long Fac(size_t N)
{
if(N == 0)
return 1;
return Fac(N-1)*N;
}
Fac 递归调用了 N 次,额外开辟了 N 个函数栈帧,每个栈帧使用了常数个空间
因此空间复杂度为: O(N)
5. 常见复杂度对比
6. 复杂度算法题
6.1 旋转数组
思路 1 :
时间复杂度 O(n2)
循环 K 次将数组所有元素向后移动⼀位(代码不通过)
void rotate(int* nums, int numsSize, int k)
{
while(k--)
{
int end = nums[numsSize-1];
for(int i = numsSize - 1;i > 0 ;i--)
{
nums[i] = nums[i-1];
}
nums[0] = end;
}
}
思路 2:
空间复杂度 O(n)
申请新数组空间,先将后 K 个数据放到新数组中,再将剩下的数据挪到新数组中。
void rotate(int* nums, int numsSize, int k)
{
int newArr[numsSize];
for (int i = 0; i < numsSize; ++i)
{
newArr[(i + k) % numsSize] = nums[i];
}
for (int i = 0; i < numsSize; ++i)
{
nums[i] = newArr[i];
}
}
思路 3 :
空间复杂度 O(1)
- 原数组:1 2 3 4 5 6 7
现假设 k = 4
前 n - k 个逆置:4 3 2 1 5 6 7
后 k 个逆置:4 3 2 1 7 6 5
整体逆置:5 6 7 1 2 3 4
void reverse(int* nums,int begin,int end)
{
while(begin<end)
{
int tmp = nums[begin];
nums[begin] = nums[end];
nums[end] = tmp;
begin++;
end--;
}
}
void rotate(int* nums, int numsSize, int k)
{
k = k%numsSize;
reverse(nums,0,numsSize-k-1);
reverse(nums,numsSize-k,numsSize-1);
reverse(nums,0,numsSize-1);
}