文章目录
- 一、为什么要学习string类?
- 二、标准库中的string类型
- 三、string类的模拟实现
一、为什么要学习string类?
1.1 C语言中的字符串
C语言中,字符串是以’\0’结尾的一些字符的集合,为了操作方便,C标准库中提供了一些str系列的库函数,但是这些库函数与字符串是分离开的,不太符合OOP的思想,而且底层空间需要用户自己管理,稍不留神可能还会越界访问。
二、标准库中的string类型
2.1 string类
(string类的文档介绍:String)
1.字符串是表示字符序列的类
2.标准的字符串类提供了对此类对象的支持,其接口类似于标准字符容器的接口,但添加了专门用于操作单字节字符字符串的设计特性。
3.string类是使用char类型(即作为它的字符类型)的,使用它的默认char_traits和分配器类型(关于模板的更多信息,请参阅basic_string)。
4.string类是basic_string模板类的一个实例,它使用char来实例化basic_string模板类,并用char_traits和allocator作为basic_string的默认参数(更多的模板信息请参考basic_string)。
5.注意,这个类独立于所使用的编码来处理字节: 如果用来处理多字节或变长字符(如UTF-8)的序列,这个类的所有成员(如长度或大小)以及它的迭代器,将仍然按照字节(而不是实际编码的字符)来操作。
总结:
1.string是表示字符串的字符串类
2.该类的接口与常规容器的接口基本相同,再添加了一些专门用来操作string的常规操作。
3.string在底层实际是basic_string模板类的别名: typedef basic_string<char,char_traits, allocator> string;
4.不能操作多字节或者变长字符的序列。
2.2 string类的常用接口说明(下面只讲解最常用的接口)
(1) string类对象的常见构造
(constructor)函数名称 | 功能说明 |
---|---|
string() (重点) | 构造空的string类对象,即空字符串 |
string(const char* s) (重点) | 用C-string来构造string类对象 |
string(size_t n, char c) | string类对象中包含n个字符c |
string(const string& s) (重点) | 拷贝构造函数 |
void Teststring()
{
string s1; //构造空的string类对象s1
string s2("hello bit"); //用C格式字符串构造string类对象s2
string s3(s2); //拷贝构造s3
}
(2) string类对象的容量操作
项目 | Value |
---|---|
size (重点) | 返回字符串有效字符长度 |
length | 返回字符串有效字符长度 |
capacity | 返回空间总大小 |
empty (重点) | 检测字符串释放为空串,是返回true,否则返回false |
clear (重点) | 清空有效字符 |
reserve (重点) | 为字符串预留空间 |
resize (重点) | 将有效字符的个数改成n个,多出的空间用字符c填充 |
🔥注意:
1.size()与length()方法底层实现原理完全相同,引入size()的原因是为了与其他容器的接口保持一致,一般情况下基本都是用size()。
2.clear()只是将string中有效字符清空,不改变底层空间大小。
3.resize(size_t n)与resize(size_t n,char c)都是将字符串中有效字符个数改变到n个,不同的是当字符个数增多时: resize(n)用0来填充多出的元素空间,resize(size_t n, char c)用字符c来填充多出的元素空间。注意: resize在改变元素个数时,如果是将元素个数增多,可能会改变底层容量的大小,如果是将元素个数减少,底层空间总大小不变。
4.reserve(size_t res_arg=0): 为string预留空间,不改变有效元素的个数,当reserve的参数小于string的底层空间总大小时,reserver不会改变容量大小。
(3) string类对象的访问及遍历操作
函数名称 | 功能说明 |
---|---|
operator[] (重点) | 返回pos位置的字符,const string类对象调用 |
begin+end | begin获取一个字符的迭代器 + end获取最后一个字符下一个位置的迭代器 |
rbegin+rend | begin获取一个字符的迭代器 + end获取最后一个字符下一个位置的迭代器 |
范围for | C++11支持更简洁的范围for的新遍历方式 |
(4) string类对象的修改操作
函数名称 | 功能说明 |
---|---|
push_back | 在字符串后尾插字符c |
append | 在字符串后追加一个字符串 |
operator+=(重点) | 在字符串后追加字符串str |
c_str(重点) | 返回C格式字符串 |
find+npos(重点) | 从字符串pos位置开始往后找字符c,返回该字符在字符串中的位置 |
rfind | 从字符串pos位置开始往前找字符c,返回该字符在字符串中的位置 |
substr | 在str中从pos位置开始,截取n个字符,然后将其返回 |
🍂注意:
1.在string尾部追加字符时:s.push_back(c) /s.append(1,c)/s+='c’三种的实现方式差不多,一般情况下string类的+=操作用的比较多,+=操作不仅可以连接单个字符,还可以连接字符串。
2.对string操作时,如果能够大概预估到要放多少字符,可以先通过reserve把空间预留好。
(5) string类非成员函数
函数 | 功能说明 |
---|---|
operator+ | 尽量少用,因为传值返回,导致深拷贝效率低 |
operator>> (重点) | 输入运算符重载 |
operator<< (重点) | 输出运算符重载 |
getline (重点) | 获取一行字符串 |
relational operators (重点) | 大小比较 |
上面的几个接口大家了解一下,下面的OJ题目中会有一些体现他们的使用。string类中还有一些其他的操作,这里不再一一列举,大家在需要用到时不明白了查文档即可。
(6) vs和g++下string结构的说明
注意: 下述结构是在32位平台下进行验证的,32位平台下指针占4个字节。
○ vs下string的结构
string总共占28个字节,内部结构稍微复杂一点,先是有一个联合体,联合体用来定义string中字符串的存储空间:
■ 当字符串长度小于16时,使用内部固定的字符数组来存放
■ 当字符串长度大于等于16时,从堆上开辟空间
union _Bxty
{
//storage for small buffer or pointer to larger one
value_type _Buf[_BUF_SIZE];
pointer _Ptr;
char _Alias[_BUF_SIZE]; //to permit aliasing
} _Bx;
这种设计也是有一定道理的,大多数情况下字符串的长度都小于16,那string对象创建好之后,内部已经有了16个字符数组的固定空间,不需要通过堆创建,效率高。
其次: 还有一个size_t字段保存字符串长度,一个size_t字段保存从堆上开辟空间总的容量
最后: 还有一个指针做一些其他事情。
故总共占16+4+4+4=28个字节:
○ g++下string的结构
G++下,string是通过写时拷贝实现的,string对象总共占4个字节,内部只包含了一个指针,该指针将用来指向一块堆空间,内部包含了如下字段:
■ 空间总大小
■ 字符串有效长度
■ 引用计数
struct _Rep_base
{
size_type _M_length;
size_type _M_capacity;
_Atomic_word _M_refcount;
};
■ 指向堆空间的指针,用来存储字符串
(string类的成员函数使用及其相关操作:StringTest)
三、string类的模拟实现
3.1 经典的string类问题
上面已经对string类进行了简单的介绍,大家只要能够正常使用即可。在面试中,面试官总喜欢让学生自己来模拟实现string类,最主要是实现string类的构造、拷贝构造、赋值运算符重载以及析构函数。先看下面string类的实现是否有问题?
// 为了和标准库的string区分,此处使用String
class String
{
public:
/*
String()
:_str(new char[1])
{*_str = '\0';}
*/
//String(const char* str = "\0") //错误示范
//String(const char* str = nullptr) //错误示范
String(const char* str = "")
{
// 构造String类对象时,如果传递nullptr指针,可以认为程序非法
if (nullptr == str)
{
assert(false);
return;
}
_str = new char[strlen(str) + 1]; //多加的1是留给\0的空间
strcpy(_str, str); //将str指向空间的字符串拷贝给_str
}
~String()
{
if (_str != nullptr)
{
delete[] _str;
_str = nullptr;
}
}
private:
char* _str;
};
// 测试
int main()
{
String s1("hello world!");
String s2(s1);
return 0;
}
可以在监视窗口看一下两个对象的_str所指向的空间是否一样:
说明: 上述string类没有显式定义其拷贝构造函数与赋值运算符重载,此时编译器会合成默认的。当用s1构造s2时,编译器会调用默认的拷贝构造。最终导致的问题是:s1、s2共用同一块内存空间,在释放时同一块空间被释放多次而引起程序崩溃! 这种拷贝方式,称为浅拷贝。
3.2 浅拷贝
浅拷贝: 也称位拷贝,编译器只是将对象中的值拷贝过来。如果对象中管理资源,最后就会导致多个对象共享同一份资源,当一个对象销毁时就会将该资源释放掉,而此时另一些对象不知道该资源已经被释放,以为还有效,所以当继续对资源进项操作时,就会发生发生了访问违规。
就像一个家庭中有两个孩子,但父母只买了一份玩具,两个孩子愿意一块玩,则万事大吉,万一不想分享就你争我夺,玩具损坏。
可以采用深拷贝解决浅拷贝问题,即: 每个对象都有一份独立的资源,不要和其他对象共享。父母给每个孩子都买一份玩具,各自玩各自的就不会有问题了。
3.3 深拷贝
如果一个类中涉及到资源的管理,其拷贝构造函数、赋值运算符重载以及析构函数必须要显式给出。一般情况都是按照深拷贝方式提供。
3.4 传统版写法的String类
3.4.1 拷贝构造的传统写法
//s2(s1):用s1去拷贝构造s2(this是s2,s是s1)
// 1.拷贝构造传统写法
string(const string& s)
{
_str = new char[s._capacity + 1];
strcpy(_str, s._str);
_size = s._size;
_capacity = s._capacity;
}
上面可以看到拷贝构造函数的传统写法中:先为要创建的对象new一个空间,其空间大小与用来拷贝构造它的对象的空间大小相同。多加的1是为’\0’字符开的空间。然后将s对象空间里的内容拷贝到要创建的对象中,有效数据个数与空间容量也要和s的一样。
3.4.2 拷贝构造的现代写法
void swap(string& s)
{
std::swap(_str, s._str);
std::swap(_size, s._size);
std::swap(_capacity, s._capacity);
}
//拷贝构造
string(const string& s)
:_str(nullptr)
,_size(0)
,_capacity(0)
{
string tmp(s._str);
swap(tmp);
}
现代写法中,其实就是调构造函数来完成拷贝构造的:
//构造函数
string(const char* str = "")
:_size(strlen(str))
,_capacity(_size)
{
_str = new char[_capacity + 1];
strcpy(_str, str);
}
现代写法好处不仅在于简化,而且可以发现在拷贝构造中创建的临时对象tmp,在与要创建的对象交换其内容以后,临时对象tmp在函数调用完后会自动调用析构函数析构掉。
3.5 模拟实现string类的size、capacity的、[]重载
模拟实现string类的成员函数size()、capacity()、[]运算符重载:
size_t size() const
{
return _size;
}
size_t capacity() const
{
return _capacity;
}
//能读能写
char& operator[](size_t pos)
{
assert(pos < _size);
return _str[pos];
}
//只读
const char& operator[](size_t pos) const
{
assert(pos < _size);
return _str[pos];
}
注意:size()返回字符串的长度(不包括\0),以字节为单位。capacity()返回当前为字符串分配的存储空间的大小,以字节表示。(数组的下标是从0开始的,即size()的返回值表示字符串中的字符个数,也是结束标志\0的下标)
3.6 模拟实现string类的reserve、resize
void reserve(size_t n)
{
if (n > _capacity)
{
char* tmp = new char[n + 1];
strcpy(tmp, _str);
delete[] _str;
_str = tmp;
_capacity = n;
}
}
reserve函数是用来扩容的,如果所给参数n大于现在对象的_capacity就会进行扩容。索性我们就根据所给参数n开辟一块空间tmp,其中加1是为给\0留一个空间,将当前对象的_str的内容拷贝给tmp。释放_str,再让_str指向tmp指向的内容,空间容量capacity改为n。出了函数以后,局部指针变量tmp会销毁掉。
void resize(size_t n, char ch = '\0')
{
if (n < _size)
{
_str[n] = '\0';
_size = n;
}
else
{
reserve(n);
while (_size < n)
{
_str[_size] = ch;
_size++;
}
_str[_size] = '\0';
}
}
resize是用来改变对象的_size的,如果所给参数n小于_size的话,就会进行数据的删减,直接将n下标置的元素置为\0,然后把_size改为n即可。如果n大于_size的话,先检查是否要扩容,然后可以根据所给参数ch来填充满有效数据个数,然后将n下标位置的数据置为\0。注意:n既是有效数据个数,也是最后一个数据的下一个位置的下标。
3.7 模拟实现string类的push_back、append、+=重载
//尾插一个字符
void push_back(char ch)
{
if (_size == _capacity)
{
reserve(_capacity == 0 ? 4 : _capacity * 2);
}
_str[_size] = ch;
++_size;
_str[_size] = '\0';
}
//追加一个字符
void append(const char* str)
{
size_t len = strlen(str);
if (_size + len > _capacity)
{
reserve(_size + len);
}
strcpy(_str + _size, str);
_size += len;
}
string& operator+=(char ch)
{
push_back(ch);
return *this;
}
string& operator+=(const char* str)
{
append(str);
return *this;
}
1.push_back函数是用来给一个对象的字符串尾插一个字符的。尾插前要先检查空间是否已满,若满了就要进行扩容,然后再将字符ch尾插到字符串后面,然后_size要增加1,并且要将_size下标的数据置为\0。
2.append函数是用来给字符串后面尾插一个字符串的。尾插也要先检查空间是否已满,然后才将要尾插的字符串插入进行,相应的_size也要加上尾插的字符串长度。
3.比起上面的两个函数,用+=来实现字符或者字符串的尾插显得更通俗易懂。所以推荐使用+=来尾插字符或字符串。
3.8 =重载
//s2 = s1:将s1赋值给s2(s2是this,s1是str),其中s1和s2是已经创建存在的对象
// 1.赋值传统写法
string& operator=(const string& str)
{
if (this != &str)
{
char* tmp = new char[str._capacity + 1];
strcpy(tmp, str._str);
delete[] _str;
_str = tmp;
_size = str._size;
_capacity = str._capacity;
}
return *this;
}
// 2.赋值现代写法Ⅰ
string& operator=(const string& str)
{
if (this != &str)
{
string tmp(str);
swap(tmp);
}
return *this;
}
// 3.赋值现代写法Ⅱ
string& operator=(string tmp)
{
swap(tmp);
return *this;
}
赋值运算符重载,即实现将一个对象赋值给另一个对象。注意:赋值是两个已经创建存在的对象进行赋值。赋值也是要采用深拷贝,上面赋值的现代写法,会调用拷贝构造来完成对一个临时对象的构造,然后让改临时对象与当前要被赋值的对象进行内容交换。这样写的好处不仅是简化了代码,而且tmp这个临时对象由于与被赋值的对象进行了内容交换。那么在函数调用完毕后,会销毁这个临时对象,也就将原来被赋值的对象的内容给释放掉了,一举两得。
3.9 模拟实现string类的insert、erase
void insert(size_t pos,char ch)
{
assert(pos <= _size);
if (_size == _capacity)
{
reserve(_capacity == 0 ? 4 : _capacity * 2);
}
size_t end = _size + 1; //'\0'的后一个位置
while (end > pos)
{
_str[end] = _str[end - 1];
end--;
}
_str[pos] = ch;
_size++;
}
void insert(size_t pos, const char* str)
{
assert(pos <= _size);
size_t len = strlen(str);
if (_size + len > _capacity)
{
reserve(_size + len);
}
//挪动数据
size_t end = size() + 1;
while (end > pos)
{
_str[end + len - 1] = _str[end-1];
--end;
}
strncpy(_str + pos, str, len);
_size += len;
}
void erase(size_t pos, size_t len = npos)
{
assert(pos < _size);
if (len == npos || pos + len >= _size)
{
_str[pos] = '\0';
_size -= len;
}
else
{
size_t begin = pos + len;
while (begin <= _size)
{
_str[begin - len] = _str[begin];
begin++;
}
_size -= len;
}
}
1.insert即在指定的pos位置插入一个字符或字符串。只要涉及插入数据就要提前检查空间是否已满,在指定位置插入字符或字符串,要把数据往后挪,挪完后才能插入数据。记得插入数据以后,还要确保字符串的结束标志\0在有效数据最后。
2.erase是用来删除字符串中的指定字符个数的。从pos位置开始往后删除len个字符,需要考虑要删除的len数量是否超过了字符串的有效数据个数。
🔥🔥🔥由于insert、erase都涉及数据的挪动,效率比较低下,所以实际中能不用他们就尽量不用。
3.10 模拟实现string类的find、substr
size_t find(char ch, size_t pos = 0)
{
assert(pos < _size);
for (size_t i = pos; i < _size; i++)
{
if (_str[i] == ch)
return i;
}
return npos;
}
size_t find(const char* sub)
{
char* p = strstr(_str, sub);
if (p != nullptr)
{
return p - _str;
}
else
{
return npos;
}
}
string substr(size_t pos, size_t len = npos)
{
assert(pos < _size);
string s;
size_t end = pos + len;
if (len == npos || pos + len >= _size)
{
len = _size - pos;
end = _size;
}
s.reserve(len);
for (size_t i = pos; i < end; i++)
{
s += _str[i];
}
return s;
}
1.find用于在一个字符串中查找指定的字符或字符串。如果找到了就返回该字符或字符串的下标位置(从左往右第一次出现的位置)。
2.substr用于返回一个字符串中的一个子串(深拷贝),一般和find配合起来使用。返回pos位置开始往后的len个字符。(substr返回一个新构造的字符串对象,其值初始化为此对象的子字符串的副本)
3.11 模拟实现string类的迭代器iterator、<<、>>重载
3.11.1 C++中什么是迭代器?
🔥在C++中,迭代器(lterator)是用于访问和遍历容器(如vector、list、map等)元素的核心工具,其本质是一个类似指针的对象,但提供了更统一的抽象接口,能够屏蔽不同容器的底层实现细节。
(1) 迭代器的核心特性
1.功能定义
迭代器通过指针式的操作(如递增、解引用等)访问容器元素,通常支持以下基本操作:
● 指向容器中的元素(类似指针)。
● 通过++或 – 移动位置(支持单向或双向移动,取决于迭代器类型)。
● 通过*操作符访问或修改元素值。
2.核心作用
● 统一访问方式: 允许以相同语法操作不同容器(如数组、链表),简化了代码复杂度。
● 与算法结合: 作为STL算法的桥梁,如sort()、find()等算法通过迭代器操作容器。
(2) 迭代器的分类
根据支持的操作能力,迭代器可分为以下类型(按功能由弱到强排序)
- 输入迭代器(lnput lterator)
仅支持单向遍历和读取元素(如istream_iterator)。 - 输出迭代器 (Output lterator)
仅支持单向遍历和写入元素(如 ostream_iterator)。 - 前向迭代器(Forward lterator)
支持多次读写和单向遍历(如单链表 forward_list 的迭代器)。 - 双向迭代器(Bidirectional lterator)
支持双向移动(如list、map的迭代器)。 - 随机访问迭代器(Random Access lterator)
支持常数时间的跳跃访问(如vector、deque的迭代器)。
string类的迭代器实现如下:
typedef char* iterator;
typedef const char* const_iterator;
//迭代器(左闭右开):像指针一样的东西,但不一定是指针
iterator begin()
{
return _str;
}
iterator end()
{
return _str + _size;
}
const_iterator begin() const
{
return _str;
}
const_iterator end() const
{
return _str + _size;
}
//清理字符串
void clear()
{
_str[0] = '\0';
_size = 0;
}
ostream& operator<<(ostream& out, const string& s)
{
for (auto ch : s)
{
cout << ch;
}
return out;
}
istream& operator>>(istream& in, string& s)
{
s.clear();
char buff[129];
size_t i = 0;
char ch = in.get(); //get()用来从键盘上读取一个字符,包括空格、换行
while (ch !=' ' && ch != '\n')
{
buff[i++] = ch;
if (i == 128)
{
buff[i] = '\0';
s += buff;
i = 0;
}
ch = in.get();
}
if (i != 0)
{
buff[i] = '\0';
s += buff;
}
return in;
}
1.对于string类对象的流插入操作符重载,需要注意只是要答应对象中字符串的每个字符,所以不能改变传给operator<<函数的参数s,所以要用const修饰,并且采用传引用的方式更高效。由于形参s是被const修饰的对象,所以迭代器也要有const修饰的iterator。范围for的底层就是迭代器。
2.string类对象的流提取操作符重载需要注意:如果原对象中还存储着字符串,则要先将字符串给清理掉,然后才从键盘上输入字符串。输入字符串当遇到空格、换行就提取结束。由于cin读取字符时,读不到空格,所以库里提供了一个get()函数可以读取到空格、换行字符。上面先创建一个了字符数组buff,暂时用来存储读取到的字符,当buff数组存储满了以后再将数组的内容尾插到s中,再从buff的起始位置开始继续存储读取的字符。这样做的好处是能减少扩容。而且buff是一个局部的数组,出了函数作用域就会被销毁。
🕯以上只是string类的部分接口的模拟实现,没有全部讲解。所以有需要指定的接口时,可以去官网查询使用。
(string类的模拟实现:SimulateString)
3.12 写时拷贝(了解)
写时拷贝就是一种拖延症,是在浅拷贝的基础之上增加了引用计数的方式来实现的。
🍓引用计数: 用来记录资源使用者的个数。在构造时,将资源的计数给成1,每增加一个对象使用该资源时,就给计数增加1,当某个对象被销毁时,先给该计数减1,然后再检査是否需要释放资源,如果计数为1,说明该对象是资源的最后一个使用者,那就将该资源释放; 否则就不能释放,因为还有其他对象在使用该资源。