使用pybind11开发c++扩展模块输出到控制台的中文信息显示乱码的问题

发布于:2025-04-14 ⋅ 阅读:(21) ⋅ 点赞:(0)

使用pybind11开发供Python项目使用的C++扩展模块时,如果在扩展模块的C++代码中向控制台输出的信息中包含中文,python程序的控制台很容易出现乱码。以如下C++扩展框架代码为例(这是对上一篇文章简明使用pybind11开发pythonc+扩展模块教程-CSDN博客中的C++扩展框架代码进行少量修正后的结果):

#include <iostream>
#include <fstream>
#include <sstream>
#include <string>
#include <vector>
#include <map>
#include <locale>
#include <codecvt>
#include <windows.h>
#include <pybind11/pybind11.h>
#include <pybind11/stl.h>

namespace py = pybind11;

class CSVFinder {
private:
    std::map<std::string, std::vector<std::string>> dataMap;
    std::vector<std::string> headers;


public:
    // 默认构造函数
    CSVFinder() {
    }

    // 接受 CSV 文件路径的构造函数
    CSVFinder(const std::string& filePath) {
        loadCSV(filePath);
    }

    // 载入 CSV 文件的方法
    void loadCSV(const std::string& filePath) {
        // 检查文件扩展名是否为 .csv
        if (filePath.substr(filePath.find_last_of(".") + 1) != "csv") {
            std::cerr << "文件扩展名不是 .csv,但仍尝试解析: "  << filePath << std::endl;
        }

        std::ifstream file(filePath);
        if (!file.is_open()) {
            std::cerr << "无法打开文件,请检查文件名或路径是否错误: " << filePath <<  std::endl;
            dataMap.clear();
            headers.clear();
            return;
        }

        std::string line;
        // 读取第一行作为标题
        if (!std::getline(file, line)) {
            std::cerr << "无法读取文件的第一行,请检查文件内容: " << filePath << std::endl;
            dataMap.clear();
            headers.clear();
            return;
        }

        std::istringstream iss(line);
        std::string token;
        while (std::getline(iss, token, ',')) {
            headers.push_back(token);
        }

        if (headers.empty()) {
            std::cerr << "第一行未包含有效的标题信息,请检查文件内容: "
                       << filePath << std::endl;
            dataMap.clear();
            headers.clear();
            return;
        }

        // 读取后续行
        while (std::getline(file, line)) {
            std::istringstream iss(line);
            std::vector<std::string> values;
            std::string token;
            while (std::getline(iss, token, ',')) {
                values.push_back(token);
            }
            if (values.empty()) {
                std::cerr << "某行未包含有效的数据信息,请检查文件内容: "
                           << filePath << std::endl;
                dataMap.clear();
                headers.clear();
                return;
            }
            std::string key = values[0];
            values.erase(values.begin());
            dataMap[key] = values;
        }

        if (dataMap.empty()) {
            std::cerr << "The file does not contain valid data lines:"
                       << filePath << std::endl;
            dataMap.clear();
            headers.clear();
            return;
        }

        file.close();
    }

    // 返回 dataMap 的方法
    const std::map<std::string, std::vector<std::string>>& getDataMap() const {
        return dataMap;
    }

    // 返回 headers 的方法
    const std::vector<std::string>& getHeaders() const {
        return headers;
    }

    // 查找数据的方法
    py::object findData(const std::string& rowTitle, const std::string& colTitle) {
        auto rowIt = dataMap.find(rowTitle);
        if (rowIt != dataMap.end()) {
            for (size_t i = 1; i < headers.size(); ++i) {
                if (headers[i] == colTitle && i < rowIt->second.size()) {
                    return py::cast(rowIt->second[i]);
                }
            }
        }
        return py::none();  // 返回 None 对象
    }

    // 查找行的方法
    std::vector<std::string> findRow(const std::string& rowTitle) {
        auto it = dataMap.find(rowTitle);
        if (it != dataMap.end()) {
            return it->second;
        }
        return {};
    }

    // 查找列的方法
    std::vector<std::string> findColumn(const std::string& colTitle) {
        std::vector<std::string> column;
        // 查找列标题在headers中的索引, 注意 headers[0] 为行标题,因此从index 1开始
        int colIndex = -1;
        for (size_t i = 1; i < headers.size(); ++i) {
            if (headers[i] == colTitle) {
                colIndex = static_cast<int>(i - 1); // 对应到每行数据中的索引
                break;
            }
        }
        if (colIndex < 0) {
            return column; // 未找到对应的列标题,返回空向量
        }
        // 遍历每一行数据
        for (const auto& row : dataMap) {
            const std::vector<std::string>& values = row.second;
            if (static_cast<size_t>(colIndex) < values.size()) {
                column.push_back(values[colIndex]);
            }
            else {
                column.push_back(""); // 如该行数据列数不足,可选择返回空字符串
            }
        }
        return column;
    }
};

PYBIND11_MODULE(CSVFinder, m) {
    py::class_<CSVFinder>(m, "CSVFinder")
        .def(py::init<>())
        .def(py::init<const std::string&>())
        .def("load_csv", &CSVFinder::loadCSV)
        .def("get_datamap", &CSVFinder::getDataMap)
        .def("get_headers", &CSVFinder::getHeaders)
        .def("find_data", &CSVFinder::findData)
        .def("find_row", &CSVFinder::findRow)
        .def("find_column", &CSVFinder::findColumn);
}

其中loadCSV方法中有不少向控制台输入的错误信息。将上面的框架构建分发给Python项目使用(具体过程参见本文开头提到的博客),使用下面的python代码进行测试:

from CSVFinder import CSVFinder

width = 8

file = "E:/projects/ziweidoushu/csv1/destiny_type.csv"
finder = CSVFinder(file)
dict = finder.get_datamap()
headers = finder.get_headers()
print(f'{[value.ljust(width) + "|" for value in headers]}')
for key, values in dict.items():
	print(f'{key.ljust(width)  + "|" }:{[value.ljust(width)  + "|" for value in values]}')
key = '甲'
row = finder.find_row(key)
print(f"{key.ljust(width)  + '|' }:{len(row)}:{[value.ljust(width)  + '|' for value in row]}")
key = '寅'
column = finder.find_column(key)
print(f"{key.ljust(width)  + '|' }:{len(column)}:{[value.ljust(width)  + '|' for value in column]}")

测试程序中的文件路径故意写错了,本来应该向控制台输出C++代码中的包含中文的错误信息:

无法打开文件,请检查文件名或路径是否错误: E:/projects/ziweidoushu/csv1/destiny_type.csv

在控制台执行测试程序,实际输出如下图:

可以看到C++扩展模块向控制台输出的中文信息变成了乱码,但是Python程序向控制台输出的中文信息则显示正常。AI以及不少文章说用下面的命令将控制台所使用的编码改成UTF-8能够解决问题:

chcp 65001

实际上起不了作用:

实际上只要在C++扩展模块中在字符串前加上u8修饰符、在模块入口处将控制台编码改为UTF-8,并给编译器加上“/utf-8”选项即可正常显示中文,而无需调整控制台编码页。也就是:

1、在C++扩展模块代码中包含<windows.h>,然后调用Windows API在pybind11模块入口处进行如下调用即可:

//省略一些代码

 std::cerr << u8"无法打开文件,请检查文件名或路径是否错误: " << filePath << std::endl;

// 省略一些代码

PYBIND11_MODULE(CSVFinder, m) {
    SetConsoleOutputCP(CP_UTF8);  // 增加的代码
    std::cerr.imbue(std::locale("chs"));  // 增加的代码,可省略
    std::cout.imbue(std::locale("chs"));  // 增加的代码,可省略

// 省略后面的代码

实际上C++扩展模块中增加的三行代码后面两行省略也能解决问题,但考虑到提高健壮性,加上后两行代码,让控制台认为处于中文环境中。

2、在setup.py的扩展模块定义中,增加“/utf-8”选项:

# 定义扩展模块
csv_module = Extension(
    'CSVFinder',  # 模块名称
    sources=['read_csv.cpp'],  # C++ 源文件路径
    include_dirs=[pybind11.get_include(), ],  
    language='c++',  # 指定使用 C++ 语言
    extra_compile_args=['/utf-8','-D_WIN32_WINNT=0x0601', '-D__USE_MINGW_ANSI_STDIO=1'],  # 编译选项
)

重新构建并测试,结果如下:


网站公告

今日签到

点亮在社区的每一天
去签到