关于编码(折腾一晚上的中文乱码、中文编码问题)

1. windows 系统默认编码为:GBK

2. C++语法以字节为单元处理字符串,不关心处理中文的编码。 但是接口可以获取系统当前的编码,这并不代表什么。

所以,中文处理的切词程序会要求提前文本按照编码格式输出。

3. 编码会通过位置flag, 提醒编译器按照两位编码,还是按照三位编码。

4. 文字的编码是生成的时候,生成方决定的。xtrem 或者vim等需要解析字节的会根据自己系统设置的解码方式解码,一旦不一致就会出现乱码情况。也辅助证明从字节维度不能看出是何种编码

注:中文 UTF-8 字节长度为2-3不定,GBK字节长度为2。

附:iconv -t utf-8 -f gb2312 -c my_database.sql > new.sql:  gb2313转换成utf-8. -f 原编码 -t 目标编码 -c 无法忽略

转载自:https://blog.csdn.net/renxiangran/article/details/83152259

You may also like...