ArcPy

关于编码（折腾一晚上的中文乱码、中文编码问题）

by giser · 2019-04-24

1. windows 系统默认编码为：GBK

2. C++语法以字节为单元处理字符串，不关心处理中文的编码。但是接口可以获取系统当前的编码，这并不代表什么。

所以，中文处理的切词程序会要求提前文本按照编码格式输出。

3. 编码会通过位置flag，提醒编译器按照两位编码，还是按照三位编码。

4. 文字的编码是生成的时候，生成方决定的。xtrem 或者vim等需要解析字节的会根据自己系统设置的解码方式解码，一旦不一致就会出现乱码情况。也辅助证明从字节维度不能看出是何种编码

注：中文 UTF-8 字节长度为2-3不定，GBK字节长度为2。

附：iconv -t utf-8 -f gb2312 -c my_database.sql > new.sql： gb2313转换成utf-8. -f 原编码 -t 目标编码 -c 无法忽略

转载自：https://blog.csdn.net/renxiangran/article/details/83152259

Tags: ArcPy 关于编码（折腾一晚上的中文乱码、中文编码问题）

You may also like...