java 中文乱码问题 utf-8和gbk的区别

2024-11-07 21:28:54

推荐回答（3个）

回答1：

Java中UTF-8转GBK之所以不会出现中文乱码，是因为UTF-8编码为兼容性最大的字符集编码，它本身就支持中文字符。

Java代码转码范例：
String s = new String(ss.getBytes(),"GBK");
当你的内容本来就是正常的中文字符时，通过上面的语句转为GBK编码是不会有任何问题的，但如果你在转码之前的字符不是正确的中文字符，或者不是支持中文字符的字符集，那可能就会出现乱码问题。

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，又称万国码。由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言（如英文，日文，韩文）。

在Java开发中，特别是web开发，乱码是一种很常见而且很头疼的问题，这常常是由于页面端、服务端、数据库等几处所使用的字符不一致所致，故开发中，保持编码一致，往往能减少由于乱码而带来的时间浪费，是一件非常重要的事情。

回答2：

编码只是一些字符的范围，当然因为相同码，使用不同编码解，就会有的正常、有的乱码。。。。这是乱码的根本

~
~
~

回答3：

字符均使用双字节来表示，只不过为区分中文，将其最高位都定成1。

至于UTF－8编码则是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24位（三个字节）来编码。对于英文字符较多的论坛则用UTF－8节省空间。

GBK包含全部中文字符；UTF-8则包含全世界所有国家需要用到的字符。

GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准（好像还不是国家标准）
UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。
比如，如果是UTF8编码，则在外国人的英文IE上也能显示中文，而无需他们下载IE的中文语言支持包。所以，对于英文比较多的论坛，使用GBK则每个字符占用2个字节，而使用UTF－8英文却只占一个字节。

UTF8是国际编码，它的通用性比较好，外国人也可以浏览论坛，GBK是国家编码，通用性比UTF8差，不过UTF8占用的数据库比GBK大