编码.utf-8 or GBK?

如果我只是在win下工作,
如果我只使用中文工具可能不会出现这种问题

乱码自从使用linux开始就成了一个大问题,下载个歌曲全是乱码

可悲的是看个成人动作片好不容易找到了一个有外挂字幕的版本,居然还是乱码

GBK(Guojia Biaozhun Kuozhan)从它的全名就可以看出来这是中国指定的一套标准,扩展自GB2312

而UTF-8是来自于UNICODE编码,它的一个特点是长度可变,从1字节到4字节不等,如果使用的是英文,那么就会是1个字节,如果使用中文就是3个字节,其他字符最长可以达到4个字节。
UTF-8的设计理念和UNICODE是一样的就是用一种编码表示全世界的所有字符。

由于Microsoft从win95开始支持GBK,所以大量的中文软件采用了默认的GBK编码,然而除了windows系列产品,而Linux默认采用了UTF-8编码,由于两种编码的定义方式不同所以就造成了乱码。

UTF-8是UNICODE码,我觉得也是大势所趋,比如IronPython在内部都是采用的UNICODE编码,这样就比较容易解决乱码的问题。虽然说UTF-8在表示中文的时候比较大,占用了3个字节(而GBK占用了2个字节),但以后毕竟面对的是国际化的问题。
如果一个网站采用了UNICODE编码,那么一个采用了其他语言系统的用户(没有安装GBK)也可以正常浏览,总比看着一对乱码感觉要好
那么,我想知道,可不可以自动进行编码的判断?
Share and Enjoy:
  • Print
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • Twitter
  • email
  • PDF
  • 豆瓣
  • 豆瓣九点
  • QQ书签
  • RSS
此条目发表在 生活点滴 分类目录。将固定链接加入收藏夹。

发表评论

电子邮件地址不会被公开。 必填项已被标记为 *

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre lang="" line="" escaped="">

注意: 评论者允许使用'@user空格'的方式将自己的评论通知另外评论者。例如, ABC是本文的评论者之一,则使用'@ABC '(不包括单引号)将会自动将您的评论发送给ABC。使用'@all ',将会将评论发送给之前所有其它评论者。请务必注意user必须和评论者名相匹配(大小写一致)。