学习python处理python编码

 概括、从python1.6开始就可以处理unicode字符了。

一、几种常见的编码格式。

1.1、ascii,用1个字节表示。

1.2、UTF-8,用1个至三个字节表示,表示ascii码时只占用1个字节,ascii编码是UTF-8的子集。

1.3、UTF-16,用2个字节表示,在python中,unicode的含义就是UTF-16。

二、python源文件的编码与解码,我们写的python程序从产生到执行的过程如下:

编辑器---->源代码---->解释器---->输出结果

2.1、编辑器决定源代码的编码格式(在编辑器中设定)

2.2、也必须要解释器知道源代码的编码格式(很遗憾很难从编码的数据获知源文件的编码格式)

2.3、补充:在Windows下当用UltraEdit把源代码存成UTF-8时,会在文件中记录BOM标志(不必祥究)这样ActivePython解释器会自动识别源文件是UTF-8格式,但是如果用eclipse编辑源文件,虽然在编辑器中指定文件编码为UTF-8,但是因为没有记入BOM标志,所以必须在源文件开始处加上#coding=utf-8,用注释来提示解释器源文件的编码方式挺有意思。

2.4、举例:例如我们要向终端输出"我是中国人"。 

 
 
 
  1. #coding=utf-8     告诉python解释器用的是utf-8编码,我用的是eclipse+pydev     
  2. print "我是中国人"  #源文件本身也要存成UTF-8编码    

三、编码的转换,两种编码的转换要用UTF-16作为中转站。

举例:如果有一个文本文件jap.txt,里面有内容 "私は中国人です。",编码格式是日文编码SHIFT_JIS,

还有一个文本文件chn.txt,内容是"中华人民共和国",编码格式是中文编码GB2312。

我们如何把两个文件里的内容合并到一起并存储到utf.txt中并且不显示乱码呢,可以采用把两个文件的内容都转成UTF-8格式,因为UTF-8里包含了中文编码和日文编码。

 
 
 
  1. #coding=utf-8     
  2.     
  3. try:     
  4.     JAP=open("e:/jap.txt","r")     
  5.     CHN=open("e:/chn.txt","r")     
  6.     UTF=open("e:/utf.txt","w")     
  7.          
  8.     jap_text=JAP.readline()     
  9.     chn_text=CHN.readline()     
  10.     #先decode成UTF-16,再encode成UTF-8     
  11.     jap_text_utf8=jap_text.decode("SHIFT_JIS").encode("UTF-8"#不转成utf-8也可以     
  12.     chn_text_utf8=chn_text.decode("GB2312").encode("UTF-8")#编码方式大小写都行utf-8也一样     
  13.     UTF.write(jap_text_utf8)     
  14.     UTF.write(chn_text_utf8)     
  15.          
  16. except IOError,e:     
  17.     print "open file error",e    

 

四、Tk库支持ascii,UTF-16,UTF-8

 

 
 
 
  1. #coding=utf-8     
  2.     
  3. from Tkinter import *     
  4.     
  5. try:     
  6.     JAP=open("e:/jap.txt","r")     
  7.     str1=JAP.readline()     
  8.     
  9. except IOError,e:     
  10.     print "open file error",e     
  11.     
  12. root=Tk()     
  13.     
  14. label1=Label(root,text=str1.decode("SHIFT_JIS")) #如果没有decode则显示乱码     
  15. label1.grid()     
  16.     
  17. root.mainloop()    

以上是学习python处理python编码的基本过程,希望对大家有帮助。

【编辑推荐】

  1.  Python 3.2 alpha 2发布 改善单元模块
  2. 全能选手 看看Python应乎潮流的72变
  3. Python自动单元测试框架的应用详解
  4. Perl Unicode全程攻略
  5. Python unicode ascii编码在windows中的实际应用
  6. Python unicode ascii编码在windows上的问题的解决

 

免责声明:文章内容不代表本站立场,仅供读者参考。产品相关技术问题请发送工单。 本文链接:https://www.idc.net/help/398122/

为您推荐

开源数据收集引擎 Logstash 讲解和示例讲解

一、概述 Logstash 是一个开源的数据收集和日志处理工具,它是 Elastic Stack(ELK Stack)的一部分,用于从各种数据源中采集、转换和传输数据,以帮助分析和可视化大规模数据。Logstash 通常与 Elasticsearch 和 Ki...

八个开源免费单点登录(SSO)系统

单点登录(SSO)是一个登录服务层,通过一次登录访问多个应用。使用SSO服务可以提高多系统使用的用户体验和安全性,用户不必记忆多个密码、不必多次登录浪费时间。 下面推荐一些市场上最好的开源SSO系统,可作为商业SSO替代。 1.Authelia https://github.com/authelia/authelia ...

浅谈HBase数据结构和系统架构

Part 01 LSM树模型 常见的的关系型数据库,如MySQL、SQL Server、Oracle等,使用B+ Tree作为数据存储与索引的基本结构,非叶子节点只存放索引数据,叶子节点存放所有数据和指向相邻节点的指针,具有高效的范围查询和稳定的查找效率,以及具有较小的读放大和空间放大。采用磁盘随机读写方式,且以磁盘数...

微软Radius平台重构现代应用程序部署

微软的 Azure 孵化团队日前推出一个叫 Radius 的新应用平台。Radius 平台可用于在 Kubernetes、公共云和边缘环境中运行各种现代应用程序。 Radius 是一个开源项目,最初支持的应用程序运行时包括Kubernetes、Azure和AWS,以后还会支持诸如谷歌云平台等云环境。 Mark Russ...

Ext JS3.0正式版发布

Ext JS3.0在经历数次RC版之后,extjs.com终于发布3.0的正式版。总体而言,较2.0改进不大,依然还是原理的组件模型,具体更新及改进如下: ◆提供了参照DWR后与后台的通讯包Direct,支持具有明显的REST风格的CRUD服务 ◆一系列的新的组件和例子,包括有图表(Charting, By YUI F...
返回顶部