Convert từ TCVN3 sang Unicode


# -*- coding: utf-8 -*-
#import profile
import re
import string

#profile.run('_main__')
TCVN3TAB = "µ¸¶·¹¨»¾¼½Æ©ÇÊÈÉË®ÌÐÎÏѪÒÕÓÔÖ×ÝØÜÞßãáâä«åèæçé¬êíëìîïóñòô­õøö÷ùúýûüþ¡¢§£¤¥¦"
TCVN3TAB = [ch.encode('utf8') for ch in unicode(TCVN3TAB, 'utf8')]

UNICODETAB = "àáảãạăằắẳẵặâầấẩẫậđèéẻẽẹêềếểễệìíỉĩịòóỏõọôồốổỗộơờớởỡợùúủũụưừứửữựỳýỷỹỵĂÂĐÊÔƠƯ"
UNICODETAB = [ch.encode('utf8') for ch in unicode(UNICODETAB, 'utf8')]
r = re.compile("|".join(TCVN3TAB))
replaces_dict = dict(zip(TCVN3TAB, UNICODETAB))

#rv = re.compile("|".join(UNICODETAB))
#rv_relplaces_dict = dict(zip(UNICODETAB,TCVN3TAB))

#
def TCVN3toUnicode(tcvn3str):
return r.sub(lambda m: replaces_dict[m.group(0)], tcvn3str)

def UnicodetoTCVN3(unicodestr):
return r.sub(lambda m: replaces_dict[m.group(0)], unicodestr)

if __name__ == '__main__':

f1 = open('d://Others/test1.txt','rt')
f2 = open('d://Others/test2.txt','wt')
# f3 = open('d://Others/test3.txt','wt')
strtcvn3 = f1.read()
str_unicode = TCVN3toUnicode(strtcvn3)
f2.write(str_unicode)
# strtcvn3v = UnicodetoTCVN3(str_unicode)
# f3.write(strtcvn3v)
f1.close()
f2.close()
# f3.close()
print 'finished'

Advertisements

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất /  Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất /  Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất /  Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất /  Thay đổi )

w

Connecting to %s

%d bloggers like this: