正则提取编码解码问题

p = re.compile(u'《(.*?)》') # 使用unicode编码

vid_drama_list = p.findall(info_util.get_id_field(vid,"name_cn").decode("utf8")) # utf8解码为unicode

vid_drama_list = [x.encode("utf8") for x in vid_drama_list] # unicode再编码为utf8,防止输出乱码。

注意:

pattern和string中,都需要使用unicode,否则编码不同,结果有误(如:《推拿》,《一切都好》等)。

相关文章

一、校验数字的表达式 1 数字:^[0-9]*$ 2 n位的数字:^d{n}$ 3 至少n位的数字:^d{n,}$ 4 m-n位的数字...
正则表达式非常有用,查找、匹配、处理字符串、替换和转换字符串,输入输出等。下面整理一些常用的正则...
0. 注: 不同语言中的正则表达式实现都会有一些不同。下文中的代码示例除特别说明的外,都是使用JS中的...
 正则表达式是从信息中搜索特定的模式的一把瑞士军刀。它们是一个巨大的工具库,其中的一些功能经常...
一、校验数字的表达式 数字:^[0-9]*$ n位的数字:^\d{n}$ 至少n位的数字:^\d{n,}$ m-n位的数...
\ 将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如,“n”匹配字符“n”。“\n...