有没有标准的,最好是
Pythonic的方式转换& #xxxx;一个合适的unicode字符串的符号?
例如,
מפגשי
应转换为:
מפגשי
它可以很容易地完成 – 使用字符串操作,但我想知道是否有一个标准的库.
解决方法
使用
HTMLParser.HTMLParser()
:
>>> from HTMLParser import HTMLParser >>> h = HTMLParser() >>> s = "מפגשי" >>> print h.unescape(s) מפגשי
这也是standard library的一部分.
但是,如果您使用的是Python 3,则必须从html.parser导入:
>>> from html.parser import HTMLParser >>> h = HTMLParser() >>> s = 'מפגשי' >>> print(h.unescape(s)) מפגשי