python unicode 解码中文 解码 escape
Python 2022/8/12 20:47:34 点击:不统计
<网f站o学a习s制p作.cn>
pyton 怎么实现 unicode 解码,&#x解码
尝试学习做蜘蛛爬去内容,发现很多网站为了防止爬去,更改了编码
采用中文unicode 编码,在之前页游研究过 参考 https://www.forasp.cn/html/1742.html
我们直接上代码,直接看结果
import re
from six import unichr
def replace_unicode(str):
code_rule = re.compile(r'(&#x[a-zA-Z0-9]+;)')
code_arr = re.findall(code_rule, str)
print(code_arr)
temp_code_arr = []
for item in code_arr:
temp_code_arr.append((item,unichr(int(item.replace("&#x","").replace(";",""),16))))
for item in temp_code_arr:
str = str.replace(item[0],item[1])
return str
s = "这里是python Unicdoe 加密内容"
unicode = replace_unicode(s)
print(unicode) # 这里是python Unicdoe 加密内容
%77w%77%2E%66%6F%72%61%73%70%2E%63%6E