网站制作学习网Python→正文:python unicode 解码中文 解码&#x escape
字体:

python unicode 解码中文 解码&#x escape

Python 2022/8/12 20:47:34  点击:不统计

<网f站o学a习s制p作.cn>

pyton 怎么实现 unicode 解码,&#x解码

尝试学习做蜘蛛爬去内容,发现很多网站为了防止爬去,更改了编码

采用中文unicode 编码,在之前页游研究过 参考 https://www.forasp.cn/html/1742.html

 

我们直接上代码,直接看结果 

import re
from six import unichr


def replace_unicode(str):
code_rule = re.compile(r'(&#x[a-zA-Z0-9]+;)')
code_arr = re.findall(code_rule, str)
print(code_arr)
temp_code_arr = []
for item in code_arr:
temp_code_arr.append((item,unichr(int(item.replace("&#x","").replace(";",""),16))))
for item in temp_code_arr:
str = str.replace(item[0],item[1])
return str

s = "&#x8FD9;&#x91CC;&#x662F;python Unicdoe &#x52A0;&#x5BC6;&#x5185;&#x5BB9;"
unicode = replace_unicode(s)
print(unicode) # 这里是python Unicdoe 加密内容

%77w%77%2E%66%6F%72%61%73%70%2E%63%6E

·上一篇:python print 字体色背景颜色 >>    ·下一篇:No module named ‘cryptography‘ >>
推荐文章
最新文章