python正则表达式中要匹配汉字怎么弄

想写可正则表达式抓取url
目标地址如下

原文链接:<a href="http://www.darkreading.com">

请问这样的怎么写?? 主要是汉字不会处理
目前想用 m1=re.findall正则,t1 这种方法写 求指点

>>> import re
>>> pattern = re.compiler^u539fu6587u94feu63a5uff1a<a href="http://.*">$
>>> match = pattern.match原文链接:<a href="http://www.darkreading.com">
>>> match.group1
http://www.darkreading.com

小提示,py2的话,可以用字符串前缀 u
如: ur原文链接:<a href=".*?">

我写 js 的,正则的话,可以匹配 u… 这种汉字码,有个范围,u4e00-u9fa5 是简体好像。。。

要考虑你抓下的网页是用什么编码实现的

希望这是你想要的答案:

import re
s=原文链接:<a href="http://www.darkreading.com">
ptn = re.compile原文链接[^<]*?<a[^>]*?href="[^"]*
printptn.findalls

发表评论

电子邮件地址不会被公开。 必填项已用*标注