A12.微信爬虫.txt
UP 返回
1.微信爬虫(代码已经失效,仅供参考)
from myUaIpVisit import *
import urllib.request
import re
key="Python"
for i in range(0,2):
key=urllib.request.quote(key)
nowurl="https://weixin.sogou.com/weixin?query="+key+"&type=2&page="+str(i+1)+"&ie=utf8"
thispagedata=ua_ip(nowurl)
print(len(thispagedata))
pat1='<div class="txt-box">.*?href="(.*?)"'
rst1=re.compile(pat1,re.S).findall(thispagedata)
#页面中拿到的链接是个莫名其妙的地址,无法访问
if(len(rst1)==0):
print("visit fail!")
continue
for j in range(0,len(rst1)):
thisurl=rst1[j]
pat2='amp;
#正则替换
#rst2=re.sub(pat2,"",rst1[j])
thisurl=thisurl.replace(pat2,"")
thisdata=ua_ip(thisurl)
print("visit success!")
fh=open("D:\\PythonTest\\wechat_visit\\"+str(i)+str(j)+".html","w",encoding="utf-8")
fh.write(thispagedata)
fh.close()
2.抓包分析
2.1 软件
fiddler 以代理服务器的方式存在 127.0.0.1:8888
6-2 说明fiddler设置(代理,https协议)
DOWN 返回