A12.微信爬虫.txt

UP 返回
1.微信爬虫(代码已经失效,仅供参考)
from myUaIpVisit import *
import urllib.request
import re
key="Python"
for i in range(0,2):
    key=urllib.request.quote(key)
    nowurl="https://weixin.sogou.com/weixin?query="+key+"&type=2&page="+str(i+1)+"&ie=utf8"
    thispagedata=ua_ip(nowurl)
    print(len(thispagedata))
    pat1='<div class="txt-box">.*?href="(.*?)"'
    rst1=re.compile(pat1,re.S).findall(thispagedata)
    #页面中拿到的链接是个莫名其妙的地址,无法访问
    if(len(rst1)==0):
        print("visit fail!")
        continue
    for j in range(0,len(rst1)):
        thisurl=rst1[j]
        pat2='amp;
        #正则替换
        #rst2=re.sub(pat2,"",rst1[j])
        thisurl=thisurl.replace(pat2,"")
        thisdata=ua_ip(thisurl)
        print("visit success!")
        fh=open("D:\\PythonTest\\wechat_visit\\"+str(i)+str(j)+".html","w",encoding="utf-8")
        fh.write(thispagedata)
        fh.close()

2.抓包分析
    2.1 软件
		fiddler	以代理服务器的方式存在	127.0.0.1:8888
    		6-2 说明fiddler设置(代理,https协议)






















DOWN 返回