用 Python 登录主流网站，我们的数据爬取少不了它

6 years ago

source link: https://www.jiqizhixin.com/articles/19031002?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

项目地址：https://github.com/CriseLYJ/awesome-python-login-model

作者收集了一些网站的登陆方式和爬虫程序，有的通过 selenium 登录，有的则通过抓包直接模拟登录。作者希望该项目能帮助初学者学习各大网站的模拟登陆方式，并爬取一些需要的数据。

作者表示模拟登陆基本采用直接登录或者使用 selenium+webdriver 的方式，有的网站直接登录难度很大，比如 qq 空间和 bilibili 等，采用 selenium 登录相对轻松一些。虽然在登录的时候采用的是 selenium，但为了效率，我们也可以在登录后维护得到的 cookie。登录后，我们就能调用 requests 或者 scrapy 等工具进行数据采集，这样数据采集的速度可以得到保证。

目前已经完成的网站有：

Facebook
无需身份验证即可抓取 Twitter 前端 API
微博网页版
知乎
QQZone
CSDN
淘宝
Baidu
果壳
JingDong 模拟登录和自动申请京东试用
163mail
拉钩
Bilibili
豆瓣
Baidu2
猎聘网
微信网页版登录并获取好友列表
Github
爬取图虫相应的图片

如下所示，如果我们满足依赖项，那么就可以直接运行代码，它会在图虫网站中下载搜索到的图像。

v6NBNbE.jpg!web

如下所示为搜索「秋天」，并完成下载的图像：

f2uYzym.jpg!web

每一个网站都会有对应的登录代码，有的还有数据的爬取代码。以豆瓣为例，主要的登录函数如下所示，它会获取验证码、处理验证码、返回登录数据完成登录，并最后保留 cookies。

def login():
    captcha, captcha_id = get_captcha()
    # 增加表数据
    datas['captcha-solution'] = captcha
    datas['captcha-id'] = captcha_id
    login_page = session.post(url, data=datas, headers=headers)
    page = login_page.text
    soup = BeautifulSoup(page, "html.parser")
    result = soup.findAll('div', attrs={'class': 'title'})
    #进入豆瓣登陆后页面，打印热门内容
    for item in result:
        print(item.find('a').get_text())
    # 保存 cookies 到文件，
    # 下次可以使用 cookie 直接登录，不需要输入账号和密码
    session.cookies.save()

其中获取并解决验证码的函数如下：

def get_captcha():
    '''
    获取验证码及其ID
    '''
    r = requests.post(url, data=datas, headers=headers)
    page = r.text
    soup = BeautifulSoup(page, "html.parser")
    # 利用bs4获得验证码图片地址
    img_src = soup.find('img', {'id': 'captcha_image'}).get('src')
    urlretrieve(img_src, 'captcha.jpg')
    try:
        im = Image.open('captcha.jpg')
        im.show()
        im.close()
    except:
        print('到本地目录打开captcha.jpg获取验证码')
    finally:
        captcha = input('please input the captcha:')
        remove('captcha.jpg')
    captcha_id = soup.find(
        'input', {'type': 'hidden', 'name': 'captcha-id'}).get('value')
    return captcha, captcha_id

当然这些都是简单的演示，在 GitHub 项目中可以找到更多的示例。此外，作者表明由于网站策略或者样式改变而导致代码失效，我们也可以提 Issue 或 Pull Requests。最后，该项目未来还会一直维护，很多东西哦也会慢慢改进，项目作者表明：

项目写了一段时间后，发现代码风格、程序易用性、可扩展性、代码的可读性，都存在一定的问题，所以接下来最重要的是重构代码，让大家可以更容易的做出一些自己的小功能；
如果读者觉得某个网站的登录很有代表性，可以在项目 issue 中提出；
网站的登录机制有可能经常的变动，所以当现在的模拟的登录的规则不能使用的时候，请项目在 issue 中提出。

Recommend

36氪 36kr.com 6 years ago
Cache

对话清华NLP实验室刘知远：NLP搞事情少不了知识库与图神经网络

编者按：本文来自机器之心，作者思源、刘晓坤，36氪经授权发布。在过去的 2018 年中，自然语言处理出现了很多令人激动的新想法与新工具。从概念观点到实...

weibointl.api.weibo.cn 6 years ago
Cache

@-XYZ-小叶子瓶颈中：画一个效果还过得去的白丝教程，因为自己以后可能少不了画这些，...

@-XYZ-小叶子瓶颈中：画一个效果还过得去的白丝教程，因为自己以后可能少不了画这些，就稍微研究了一下流程（可以用同样的方法画黑丝和灰丝，以及各种丝如图1，最后效果可能会过于写实，此绘制流程可能以后会有改进或者直接丢弃不再使用）...

dig.chouti.com 6 years ago
Cache

要想夹得好，平时锻炼少不了

www.tuicool.com 5 years ago
Cache

通往强人工智能，少不了模拟大脑

图片来源@视觉中国文｜脑极体人工智能这个词，从诞生到一路坎坷地迎来辉煌，就注定与“模拟”紧密相连。 1956年，...

www.leiphone.com 5 years ago
Cache

人工智能的下半场，一定少不了自监督学习

雷锋网AI科技评论按：深度学习在计算机视觉、自然语言处理、语音识别等领域的广泛应用催生了人工智能的第四次爆发。然而，当前主流的监督式学习任务往往过度依赖于人工标注，即所谓「有多少人工就有多少智能」。因此，通过...

www.niaogebiji.com 4 years ago
Cache

“菜篮子”大战少不了京东

2020年由于受到疫情的影响，社区团购的优势逐渐凸显出来，成为了新一轮的风口，也让许多互联网巨头趋之若鹜，先后在社区团购领域进行布局。前不久，京东也宣布入局社区团购。 ...

zhuanlan.zhihu.com 4 years ago
Cache

要学好 C 语言 / C++ ，Makefile 可少不了

要学好 C 语言 / C++ ，Makefile 可少不了晓晓一枚爱做梦的程序媛一、Makefi...

blog.csdn.net 3 years ago
Cache

Python要想学得好，【容器/可迭代对象/迭代器/生成器】少不了，稳扎稳打学Python！

Python要想学得好，【容器/可迭代对象/迭代器/生成器】少不了，稳扎稳打学Python！ ...

blog.csdn.net 3 years ago
Cache

一个简单的Python暴力破解网站登录密码脚本

测试靶机为DVWA，适合DVWA暴力破解模块的Low和Medium等级关键代码解释 url指定url地址 url = "http://192.168.171.2/dvwa/vulnerabilities/brute/" header设置请求头

blog.csdn.net 3 years ago
Cache

Python暴力破解网站登录密码（带token验证）

上一篇暴力破解文章：一个简单的Python暴力破解网站登录密码脚本测试靶机为Pikachu漏洞练习平台暴力破解模块下的 “token防爆破?” 春节期间歇了一阵子，吃睡玩...

Recommend

About Joyk