python，selenium爬取微博热搜存入Mysql

最终的效果

废话不多少，直接上图
在这里插入图片描述
这里可以清楚的看到，数据库里包含了日期，内容，和网站link
下面我们来分析怎么实现

import requests
from selenium.webdriver import Chrome, ChromeOptions
import time
from sqlalchemy import create_engine
import pandas as pd

这是微博热搜的link：点我可以到目标网页
在这里插入图片描述
首先我们使用selenium对目标网页进行请求
然后我们使用xpath对网页元素进行定位，遍历获得所有数据
然后使用pandas生成一个Dataframe对像，直接存入数据库

一：得到数据

在这里插入图片描述
我们看到，使用xpath可以得到51条数据，这就是各热搜，从中我们可以拿到链接和标题内容

	all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a')  #得到所有数据
	context = [i.text for i in c]  # 得到标题内容
    links = [i.get_attribute('href') for i in c]  # 得到link

然后我们再使用zip函数，将date，context，links合并
zip函数是将几个列表合成一个列表，并且按index对分列表的数据合并成一个元组，这个可以生产pandas对象。

dc = zip(dates, context, links)
    pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])

其中date可以使用time模块获得

二：链接数据库

这个很容易

enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")
pdf.to_sql(name='infromation', con=enging, if_exists="append")

from selenium.webdriver import Chrome, ChromeOptions
import time
from sqlalchemy import create_engine
import pandas as pd


def get_data():
    url = r"https://s.weibo.com/top/summary"  # 微博的地址
    option = ChromeOptions()
    option.add_argument('--headless')
    option.add_argument("--no-sandbox")
    browser = Chrome(options=option)
    browser.get(url)
    all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a')
    context = [i.text for i in all]
    links = [i.get_attribute('href') for i in all]
    date = time.strftime("%Y-%m-%d-%H_%M_%S", time.localtime())
    dates = []
    for i in range(len(context)):
        dates.append(date)
    # print(len(dates),len(context),dates,context)
    dc = zip(dates, context, links)
    pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])
    # pdf.to_sql(name=in, con=enging, if_exists="append")
    return pdf


def w_mysql(pdf):
    try:
        enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")
        pdf.to_sql(name='infromation', con=enging, if_exists="append")
    except:
        print('出错了')


if __name__ == '__main__':
    xx = get_data()
    w_mysql(xx)

希望能够帮到大家一点，大家一起共同进步，共同成长！
祝大家新年快乐！！！

最终的效果

一：得到数据

二：链接数据库

Recommend

充电水滴融合特效 html+css

Telstra and AWS 'join forces on edge computing and take businesses to the cloud'

Unity, compromise, and politics

AMTA reminds Aussies about privacy on 28 January, International Data Privacy Day...

Global organisations ‘struggle’ to maintain consistent application security, cla...

苹果的AirTag还没有发布但第三方配件厂等不及了

Norton brings Norton 360 for Gamers to gamers globally

联盟分析-政策法规 | 首例“比特币”仲裁案被撤销后的思考

Vale Graeme Philipson, a great Australian IT journalist and analyst

Sitecore aims for growth with US$1.2 billion investment plan

About Joyk