27

知乎热门网络安全文章分析

 3 years ago
source link: https://zhuanlan.zhihu.com/p/279263246
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

最近在学习数据分析,苦于无处实战,思来想去,把自己近3年的500多篇知乎文章数据集拿来分析,知乎开放的数据集长这个样子:

# 文章标题 | 发布时间 | 阅读数 | 赞数 | 评论数 | 收藏数 | 完整阅读率 | 链接

  • # 1、分析阅读数top10的文章标题
  • # 2、分析赞数top10的文章标题
  • # 3、分析收藏数top10的文章标题
  • # 4、分析完整阅读率top10的文章标题
  • # 5、分析评论数top10的文章标题

以前知乎开放的数据集比较多,但是现在只开放最近3个月的数据集,还好我准备的比较早,下载了2017年至今的所有数据集,所以才有了这篇文章。通过数据分析,可以得到一些有效信息,比如指导博主创作方向,做智能推荐创作,猜测读者的心思,后期我会引入人工智能,做一个在线网站,只需要大家上传自己的数据,就可以共享学习成果~

  • 写什么类型的文章,可以获得更多的阅读呢~
  • 写什么类型的文章,可以获得更多的点赞呢~
  • 写什么类型的文章,可以获得更多的收藏呢~
Fjy2IbU.jpg!mobile

-----阅读数top3-----(热门阅读: Web安全类、暴力破解类、黑客游戏类

  • 1 什么是owasp top10? 31526
  • 2 什么是暴力破解漏洞? 30563
  • 3 hacknet游戏攻略通关完整版 29621

-----点赞数top3-----(热门点赞: CTF类、Web安全类、网络抓包类

  • 1 CTF小白到大白的蜕变 402
  • 2 WEB安全攻防入门 377
  • 3 手机抓包改包神器Fiddler简介 335

-----收藏数top3-----(热门收藏: Web安全类、经验分享类、CTF类

  • 1 WEB安全攻防入门 2574
  • 2 国内头号黑客cos的经验分享 1927
  • 3 CTF小白到大白的蜕变 1683

-----评论数top3-----(热门评论: CTF类、网络抓包类、Web安全类

  • 1 CTF小白到大白的蜕变 93
  • 2 手机抓包改包神器Fiddler简介 79
  • 3 什么是CSRF漏洞? 58

-----阅读完整率top3-----(沉浸式学习: 算法类

  • 1 调整数组顺序使奇数位于偶数前面 0.64
  • 2 礼物的最大价值 0.61
  • 3 数字序列中某一位的数字 0.59

-----阅读数top10-----

  • 1 什么是owasp top10? 31526
  • 2 什么是暴力破解漏洞 ? 30563
  • 3 hacknet游戏攻略通关完整版 29621
  • 4 什么是XSS攻击? 26925
  • 5 CTF小白到大白的蜕变 25254
  • 6 使用Hashcat获取弱密码 21280
  • 7 WEB安全攻防入门 20302
  • 8 手机抓包改包神器Fiddler简介 19908
  • 9 什么是逻辑漏洞? 19563
  • 10 什么是CSRF漏洞? 18704

-----点赞数top10-----

  • 1 CTF小白到大白的蜕变 402
  • 2 WEB安全攻防入门 377
  • 3 手机抓包改包神器Fiddler简介 335
  • 4 国内头号黑客cos的经验分享 282
  • 5 手把手带你搭建漏洞靶场 256
  • 6 什么是本地DNS攻击? 218
  • 7 什么是暴力破解漏洞? 187
  • 8 使用Hashcat获取弱密码 184
  • 9 白帽飞客从入门到放肆 183
  • 10 什么是CSRF漏洞? 175

-----收藏数top10-----

  • 1 WEB安全攻防入门 2574
  • 2 国内头号黑客cos的经验分享 1927
  • 3 CTF小白到大白的蜕变 1683
  • 4 手机抓包改包神器Fiddler简介 1547
  • 5 手把手带你搭建漏洞靶场 1237
  • 6 网络安全入门需要仪式吗? 870
  • 7 内网安全「攻防」学习指南 755
  • 8 使用Hashcat获取弱密码 728
  • 9 内网信息收集 671
  • 10 ZIP加密文件破解:john简介 608

-----评论数top10-----

  • 1 CTF小白到大白的蜕变 93
  • 2 手机抓包改包神器Fiddler简介 79
  • 3 什么是CSRF漏洞 ? 58
  • 4 微博信息泄漏暗网探案 46
  • 5 在知乎学习网络安全 40
  • 6 使用Hashcat获取弱密码 40
  • 7 ailx10的hacknet攻略003 39
  • 8 如何在电脑上运行知乎? 38
  • 9 metasploit渗透测试入门 34
  • 10 再看ICMP隧道 29

-----阅读完整率top10-----

  • 1 调整数组顺序使奇数位于偶数前面 0.64
  • 2 礼物的最大价值 0.61
  • 3 数字序列中某一位的数字 0.59
  • 4 打印1到最大的n位数 0.59
  • 5 1~n整数中1出现的次数 0.58
  • 6 第一个只出现一次的字符 0.56
  • 7 网络安全中的暴力美学001 0.54
  • 8 大数乘法 0.54
  • 9 矩阵中的路径 0.54
  • 10 股票的最大利润 0.54
import pandas as pd
import os

def get_files(path=""):
    _files = os.listdir(path)
    files=[]
    for _file in _files:
        if not os.path.isdir(_file):
            files.append(_file)
    return files


# 文章标题 发布时间 阅读数 赞数 评论数 收藏数 完整阅读率 链接

# 1、分析阅读数top10的文章标题
# 2、分析赞数top10的文章标题
# 3、分析收藏数top10的文章标题
# 4、分析完整阅读率top10的文章标题
# 5、分析评论数top10的文章标题
#
# 注意:不同表格中的文章标题可能相同,以链接作为key,进行merge


def solve_row(title,link,row,top10):
    if title+"_"+link in top10:
        if row > top10[title+"_"+link]:
            top10[title+"_"+link] = row
    else:
        top10[title + "_" + link] = row

def output_top10(dict_top10,msc=""):
    print(msc)
    top10 = sorted(dict_top10.items(),key=lambda x:x[1],reverse=True)
    guard = 0
    for top in top10:
        guard += 1
        if guard <= 10:
            print(guard,top[0].split("_")[0],top[1])
        else:
            break

def read_xls(path,files):
    read_top10 = {}
    great_top10 = {}
    favory_top10 = {}
    rato_top10 = {}
    comment_top10 = {}
    for file in files:
        df = pd.read_excel(path+"/"+file)
        # columns = df.columns.values.tolist()
        for index, row in df.iterrows():
            read = int(row["阅读数"])
            great = int(row["赞数"])
            favory = int(row["收藏数"])
            rato = float(row["完整阅读率"].strip("%"))/100.0
            comment = int(row["评论数"])
            link = row["链接"]
            title = row["文章标题"]
            solve_row(title,link,read,read_top10)
            solve_row(title, link, great, great_top10)
            solve_row(title, link, favory, favory_top10)
            solve_row(title, link, rato, rato_top10)
            solve_row(title, link, comment, comment_top10)
    # 输出 top10
    output_top10(read_top10,"-----阅读数top10-----")
    output_top10(great_top10,"-----点赞数top10-----")
    output_top10(favory_top10,"-----收藏数top10-----")
    output_top10(comment_top10,"-----评论数top10-----")
    output_top10(rato_top10,"-----阅读完整率top10-----")


if __name__ == "__main__":
    path = "C:/Users/ailx12/PycharmProjects/zhihu/paper/file"
    files = get_files(path)
    read_xls(path,files)

本篇完,谢谢大家~


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK