Skip to content

安全圈大佬博客爬虫计划

字数
700 字
阅读时间
3 分钟
更新日期
4/27/2019

看到Freebuf上那篇吃鸡分析的文章,数据分析还是强啊。很早的时候我就有QQ空间爬虫生成关系图的想法了,也实践写好了程序,如果多加些大佬,说不定可以直接从QQ空间爬虫,但是我加的人比较少,而且很多是自己的朋友,再加上深层次爬虫的时候很多大佬的QQ空间是关闭的,所以就不选择这个了。

博客爬虫

从另一个角度出发,从大佬们的博客入手。简述一下我的思路。

1.收集链接

以友情链接的方式深度爬取网站,通过判断一些关键词ctf|rce|xss|sql等等来判断是否属于安全圈大佬。这个阶段用于采集足够多的数据样本,采集数据时也做好数据来源数据去向的统计,方便做关系图。

2.深层次爬虫,数据获取

这个阶段爬取每个博客的深层次链接(广度优先),假定设定阈值为500层。将相关数据保存下来,以便后面分析。

3.数据分析阶段

虽然不知道这些数据有何用处,但总之就很厉害就行了~

  1. 数据源加入W12Scan扫描器,测试常规漏洞,统计各种漏洞出现比例
  2. 统计网站cms比率,网站使用技术(wappalyzer)比率。
  3. 统计博客建站类型,github,自建,还是cnblog之类
  4. 博客地理位置统计
  5. 博客IP端口开放,服务类型统计
  6. 收藏email,qq,电话等联系方式[正则匹配],找到出现次数最高的。
  7. 最常谈论的组件名称(采用seebug组件库进行分词)
  8. 博客发帖时间(哪些时间段发帖数量最大)时间频率统计
  9. 统计大佬昵称,统计出现次数最多的大佬昵称。

4.其他

除了数据分析,还有很多可以玩的地方。

  • 博客关系力拓图,找寻博客之间的联系(朋友之间相隔几层?)
  • 关键词监控博客新的内容
  • 专门做一个大佬博客关系网站,聚合特定字段文章,定时更新任务数据。

嘴强王者

这些在技术上的实现都不困难,难的是没有时间做呀。所以记录此文,如果有其他人看到,欢迎有兴趣的一同完成~

撰写

布局切换

调整 VitePress 的布局样式,以适配不同的阅读习惯和屏幕环境。

全部展开
使侧边栏和内容区域占据整个屏幕的全部宽度。
全部展开,但侧边栏宽度可调
侧边栏宽度可调,但内容区域宽度不变,调整后的侧边栏将可以占据整个屏幕的最大宽度。
全部展开,且侧边栏和内容区域宽度均可调
侧边栏宽度可调,但内容区域宽度不变,调整后的侧边栏将可以占据整个屏幕的最大宽度。
原始宽度
原始的 VitePress 默认布局宽度

页面最大宽度

调整 VitePress 布局中页面的宽度,以适配不同的阅读习惯和屏幕环境。

调整页面最大宽度
一个可调整的滑块,用于选择和自定义页面最大宽度。

内容最大宽度

调整 VitePress 布局中内容区域的宽度,以适配不同的阅读习惯和屏幕环境。

调整内容最大宽度
一个可调整的滑块,用于选择和自定义内容最大宽度。

聚光灯

支持在正文中高亮当前鼠标悬停的行和元素,以优化阅读和专注困难的用户的阅读体验。

ON开启
开启聚光灯。
OFF关闭
关闭聚光灯。

聚光灯样式

调整聚光灯的样式。

置于底部
在当前鼠标悬停的元素下方添加一个纯色背景以突出显示当前鼠标悬停的位置。
置于侧边
在当前鼠标悬停的元素旁边添加一条固定的纯色线以突出显示当前鼠标悬停的位置。