基于深度学习的CMS识别[图像分类]

字数

632 字

阅读时间

3 分钟

更新日期

9/20/2018

这个想法早就有了，之前也有过记录 https://x.hacking8.com/?post=216 自己入门深度学习不久，只会用一些框架和现成的模型。当时的想法是CMS识别本质上是一种图像分类，这类的技术现在已经很成熟，参见各类验证码打码平台，只需要为图像打上标签，用一个成熟的模型，然后训练即可。

基于这个想法，数据集用的基于hash、关键词识别出来的网站，然后写了一个程序批量得到网页的快照用作数据集。最后用caffe框架进行处理，但是由于硬件条件限制，最终失败了。

今天看到ai.baidu.com这个，使用更是简单，只需要给图像打上标签，然后就会自动学习了。

每个分类选取了70~80张图片

训练集处理

由于快照得出的网页长度宽度不统一，所以为了以后的方便，将长宽统一至800*600

可行性

准确率低，我估计是样本太少了，分类太多了。v1版本两个分类，discuz和dedecms 准确率78%,到v2版本，五个分类，准确率50%左右，深度学习的效果还是有的。在v4版本，我将discuz``dedecms的样本提高到了200+样本，效果得到了明显的提升。从训练结果来看，基本上可以验证这个想法的可行性。