基于深度学习的CMS识别 (一)图片分类识别
字数
494 字
阅读时间
2 分钟
更新日期
1/16/2018
楼楼作为一个初学深度的新手,只能简单说下关于CMS识别中自己的思路,如有错误,欢迎指出。
传统的CMS识别访问一个url获取指定特征,当指纹库越大,识别速度越慢。
那么,将深度学习用于CMS识别会如何呢?
博主认为,CMS识别可用深度学习中的文本识别模式或者图片识别模式完成。
本章就先对图片识别做个简单测试,步骤也是基本相当。因为现在的大部分深度学习框架的简便,我们只需要作出大量样本,打上相应的标签,用一个适应的模型,放到各种框架中学习就可以了。关于DNN,CNN等一些底层的原理,不用过多了解。这里博主选择caffe来进行深度学习。
**## 1.**样本制作
图片学习中需要大量样本,这些样本网上似乎也没有可用的可以直接下载的。所以博主首先开发了基于传统的识别模式的CMS识别平台 https://whatcms.hacking8.com/ 来收集大量样本。
然后需要写一个脚本对每个网站首页截屏,由于工程的复杂性,博主只对Discuz的网站进行了操作。
Ps:先用discuz测试可行性
**## 2.**合适模型
模型选择很随意,因为自己写不出模型,就用最有名的呗~ GoogLeNet
**## 3.**从入门到放弃
前面的一切都是美好的想象,因为样本中每个图片大约10M左右,加载样本的时候电脑直接卡死了,就不谈学习了。。。
提供一个思路,抛砖引玉。