一名热爱体感技术的
业余专业开发人员

玩了一段时间爬虫

貌似上半年业余时间除了做些NUI毕设,主要就是折腾了一下爬虫。在几年前身处国企工作时,我就对http这种web协议很感兴趣,很好奇大家怎么在互联网通信的。如今玩了下爬虫,对于通信有了更多的了解。上周终于搞定了博客园发私信的功能,我对六百个曾经写过体感文章的人,推荐了自己的微信公众号。还好博客园的是比较人性化的,发私信失败,他会显示为啥会失败,然后根据提示看看能不能绕过或者减少发送速度。总之最后还是成功搞定,有一定成就感。再者,这几日公众号每天确实能增加几个人。(博客园也是快没落了,打开私信的人太少了)

也对csdn试了下,但他们反爬虫水平好高,我没搞定,不知道他们怎么识别是爬虫的,实在佩服。我都使用phantonjs搞得爬虫,虽然慢(因为反爬虫也快不起来),但是很容易使用,出现问题就把当前页面截图保存看看。这几日又发现使用chrome作为webdriver会更爽,他竟然是带界面的,这意味着我可以手工绕过第三代验证码。听说第三代验证码能破解的人都不多,能破解都可以去很好的公司啦。

验证码破解,还是玩了下,拿了公司的oa系统的验证码小试牛刀。使用了网上PIL的图像算法减少椒盐噪声,也没全用,自己改了下,毕竟还是有一点图像基础。如果不减少噪声,使用google的文字识别库tesseract会得到很多错误的结果,比如带逗号之类奇怪的符号。去除了噪声,识别准确率大幅度上升。当然还是有概率失败,不过失败我们刷新页面重新登录一下呗。大部分的网站登录都还是用的第一代验证码,或者不用验证码,对于爬虫还是喜闻乐见的,这也可以做到全自动爬取数据。

从我开始说的发私信功能可以看到,大大节约了我宣传自己公众号的时间,如果我一个一个发,白白浪费多少时间,囧~

下来一段时间就暂时不折腾爬虫了~