从年初了解python,搞网易的python爬虫,后来我买了服务器准备学公众号开发,想了下自己的兴趣,就做了这个有关电影的公众号:绝对影迷。
在公众号里,可以免费在线看2万部电影、1万部电视剧、6千部解说视频!
从2017年9月初开始开发,目前依旧在不断开发和功能优化中。自己就是绝对影迷公众号的重度使用者,平时找视频、电视剧、电影看非常方便。
用到了许多爬虫等相关技术:
- sqlite本地数据持久化,一个21W+的豆瓣数据,一个5K+的视频数据。各种的sql搜索优化,第一次体会到搜索引擎一般是做不来的。谁来帮我弄全文搜索?
- selenium和api爬取视频更新,api可以在30s内抓取到视频更新(代理ip池+虚假agent head+session),selenium chrome在10分钟内抓取到更新 (bs4)
- 简单的动态网页,使用了flask,用于展示一些搜索结果(模仿豆瓣)
- 公众号编程(使用了werobot库),使用了各种接口如自动文章群发,消息自动回复、自定义菜单等等。
- 基于Ubuntu/Linux,环境配置很烧脑
- 使用supervisor守卫进程
- logger调试和点击统计
- 自己设计了一种从json to class,class to json的类方法,不仅仅是存储到json文件,还可以从数据库到类,类到数据库!后来发现sqlalchemy做得好多了。
第一版程序从2017-9-8开始开发,9-28发布。
第二版程序从国庆开始开发,到11月中旬发布。
2017-11-29 发现ip被用尽了,将0~11点的爬取速度降低为3分钟一爬,其他时间1分钟一爬,继续观测。