一名热爱体感技术的
业余专业开发人员

一个看电影的公众号:绝对影迷

从年初了解python,搞网易的python爬虫,后来我买了服务器准备学公众号开发,想了下自己的兴趣,就做了这个有关电影的公众号:绝对影迷。

用到了许多爬虫等相关技术:

  1. sqlite本地数据持久化,一个21W+的豆瓣数据,一个5K+的视频数据。各种的sql搜索优化,第一次体会到搜索引擎一般是做不来的。谁来帮我弄全文搜索?
  2. selenium和api爬取视频更新,api可以在30s内抓取到视频更新(代理ip池+虚假agent head+session),selenium chrome在10分钟内抓取到更新 (bs4)
  3. 简单的动态网页,使用了flask,用于展示一些搜索结果(模仿豆瓣)
  4. 公众号编程(使用了werobot库),使用了各种接口如自动文章群发,消息自动回复、自定义菜单等等。
  5. 基于Ubuntu/Linux,环境配置很烧脑
  6. 使用supervisor守卫进程
  7. logger调试和点击统计
  8. 自己设计了一种从json to class,class to json的类方法,不仅仅是存储到json文件,还可以从数据库到类,类到数据库!后来发现sqlalchemy做得好多了。

第一版程序从2017-9-8开始开发,9-28发布。

第二版程序从国庆开始开发,到11月中旬发布。

2017-11-29 发现ip被用干了,将0~11点的爬取速度降低为3分钟一爬,其他时间1分钟一爬,继续观测。

github反馈

公众号运营