python学习笔记 | 最近的一些小项目

unsplash

  • 预览地址 - /photo/

  • 项目仓库 - https://github.com/chenxuefan/crawler/tree/main/unsplash

  • 功能模块 - 按照topic(类型)爬取图片(每个类型只爬一张)、前端展示页面

  • 技术栈 - requests、re、xpath、vue.js

  • 感言 - unsplash.com的图片质量都非常高,能够爬到他们的图是我的荣幸 🧼

Most recent

  • 预览地址 - /

  • 功能模块 - 获取最近更新的文章(md文件)、获取文章的标题与线上链接、写入html文件

  • 技术栈 - os、re、html

  • 感言

    写博客的时候,经常会遇到有新的知识补充然后需要修改历史文章的情况,而在文章列表页的文章排序都是按照发布时间线性排列的,因此今天修改了哪些文章也无从得知。于是做了个Most recent的模块,在博客主页,展示最新更新(昨天和今天)的文章。

dytt

  • 项目仓库 - https://github.com/chenxuefan/crawler/tree/main/dytt/up_to_date

  • 功能模块 - 爬取电影数据、保存至Excel、发送邮件

  • 技术栈 - smtplib、requests、re、xpath、openpyxl

  • 感言

    在电影天堂网站去获取最新的电影资源,已经是我很久以来的习惯了,以往都是通过访问网站去看有无新的电影更新,现在好了,程序每几分钟执行一次对网站进行抓取,一有更新就通过邮件通知到我,awesome!

GOT

  • 项目仓库 - https://github.com/chenxuefan/crawler/tree/main/Game%20of%20Thrones

  • 功能模块 - 权游人物角色信息的爬取,保存至Excel

  • 技术栈 - requests、xpath、re、pyquery、openpyxl

  • 感言

    这个网站的列表页的dom设计相当鸡贼,解析起来相当费劲,勉强可以算是某种反爬措施,爬起来就感觉这网站是他们前端人员喝醉了写出来的。功能上面,就爬了点人物的数据,也没啥了,出于兴趣,纯粹玩玩

    image-20210525151616831


636 字

Powered By Valine
v1.5.2