python学习笔记 | 最近的一些小项目
unsplash
-
预览地址 - /photo/
-
项目仓库 - https://github.com/chenxuefan/crawler/tree/main/unsplash
-
功能模块 - 按照topic(类型)爬取图片(每个类型只爬一张)、前端展示页面
-
技术栈 - requests、re、xpath、vue.js
-
感言 - unsplash.com的图片质量都非常高,能够爬到他们的图是我的荣幸 🧼
Most recent
-
预览地址 - /
-
功能模块 - 获取最近更新的文章(md文件)、获取文章的标题与线上链接、写入html文件
-
技术栈 - os、re、html
-
感言
写博客的时候,经常会遇到有新的知识补充然后需要修改历史文章的情况,而在文章列表页的文章排序都是按照发布时间线性排列的,因此今天修改了哪些文章也无从得知。于是做了个Most recent的模块,在博客主页,展示最新更新(昨天和今天)的文章。
dytt
-
项目仓库 - https://github.com/chenxuefan/crawler/tree/main/dytt/up_to_date
-
功能模块 - 爬取电影数据、保存至Excel、发送邮件
-
技术栈 - smtplib、requests、re、xpath、openpyxl
-
感言
在电影天堂网站去获取最新的电影资源,已经是我很久以来的习惯了,以往都是通过访问网站去看有无新的电影更新,现在好了,程序每几分钟执行一次对网站进行抓取,一有更新就通过邮件通知到我,awesome!
GOT
-
项目仓库 - https://github.com/chenxuefan/crawler/tree/main/Game%20of%20Thrones
-
功能模块 - 权游人物角色信息的爬取,保存至Excel
-
技术栈 - requests、xpath、re、pyquery、openpyxl
-
感言
这个网站的列表页的dom设计相当鸡贼,解析起来相当费劲,勉强可以算是某种反爬措施,爬起来就感觉这网站是他们前端人员喝醉了写出来的。功能上面,就爬了点人物的数据,也没啥了,出于兴趣,纯粹玩玩