爬取招聘数据

爬取招聘网站数据

主要是想爬一下招聘网站的数据

查了查资料，决定使用自动化测试工具去爬取网站信息，选择了 Playwright，因为之前用过，比较熟悉。

遵守 Robots 协议
- 在爬取前，请先查看网站的 robots.txt 文件（例如 https://www.zhipin.com/robots.txt）
- 了解网站允许和禁止爬取的范围，切勿越界
设定合理的爬取频率
- 务必控制请求速度
- 加入随机延时
- 模拟人的正常浏览行为
- 避免对目标网站服务器造成任何压力
仅限公开数据
- 只爬取公开的、非个人的信息（如职位名称、公司介绍、岗位要求等）
- 绝不触及任何需要登录才能查看的个人数据
- 特别是联系方式

招聘网站数据好像不好爬啊，这条路风险很高。而且禁用 F12 以及快捷键 Ctrl+Shift+I，通过菜单进入网站直接就崩了。防的够狠。

一言不合就网站就重启

总不能当作没发生过吧，东西都装了，那用一下，这些网站不让爬，有的是让爬的。

问 AI！会给一堆可以爬取的网站。

找到了一个勉强可以用的，影刀，可以模拟浏览器操作，并且批量处理数据 https://www.yingdao.com/

#工具

爬取招聘数据

http://example.com/2026/02/18/爬取网站数据/

作者

xian

发布于

2026年2月18日

许可协议