爬取招聘数据
爬取招聘网站数据
主要是想爬一下招聘网站的数据
目标信息
- 职位名称:招聘的具体职位名称
- 工作地区:职位所在的城市或地区
- 公司名称:招聘该职位的公司名称
- 薪资待遇:职位的薪资范围
- 学历与工作经验要求:对求职者的学历和工作经验的要求
- 公司领域:公司的行业领域,提供职业背景信息
- 详情页链接:该职位详细信息的链接
工具选择
查了查资料,决定使用自动化测试工具去爬取网站信息,选择了 Playwright,因为之前用过,比较熟悉。
参考资源
爬取注意事项
自行爬取公开信息(严守规则)
遵守 Robots 协议
- 在爬取前,请先查看网站的 robots.txt 文件(例如 https://www.zhipin.com/robots.txt)
- 了解网站允许和禁止爬取的范围,切勿越界
设定合理的爬取频率
- 务必控制请求速度
- 加入随机延时
- 模拟人的正常浏览行为
- 避免对目标网站服务器造成任何压力
仅限公开数据
- 只爬取公开的、非个人的信息(如职位名称、公司介绍、岗位要求等)
- 绝不触及任何需要登录才能查看的个人数据
- 特别是联系方式
遇到的困难
招聘网站数据好像不好爬啊,这条路风险很高。而且禁用 F12 以及快捷键 Ctrl+Shift+I,通过菜单进入网站直接就崩了。防的够狠。
一言不合就网站就重启
后续计划
总不能当作没发生过吧,东西都装了,那用一下,这些网站不让爬,有的是让爬的。
问 AI!会给一堆可以爬取的网站。
找到了一个勉强可以用的,影刀,可以模拟浏览器操作,并且批量处理数据 https://www.yingdao.com/
爬取招聘数据
http://example.com/2026/02/18/爬取网站数据/