爬取招聘数据

爬取招聘网站数据

主要是想爬一下招聘网站的数据


目标信息

  • 职位名称:招聘的具体职位名称
  • 工作地区:职位所在的城市或地区
  • 公司名称:招聘该职位的公司名称
  • 薪资待遇:职位的薪资范围
  • 学历与工作经验要求:对求职者的学历和工作经验的要求
  • 公司领域:公司的行业领域,提供职业背景信息
  • 详情页链接:该职位详细信息的链接

工具选择

查了查资料,决定使用自动化测试工具去爬取网站信息,选择了 Playwright,因为之前用过,比较熟悉。


参考资源


爬取注意事项

自行爬取公开信息(严守规则)

  1. 遵守 Robots 协议

  2. 设定合理的爬取频率

    • 务必控制请求速度
    • 加入随机延时
    • 模拟人的正常浏览行为
    • 避免对目标网站服务器造成任何压力
  3. 仅限公开数据

    • 只爬取公开的、非个人的信息(如职位名称、公司介绍、岗位要求等)
    • 绝不触及任何需要登录才能查看的个人数据
    • 特别是联系方式

遇到的困难

招聘网站数据好像不好爬啊,这条路风险很高。而且禁用 F12 以及快捷键 Ctrl+Shift+I,通过菜单进入网站直接就崩了。防的够狠。

一言不合就网站就重启


后续计划

总不能当作没发生过吧,东西都装了,那用一下,这些网站不让爬,有的是让爬的。

问 AI!会给一堆可以爬取的网站。

找到了一个勉强可以用的,影刀,可以模拟浏览器操作,并且批量处理数据 https://www.yingdao.com/



爬取招聘数据
http://example.com/2026/02/18/爬取网站数据/
作者
xian
发布于
2026年2月18日
许可协议