职责描述: 1、负责多平台信息爬取和页面内容的提取分析,负责破解各类反爬机制; 2、负责APP的数据抓取和爬取链路优化(包括APP反编译、逆向分析、脱壳、加密参数破解、抓取攻防等),提升抓取能力; 3、负责HTTP、AJAX等各类网络请求分析,探索和研究高效的数据抓取解决方案; 4、研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、页面跳转等难点,提升网页抓取的效率和质量; 5、不断完善和重构现有爬虫系统,通过对抓取、解析、调度、存储等模块的拆分与优化,构建和完善统一的抓取服务平台。 任职要求: 1、全日制本科及以上学历,计算机相关专业,3年及以上爬虫经验; 2、精通至少一门开发语言,如Python; 3、有过大型平台爬取经验,例如淘宝、大众点评、美团、携程等; 4、精通爬虫和反爬技术,精通HttpClient/jsoup/XPath/CSS/正则表达式/验证码加密处理/代理池等网页信息抽取技术,精通HTTP底层协议; 5、精通动态网页抓取、浏览器模拟抓取、APP抓取等技术; 6、熟悉网页抓取原理及技术,熟悉基于Cookie的网站登录原理; 7、熟悉行为验证码识别、模拟登陆、数据清洗、去重、入库等技术,具有海量数据处理和分布式计算开发经验者优先; 8、熟悉信息抓取和整合技术,熟悉从结构化和非结构化数据中获取信息,掌握正则表达式。
Copyright C 2022 hwzpw.com All Rights Reserved 版权所有 陕西星枫科技有限公司 陕ICP备18012436号 陕公网安备61011202000767
地址:陕西省西安市未央区未央路80号 EMAIL:1061941020@qq.com
人力资源证: 陕人服证字[2022]第0106003123号
Powered by PHPYun.