职位详情

当前位置: 首页 > 急招职位

网页搜索-爬虫抓取策略究员

发布日期:2017-12-11

工 作 地 点:北京

招聘人数:1人

职位描述:
【项目介绍】
网页搜索项目,承载着PC及WAP的网页搜索,直接服务数亿中国网民。 在这里有深厚的技术积淀,有浓郁的技术氛围,可以学到很多核心的技术。 在这里,我们还可以一起探索社交搜索和知识图谱,让搜索变得更有趣与更智慧。 同时,我们也拥有很多创新的机会,为用户提供更好更有趣的搜索体验。 
【项目亮点】公司级战略重点项目、海量数据支撑、服务数亿用户。 
【特别提示】搜狗欢迎专情的你,所以提醒你只能选择两个项目,请慎重投递。
岗位职责:
1.网络爬虫策略优化算法研究;
2. 海量数据特征提取与挖掘;
任职条件:
职位要求:
1.对互联网和搜索引擎技术有浓厚兴趣,计算机基础知识扎实,包括不限定于操作系统、计算机网络、数据结构和算法
2.熟练使用 C/C++、Java 等至少一门语言,熟悉Redis、MQ、ZK 等分布式系统的设计和应用;
3.有数据挖掘、机器学习相关应用经验,理解常见并发模型和场景、对 IO、多线程、集合基础框架等有扎实理解;
4.精通网页抓取原理及技术,精通正则表达式,精通SQL,可以从结构化的和非结构化的数据中获取信息;
5.熟悉shell编程、python/perl语言、hadoop计算框架,有Storm/Spark streaming/Flink 等分布式流计算经验者优先;
6.有Scrapy / Pyspider / Nutch / Heritrix 框架的使用经验或自己手写过类似框架者优先。