1、负责大数据计算平台海量网页的去重、敏感信息过滤、内容提取等业务;
2、负责NLP算法落地,搭建应用平台;
3、负责构建大规模、高质量的自然语言处理数据集。
1、相关专业硕士及以上学历
2、精通Mapreduce、Spark等大数据处理方法;熟练掌握pytorch、tensorflow等深度学习框架;
3、熟练掌握文本相似度、文本聚类、同义词挖掘等NLP算法;
4、具有良好的团队协作精神和沟通能力;
5、有大型预训练模型应用搭建经验者优先;
6、良好的英语阅读能力。