1. 负责管理运维平台团队建设、管理等工作;
2. 负责大规模服务器集群智能监控系统自主研发、架构设计、代码开发,负责大规模集群自动化运维系统自主研发、分布式任务智能调度模块研发;
3. 负责集群故障管理系统研发,可大幅度提升高可用和秒级故障定位与故障容错、自愈;
4. 负责海量监控数据的分布式存储、数据分析、数据处理;
5. 负责人工智能在大规模集群监控、自动化管理方向的落地,AIops研发。
任职资格:1. 计算机相关专业,本科及以上学历,5年及以上软件研发及管理经验;
3. 熟悉系统配置、服务管理,有shell、python脚本开发经验;
4. 熟练掌握常用数据结构、算法、分布式算法;熟练掌握golang/python语言;
5. 有一定开发经验,对代码健壮性、扩展性、复用性,对代码质量有较高的追求;
6. 熟悉常用开源软件elasticsearch\open-falcon\prometheus\MQ等;
7. 要求Linux研发技术广度和深度;工作务实、思维缜密、经验丰富并且有持续创新能力;
加分项
1.熟悉服务器/网络设备硬件,了解常见的硬件诊断工具
2.在linux方面,对OS原理、体系架构、高并发、一致性、高可用方面有深入研究者;
3.有理想与追求,来做一件让自己感到自豪的工业级产品;
4.有5人以上团队管理经验。