任职资格
1.计算机、通信、电子工程等相关专业背景,有3年以上的运维工程师相关经验;
2.有大规模GPU集群的环境配置及管理经验优先;
3.熟悉environment-modules, spack, ansible,slurm, PBS Pro, Grafana, Prometheus, Ray#常见AI超算集群运维工具者优先,熟练掌握kubernetes以及Kubesphere, Rancher, Helm,Karmada等相关工具集群运维能力者优先,有大规模kubernetes生产环境运维经验者优先;
4.熟悉NFS, JuiceFS, CephFS, Lustre等集群文件系统的特性,熟练部署高性能文件系统并能解决性能瓶颈者;
5.熟悉IB/RoCE/NVLink/PCl-e等集群常见的通信协议以及网卡配置;
6.有强烈的工作责任心,较好的沟通能力和自驱力,能够快速的响应和行动;
7.深入理解操作系统、分布式架构、虚拟化技术、网络通信等方向上的技术;
8.对在线GPU集群服务的运维和优化上有丰富的经验,有大型互联网公司系统开发、测试、运维、应用工作经验者优先。