河北兴冀人才资源开发有限公司代唐山新度科技发展有限公司招聘工作人员5人
职位表信息检索库
智算&&算力运维工程师JD
1
招考人数
基本信息
招录人数
1
职业代码
报考单位
河北兴冀人才资源开发有限公司
部门代码
职位信息
职位编码
2
岗位名称
智算&&算力运维工程师JD
招聘人数
1
岗位职责
1.负责大规模高性能GPU集群的计算、网络和存储系统的稳定运行,能监控、识别并解决各类集群线上问题; 负责多节点GPU集群性能测试与评估,熟练掌握HPL/HPCG/I-test等集群性能评测工具进行性能评估并定位问题; 2.负责监控系统的建设和运维,及时发现系统问题(尤其是GPU故障)并进行解决; 3.建设在IDC搭建大规模集群,提供运维能力和体系,支持云平台团队开发并对平台客户提供相关技术支持; 4.负责构建和维护一套全面、细致、可靠的测试机制和系统,覆盖计算硬件、网络、存储等端到端各环节的组件;
报考条件
任职资格
1.计算机、通信、电子工程等相关专业背景,有3年以上的运维工程师相关经验; 2.有大规模GPU集群的环境配置及管理经验优先; 3.熟悉environment-modules, spack, ansible,slurm, PBS Pro, Grafana, Prometheus, Ray#常见AI超算集群运维工具者优先,熟练掌握kubernetes以及Kubesphere, Rancher, Helm,Karmada等相关工具集群运维能力者优先,有大规模kubernetes生产环境运维经验者优先; 4.熟悉NFS, JuiceFS, CephFS, Lustre等集群文件系统的特性,熟练部署高性能文件系统并能解决性能瓶颈者; 5.熟悉IB/RoCE/NVLink/PCl-e等集群常见的通信协议以及网卡配置; 6.有强烈的工作责任心,较好的沟通能力和自驱力,能够快速的响应和行动; 7.深入理解操作系统、分布式架构、虚拟化技术、网络通信等方向上的技术; 8.对在线GPU集群服务的运维和优化上有丰富的经验,有大型互联网公司系统开发、测试、运维、应用工作经验者优先。