职位名称
测试开发工程师
单位名称
中科曙光国际信息产业有限公司
任职要求
工作经验:3-5年
岗位职责
负责设计、开发和执行针对AMDGPU集合通信库(RCCL)的测试框架和工具,确保其在多GPU和多节点环境下的性能、稳定性和可靠性。与软、硬件研发团队紧密合作,推动RCCL在深度学习训练、科学计算等领域的应用 1.使用性能分析⼯具(如ROCProfiler、rocprof)对RCCL进⾏性能调优;分析瓶颈并提出改进建议,确保RCCL在⼤规模集群中的高效运行。 2.开发针对多GPU和多节点集群的分布式测试⽤例;编写和维护单元测试、集成测试和系统测试用例;确保测试覆盖率满足项目需求,并持续改进测试流程。 3.调试和定位RCCL在实际应用场景中的问题,包括但不限于性能下降、死锁、数据不一致等;提供详细的错误报告,并与开发团队协作解决问题。 4.撰写测试计划、测试报告和技术文档,确保测试过程可追溯且易于理解。5.跟踪业界最新动态,研究新的测试方法和技术,提升团队整体技术水平。
福利待遇
五险一金、补充医疗保险、定期体检、年终奖、带薪年假、员工旅游、餐补、节日福利、五险一金、补充医疗保险、定期体检、年终奖、带薪年假、员工旅游、餐补、节日福利