任职要求
1.数学/信号/计算机/物理等专业硕士及以上学历,3年以上工作经验,博士学历优先;
2.模型训练经验:独立完成至少10B参数规模的大模型全流程训练;
3.分布式训练实践经验:精通 DeepSpeed 或 Megatron-LM的底层原理与调优,熟练使用数据和模型并行混合训练策略设计;
4.数据工程与质量控制:设计过PB级文本数据流水线,包括基于LLM的自动化数据清洗(如过滤低质量/重复内容)、分词器定制(SentencePiece/BPE)、分词效率优化、数据分布偏差检测与修复(如长尾分布校准);
5.具备大模型和多机多卡训练故障诊断能力;
6.熟练使用国产智能算力,如昇腾、寒武纪等;
7.优先条件:①复现过FlashAttention-2、MoE架构或长上下文优化(如4K128K),并优化通信开销/显存占用;②有推理端到端优化经验(如KVCache压缩,INT8量化)或云平台调度经验;③具备医疗/金融/法律等垂直领域大模型训练经验,能处理行业特有数据噪声与合规需求。