|
|
| |
| |
工作地址 |
|
|
|
|
(深圳市南山区西丽街道西丽社区留仙大道7013航天创新大厦31层
)
用小程序查
用百度查
|
| |
职位描述 用小程序查看更多 |
|
职位描述 1、负责大规模分布式训练和推理基础架构的设计、开发和优化,支持千卡级别的大规模模型训练; 2、优化长序列处理和超大模型的训练效率,解决训练中的性能瓶颈问题; 3、开发和优化高效的网络通信策略、自定义算子,并实现多样化的模型并行技术; 4、设计和实现高效的模型量化、推理加速和部署方案; 5、构建和维护海量多模态数据的分布式、流式处理管道; 6、设计和实现大模型加密保护机制,确保模型知识产权安全; 7、开发稳定可靠的训练断点恢复系统,提高大规模训练的容错能力; 8、跟踪最新的模型训练和推理技术发展,并将其应用于实际生产环境。
职位要求 1、具有计算机科学、分布式系统、高性能计算等相关专业背景或相关行业丰富工作经验; 2、熟练掌握主流深度学习框架,如PyTorch、TensorFlow,具备优秀的系统级编程能力; 3、有百卡以上规模LLM、Diffusion、Flow或MoE等大模型架构的训练经验; 4、精通至少一种分布式训练框架,如Megatron-LM、DeepSpeed、FSDP等; 5、熟悉3D并行、序列并行、专家并行等多种并行策略的原理和实现;
|
|
| |
|
|
| |
|