|
|
| |
| |
工作地址 |
|
|
|
|
(北京市海淀区中关村东路8号东升大厦AB座群楼三层SA301、302、303、304、321、322、323、324、325单元)
用小程序查
用百度查
|
| |
职位描述 用小程序查看更多 |
|
1.本科及以上学历,具备三年以上GPU 运维或容器平台运维经验; 2.精通 Kubernetes,熟悉 Docker、监控体系等相关技术; 3.具备良好排障能力,对分布式系统或云原生体系有一定理解; 4.对RDMA、CUDA、NCCL有一定了解,熟悉 NCCL-TEST、CUDA-Samples等工具的使用; 5.具备良好的沟通能力和团队协作精神,能够快速适应高强度的工作节奏; 6.有大模型训练/推理平台或相关框架经验者优先。 1.负责 AI 计算平台及 GPU 集群的日常运维、部署、监控与故障处理,提高整体 SLA; 2.支撑客户在平台上进行大模型相关业务的开发、训练和推理任务与强化学习任务,并协助定位解决相关问题; 3.参与AI计算平台的国产异构芯片、容器网络、容器存储和相关组件的方案验证和部署实施,提高AI计算平台的覆盖能力; 4.参与日常值班,提高运维效率,规范操作流程。 |
|
| |
|
|
| |
|