|
|
| |
| |
分布式调度资深软件工程师 点击:24次
工作编号:1944179
|
15000-25000/月 |
|
深圳天顿数据科技有限公司 查看企业资料及职位
|
2026-3-20 |
| 深圳市-福田区 无经验 | 大学本科 | 招2人 | 全职 |
| 提供工作餐,员工体检,有偿假期,节日福利,生日福利 |
| |
职位描述 用小程序查看更多 |
|
职责 1. 负责跨地 域大规模分布式AI平台的设计和开发,统筹优化跨地区的数据中心算力资源; 2. 多类型计算任务和异构资源的抽象和API设计,优化和适配分布式资源管理和调度系统包括kubernetes,slurm等; 3. 分析和解决分布式系统的可用性,性能,规模,容错以及安全挑战。 任职要求 1. 本科及以上学历,计算机或电子信息相关专业; 2. 无工作经验要求,当然有丰富的Golang开发经验者优先(熟悉存储,缓存,通信等常用中间件,能进行深度的性能优化); 3. 熟悉网络编程,TCP/IP协议以及HTTP协议,熟悉常用的数据结构与算法; 4. 理解AI分布式训练,包括业务场景,计算特点以及对平台的技术挑战; 5. 具有kubernetes, slurm, openstack等集群管理系统或者大规模云服务的开发经验; 6. 【加分项】熟悉AI分布式训练技术栈者优先,tensorflow,pytorch,MPI,CUDA,Horovod,NCCL,kubeflow; 7. 具备较强的学习能力和责任心,良好的沟通协作能力。 |
|
| |
|
|
| |
|