|
|
| |
| |
GPU集群SRE(偏开发) 点击:25次
工作编号:1943284
|
26000-50000/月 |
|
深圳天顿数据科技有限公司 查看企业资料及职位
|
2026-3-20 |
| 深圳市-福田区 1-3年经验 | 大学本科 | 招1人 | 全职 |
| 提供工作餐,员工体检,有偿假期,节日福利,生日福利 |
| |
职位描述 用小程序查看更多 |
|
请注意,这是一个偏架构开发岗位 职位描述 我们正在建设面向AI算力的高性能GPU集群平台,寻找具备工程能力与基础设施认知的SRE工程师,参与GPU集群运维系统的研发与优化,推动算力基础设施的自动化与智能化。你将深度参与IDC与GPU集群相关系统的设计与开发,包括但不限于: 1,负责GPU集群运维平台的研发与演进(Golang/Python) 2,设计并实现IDC运维相关核心系统: -工单系统(工单流转,自动化处理,SLA管理) -监控与报警系统(资源监控,故障检测,告警策略) -IDC资产管理系统(设备,机柜,网络,GPU资源等) 3,构建GPU资源监控体系(GPU利用率,显存,温度,功耗等) 4,推动运维自动化(故障自愈,自动扩缩容,批量操作等) 5,参与大规模集群稳定性建设(高可用,容灾,容量规划) 6,与算力调度,容器平台(K8S)等系统协同优化整体效率
职位要求 1,本科及以上学历,计算机相关专业 2,3年以上后端开发或SRE经验 3,熟练掌握Golang(必须),或具备良好的Python工程能力 4,扎实的数据结构与系统设计能力 5,基础设施&运维能力 6,熟悉Linux系 |
|
| |
|
|
| |
|