星外工多多 [切换] 客服微信  收藏  消息  免费找工作 | 企业免费招人 | 雇主免费招人   登陆/注册  
 
   
 请输入关键词:
 
所有操作  
   星外工多多:  交流群  
   我的工多多(企业招人) >
   企业信息页     >
   发布正规职位    >
   查找人才      >
   关注的人才     >
   企业认证      >
   充值财务      >
   切换角色      >
 
   
  GPU集群SRE(偏开发)  点击:25次
工作编号:1943284
26000-50000/月
深圳天顿数据科技有限公司 查看企业资料及职位 2026-3-20 
深圳市-福田区  1-3年经验 | 大学本科 | 招1人 | 全职
提供工作餐,员工体检,有偿假期,节日福利,生日福利
  工作地址
(深港科技创新合作区深方园区A栋第十七层) 用小程序查   用百度查

  职位描述  用小程序查看更多
请注意,这是一个偏架构开发岗位
职位描述
我们正在建设面向AI算力的高性能GPU集群平台,寻找具备工程能力与基础设施认知的SRE工程师,参与GPU集群运维系统的研发与优化,推动算力基础设施的自动化与智能化。你将深度参与IDC与GPU集群相关系统的设计与开发,包括但不限于:
1,负责GPU集群运维平台的研发与演进(Golang/Python)
2,设计并实现IDC运维相关核心系统:
-工单系统(工单流转,自动化处理,SLA管理)
-监控与报警系统(资源监控,故障检测,告警策略) -IDC资产管理系统(设备,机柜,网络,GPU资源等)
3,构建GPU资源监控体系(GPU利用率,显存,温度,功耗等)
4,推动运维自动化(故障自愈,自动扩缩容,批量操作等)
5,参与大规模集群稳定性建设(高可用,容灾,容量规划)
6,与算力调度,容器平台(K8S)等系统协同优化整体效率

职位要求
1,本科及以上学历,计算机相关专业
2,3年以上后端开发或SRE经验
3,熟练掌握Golang(必须),或具备良好的Python工程能力
4,扎实的数据结构与系统设计能力
5,基础设施&运维能力
6,熟悉Linux系


 

  职位照片
尚未上传照片。

  联系办法
   联系人:陆思宇   联系电话: [请登陆后查看]  用小程序打开  
 

  马上投简历  收藏   复制网址  投诉下架

  深圳天顿数据科技有限公司 查看企业资料及职位**(已实名) 查看个人雇主资料及职位

  谁看过此职位
  只显示非匿名用户
 
 
欢迎您的到来!星外工多多,让天下没有难找的工作!
微信交流群 [星外工多多] 全功能服务号 [星外工多多] 客服
《用户服务协议》 《隐私政策》  投诉与举报  关于我们  更新历史  小程序/APP下载  投诉电话:

广州市星外信息科技有限公司 保留所有权利 注册商标 人力资源许可证 增值电信经营许可证:粤B2-20251456 粤ICP备05000912号-2