星外工多多 [切换] 客服微信  收藏  消息  免费找工作 | 企业免费招人 | 雇主免费招人   登陆/注册  
 
   
 请输入关键词:
 
所有操作  
   星外工多多:  交流群  
   我的工多多(企业招人) >
   企业信息页     >
   发布正规职位    >
   查找人才      >
   关注的人才     >
   企业认证      >
   充值财务      >
   切换角色      >
 
   
  大模型+Infra+工程师  点击:9次
工作编号:1927349
10000-50000/月
自变量机器人科技(深圳)有限公司 查看企业资料及职位 2026-3-17 
深圳市-南山区  无经验 | 大学本科 | 招5人 | 校招
  工作地址
(深圳市南山区西丽街道西丽社区留仙大道7013航天创新大厦31层 ) 用小程序查   用百度查

  职位描述  用小程序查看更多
职位描述
1、负责大规模分布式训练和推理基础架构的设计、开发和优化,支持千卡级别的大规模模型训练;
2、优化长序列处理和超大模型的训练效率,解决训练中的性能瓶颈问题;
3、开发和优化高效的网络通信策略、自定义算子,并实现多样化的模型并行技术;
4、设计和实现高效的模型量化、推理加速和部署方案;
5、构建和维护海量多模态数据的分布式、流式处理管道;
6、设计和实现大模型加密保护机制,确保模型知识产权安全;
7、开发稳定可靠的训练断点恢复系统,提高大规模训练的容错能力;
8、跟踪最新的模型训练和推理技术发展,并将其应用于实际生产环境。

职位要求
1、具有计算机科学、分布式系统、高性能计算等相关专业背景或相关行业丰富工作经验;
2、熟练掌握主流深度学习框架,如PyTorch、TensorFlow,具备优秀的系统级编程能力;
3、有百卡以上规模LLM、Diffusion、Flow或MoE等大模型架构的训练经验;
4、精通至少一种分布式训练框架,如Megatron-LM、DeepSpeed、FSDP等;
5、熟悉3D并行、序列并行、专家并行等多种并行策略的原理和实现;


 

  职位照片
尚未上传照片。

  联系办法
   联系人:刘羽曦   联系电话: [请登陆后查看]  用小程序打开  
 

  马上投简历  收藏   复制网址  投诉下架

  自变量机器人科技(深圳)有限公司 查看企业资料及职位**(已实名) 查看个人雇主资料及职位

  谁看过此职位
  只显示非匿名用户
 
 
欢迎您的到来!星外工多多,让天下没有难找的工作!
微信交流群 [星外工多多] 全功能服务号 [星外工多多] 客服
《用户服务协议》 《隐私政策》  投诉与举报  关于我们  更新历史  小程序/APP下载  投诉电话:

广州市星外信息科技有限公司 保留所有权利 注册商标 人力资源许可证 增值电信经营许可证:粤B2-20251456 粤ICP备05000912号-2