|
|
| |
| |
职位描述 用小程序查看更多 |
|
1. 基础要求 硕士及以上学历,计算机科学与技术、软件工程、人工智能、电子信息、自动化、数学、微电子等相关专业; 掌握扎实的计算机基础知识:操作系统(进程调度、内存管理)、计算机网络(TCP/IP、RDMA)、数据结构与算法; 具备良好的编程能力,熟练掌握至少一门核心语言(C++/Python/Go/CUDA,至少精通 1 种); 有较强的问题解决能力、学习能力和团队协作意识,对 AI Infra 领域有浓厚兴趣。 2. 方向加分项(满足 1-2 项即可) 算子 / 编译方向:熟悉 PyTorch/TensorFlow 框架,有算子开发(如 CUDA/TVM/MLIR)、模型量化 / 剪枝经验; 分布式方向:了解分布式系统原理,有分布式训练(如 DeepSpeed/Megatron)、集群调度(K8s)相关项目经验; 云原生 / MLOps 方向:熟悉 Docker/K8s,有模型服务部署(如 TensorFlow Serving/Triton)、监控告警系统开发经验; 软硬协同方向:熟悉 GPU/AI 芯片架构,有 CUDA/OpenCL 编程、硬件加速方案设计经验; 有顶会论文(NeurIPS/ICML/OSDI/SOSP 等)、ACM/Kaggle 竞赛获奖、开源项目贡献(如 PyTorch/vLLM)优先。 参与 AI 基础设施核心模块研发,包括大模型算子优化、分布式训练框架、推理服务部署、硬件加速方案等;负责 AI 系统性能调优,提升 GPU/CPU 利用率、训练 / 推理吐量、模型部署效率;跟进业界前沿技术,落地到实际产品;与算法、芯片、业务团队协作,解决 AI 模型规模化训练与部署中的工程问题。 |
|
| |
|
|
| |
|