|
|
| |
| |
职位描述 用小程序查看更多 |
|
1、本科以上学历,计算机科学与技术、通信工程、电子信息、软件工程、自动化等相关专业;熟练掌握C/C++/python编程,具备良好的编程习惯; 2、具备Linux平台软件设计、开发、验证经验; 3、了解TCP/IP协议栈,有RDMA协议开发经验者优先; 4、有分布式系统、并行程序设计开发经验或熟悉TensorFlow、Pytorch、MPI等分布式框架者优先。 5、熟悉UXC/UCC通信集合者优先。 1、负责集合通信库(xCCL)的算法设计、软件设计与开发 2、面向分布式异构计算集群AI训练、AI+HPC等场景,优化通信库软件架构,支撑大模型场景下AI集群核心竞争力提升 3、面向多协议栈(TCP/RDMA/UB)及复杂集群分级组网进行性能等方案设计与实现,提升集群性能与维测能力 4、掌握扎实的计算机基础知识:计算机网络(TCP/IP、UDP、RDMA、拥塞控制)、操作系统(进程间通信、内存管理、多线程)、数据结构与算法; |
|
| |
|
|
| |
|