集群资源调度优化主管研究员- CN
为什么选择联想
我们是联想。我们说到做到。我们尽心尽力,成就客户。联想是一家全球收入高达4410亿人民币的科技公司,财富世界500强排行217,全球员工多达77000人,每天为数百万名客户在全球180个市场地区提供服务。我们专注提供崭新科技给所有人,联想已成为全球最大的电脑供应商,在未来我们会专注发展新科技,把我们的成功发展到新领域(客户端科技、边缘计算、云端科技、网络服务和智慧科技等)包括服务器,储存装置,智慧设备、解决方案和服务。联想的创新科技理念和转型将为世界带来更独特,更可靠和更智能的未来、了解更多资讯和最新动态,请浏览www.lenovo.com上的故事中心。
职位描述和要求:
岗位职责:
我们是联想。我们说到做到。我们尽心尽力,成就客户。联想是一家全球收入高达4410亿人民币的科技公司,财富世界500强排行217,全球员工多达77000人,每天为数百万名客户在全球180个市场地区提供服务。我们专注提供崭新科技给所有人,联想已成为全球最大的电脑供应商,在未来我们会专注发展新科技,把我们的成功发展到新领域(客户端科技、边缘计算、云端科技、网络服务和智慧科技等)包括服务器,储存装置,智慧设备、解决方案和服务。联想的创新科技理念和转型将为世界带来更独特,更可靠和更智能的未来、了解更多资讯和最新动态,请浏览www.lenovo.com上的故事中心。
职位描述和要求:
岗位职责:
- 负责大模型训练资源调度,在异构集群上完成大模型的资源自动配置和自动并行
- 设计大模型并行策略性能仿真软件,支持混合异构芯片进行大模型训练
- 全日制硕士以上学历,计算机科学与技术、人工智能等相关专业;
- 熟练C++/Python语言、数据结构以及计算机系统结构,有AI模型性能调优经验,以及良好的工程实现能力;
- 具备基础的GPU编程能力(CUDA / ROCm),熟悉常用的AI加速库,如NCCL/oneAPI/cudnn等;
- 至少熟悉一种常用的深度学习框架(PyTorch/TensorFlow/Paddle/DeepSpeed等);
- 熟悉大模型3D并行策略的原理,以及算子计算和通信开销分析手段;
- 熟悉深度学习网络和算子底层实现细节,有模型推理或者训练调优经验.
- 有大模型研发和分布式训练经验
- 熟悉Kubernetes架构以及大模型训练调度系统
- 有大模型3D并行策略实现或者优化经验
- 在AI或者HPC领域发表过高水平论文
- China - Beijing - 北京(Beijing)
- China - Beijing - 北京(Beijing)
- China - Beijing
- China
-
职位级别
初级 -
职位性质
全职 -
职能类别
医疗服务人员 -
所属行业
IT 服务与咨询
找人内推,获得联想面试的机会可以提高 2 倍
找找认识的领英会员Beijing有新的临床护理专员职位时接收通知。
登录帐号,即可创建职位订阅