岗位职责
1.构建高效率、高性价比、高易用性的深信服AI算力平台,支持以AIGC场景为主的AI模型高效训练及AI应用部署承载。
2.负责AIGC产品的架构设计,引入开源社区先进的AI框架、AI调度、AI工作流和AI可观测能力,构建全栈AI应用云原生解决方案。
3.围绕场景改进AI框架提升训练效率和推理性能,适应异构多元芯算力底座,支持国产化信创,支持GPU虚拟化和混部调度,提升AI应用资源效率。
4.对接客户本地或云上AI应用,支持主流开源大模型训练推理任务部署,提供容错和弹性能力。
5.对接客户本地基础设施环境,构建算力平台解决方案,支持大模型训练推理的ToB交付
6.探索业界最新技术方向,参与开源社区,提升深信服AI算力平台的核心竞争力。
任职要求
1.计算机科学/自动化控制相关专业,硕士及以上学历,5年及以上平台架构经验,具备深度的计算机相关专业知识背景。
2.熟悉开源大模型GLM/LLaMA/GPT3及调优方法,熟悉Tensorflow/Caffe/Pytorch等框架,具备中大规模模型训练实践、模型推理优化实践经验。
3.熟悉kubernetes基本工作原理,了解调度器、device-plugin、容器运行时运行机制、容器网络、RDMA通信;有Kubeflow、Volcano等相关开发经验优先。
4.优秀的编码能力,熟悉Golang/Python/Java/c/c++至少一项,有扎实的算法及数据结构基础,有良好的编程习惯。
5.对异构芯片虚拟化、CUDA编程、RDMA有一定了解者优先。
6.优秀的技术团队管理能力;具备较强的产品技术ownership,以结果为导向,在技术领域内善于思考并积极改进。