|
|
| |
| |
职位描述 用小程序查看更多 |
|
岗位职责: 1. 协助开展VLA模型强化学习训练,参与RLHF流程搭建,包括奖励模型优化、策略微调等核心环节。 2. 配合整理对齐数据集,优化强化学习训练链路,提升模型指令理解与输出一致性。 3. 跟踪强化学习与大模型融合的前沿技术,完成小型技术调研与实验验证,输出简要分析报告。 4. 协助优化模型训练效率,参与实验数据记录、效果复盘,支撑算法迭代优化。
任职要求 1. 在读硕士及以上学历(计算机、AI、自动化等相关专业),每周可实习3天以上,实习期不少于3个月。 2. 精通Python,熟练掌握PyTorch框架,具备扎实的强化学习与神经网络基础,了解VLA核心原理。 3. 熟悉PPO, GRPO,有VLA模型微调或强化学习项目经验者优先。 4. 具备良好的数学基础与逻辑思维,能独立推进简单实验,有较强的问题解决能力。 |
|
| |
|
|
| |
|