|
|
| |
| |
职位描述 用小程序查看更多 |
|
职位描述 1. 设计、构建、训练和优化面向机器人交互场景的端到端多模态大模型架构 2. 探索和实现模型对多模态输入(语音、文本、图像/视频、深度信息、传感器数据、环境上下文等)的深度融合与理解 3. 研发模型生成多模态输出(语言语音、情绪、表情、移动、行为动作等)的能力,确保输出的一致性与自然性 4. 重点攻克人机交互闭环中的关键问题:上下文记忆与理解、意图识别与澄清、个性化交互、情感感知与表达、长时程对话一致性、任务导向交互等
职位要求 1. 本科及以上学历,计算机、人工智能、电子、数学等相关专业 2. 出色的问题分析和解决能力,自主探索新解决方案的能力强 3. 关注生成式 AI和多模态交互技术,对推动人形机器人智能化有热情 4. 熟悉 VLM/ VLA/ VLP/ MLM等多模态任务建模,具备跨模态模型设计与训练经验 5. 理解多模态对齐(如cross-attention、token-level alignment)、条件生成、多模态融合机制 |
|
| |
|
|
| |
|