|
|
| |
| |
工作地址 |
|
|
|
|
(深圳市南山区西丽街道西丽社区留仙大道7013航天创新大厦31层
)
用小程序查
用百度查
|
| |
职位描述 用小程序查看更多 |
|
职位描述 1、负责多模态数据(文本、语音、图像、视频等)的收集、清洗、标注和格式化。构建高效的数据处理流程,支持模型训练与推理; 2、调用和研究前沿多模态模型/大语言模型(如chatGPT、SD等),理解模型能力边界; 3、为多模态模型训练提供高质量数据支持,优化模型效果; 4、设计Prompt生成目标数据,优化结果质量。
职位要求 1、熟悉多模态数据的清洗、标注、加载,了解数据优化技术(如TFRecord、Sharding等); 2、有调用大语言模型/多模态模型的经验,理解其能力边界和适用场景; 3、能够设计和优化Prompt,提升生成数据的质量和效率; 4、熟悉数据处理工具(如Pandas、NumPy)并完成完整数据处理流程; 5、对数据质量有高标准,细致负责,发现并解决数据问题; 6、熟悉Python编程,了解Linux环境和常见开发工具。
加分项: 1、熟悉大规模模型训练,对数据在训练中的作用有深刻理解; 2、有实际多模态/大语言模型开发经验; 3、了解分布式数据处理技术(如Spark、Flink); 4、熟悉生成式AI技术和数据标注工具。
|
|
| |
|
|
| |
|