* 职位描述:
团队介绍
我们专注于大模型在 Agentic & Coding 领域的评测范式探索与高质量数据构建,不仅核心支撑 Qwen 系列等大模型业务的交付迭代,更致力于在前沿方向探索下一代评测与数据体系,坚持产业落地与前沿探索并重。团队在业界已建立起显著的技术影响力,主导及参与了包括 SWE-CI、QwenClawBench、Terminal-Bench-Pro、Let It Flow (ROME Model)、HLE-Verified、V-GameGym 等多项前沿研究与基准构建工作。
岗位职责方向(参与其中任一方向)
1. 复杂 Agentic 环境合成和 Infra 研究:负责复杂 Agentic 环境合成及评测集交付;设计并搭建统一的数字 Agent 评测基础设施,构建更加复杂的 Agent 环境基建。
2. 持续学习与记忆评测、长程任务评估:研究大模型持续学习机制,构建针对长周期记忆检索、经验复用及动态知识更新的评估框架,沉淀 Agent 自主学习与长效记忆评测集。
3. 世界模型评测与数据:搭建世界模型环境,评估模型对数字世界状态转移的理解和决策推演能力;交付世界模型评测集,以及状态推演与决策轨迹的高质量数据集。
4. Agent 失败模式与可解释性研究:深入 Agent 和模型架构层进行可解释性工作;研究 Agent 运行中间轨迹的自动化分析方法,定位模型失败根本原因,提供专业下探与诊断能力,指导模型定向优化。
详情查看:https://campus-talent.alibaba.com/campus/position/199904240015?deptCodes=







南开大学学生就业指导中心代发
实习信息

津公网安备12010402000967号