模型服务连接失败

如何做工具选择准确率评估(tool selection eval)?

offline_evalonline_metricstool_eval
分类
evaluation
难度
未设置
来源数
1
更新时间
2026/04/03 19:42

答案

先构建带标注的评测集(问题 -> 期望工具/期望参数),再离线评估 tool precision/recall 与参数正确率。线上补充“误调用率、空调用率、重试率、任务完成率”。离线+线上结合才能发现真实退化。

相关题目(1)

元信息

审核状态: active
关联来源: 1

来源面经题(0)

这道题目前没有手动沉淀的面经题来源。

来源(1)

Manual Q&A - 如何做工具选择准确率评估(tool selection eval)?

manual_input
Question: 如何做工具选择准确率评估(tool selection eval)? Answer: 先构建带标注的评测集(问题 -> 期望工具/期望参数),再离线评估 tool precision/recall 与参数正确率。线上补充“误调用率、空调用率、重试率、任务完成率”。离线+线上结合才能发现真实退化。