导入内容

当前重点: 上传 / 手工录题
最近来源: 8
后续处理: 审核队列
当前题库: 454

导入方式

最近来源（35）

手工录入已入库

Manual Q&A - 如何构建持续评测闭环（离线数据集 + 在线反馈 + 回归测试）？

src_b7e31896f33c44a18dac43051be087fd

2026/04/03 19:42

Question: 如何构建持续评测闭环（离线数据集 + 在线反馈 + 回归测试）？ Answer: 离线评测负责稳定基线（可复现），在线反馈反映真实流量问题（可观测），回归测试负责防止迭代退化（可门禁）。三者要共用统一指标口径，并把失败样本持续回流到评测集。 Catego...

打开题库

手工录入已入库

Manual Q&A - 线上如何定义 Agent 的SLO（成功率/延迟/成本）？

src_01428a7e28074708ade0454a950227f5

2026/04/03 19:42

Question: 线上如何定义 Agent 的SLO（成功率/延迟/成本）？ Answer: 至少定义三类核心指标：任务完成率（质量）、P95/P99 延迟（体验）、单任务 token/工具成本（经济性）。再细分到子链路（检索、工具、生成）才能快速定位瓶颈。SLO 必须和...

打开题库

手工录入已入库

Manual Q&A - 如何防 prompt injection / 工具越权调用？

src_8802d433cbcc4efb94f1fb7070726e50

2026/04/03 19:42

Question: 如何防 prompt injection / 工具越权调用？ Answer: 把外部输入默认视为不可信，禁止直接提升工具权限。对高风险工具做权限分级、参数白名单、显式确认和审计日志。并在系统提示里固定安全边界，避免被用户文本覆盖。 Categories:...

打开题库

手工录入已入库

Manual Q&A - Agent状态机如何设计以支持断点续跑？

src_ba620513139a47a29ff874d1dfd4b54d

2026/04/03 19:42

Question: Agent状态机如何设计以支持断点续跑？ Answer: 把任务拆成显式状态（待执行、执行中、待重试、完成、失败），并对每次状态迁移记录事件与版本。配合持久化 checkpoint 和幂等执行键，服务重启后可从最近稳定点继续。 Categories: s...

打开题库

手工录入已入库

Manual Q&A - 会话短期记忆与长期记忆如何分层？

src_25bb8dfc54d2496ba3906045490a6570

2026/04/03 19:42

Question: 会话短期记忆与长期记忆如何分层？ Answer: 短期记忆服务当前任务（会话状态、最近工具结果）；长期记忆沉淀跨会话稳定事实与偏好。两层应有不同写入门槛和过期策略，避免把噪声直接固化到长期记忆。 Categories: memory Tags: shor...

打开题库

手工录入已入库

Manual Q&A - 如何减少“检索命中但回答仍幻觉”？

src_6c8729b031a4460da117da7e0039a559

2026/04/03 19:42

Question: 如何减少“检索命中但回答仍幻觉”？ Answer: 先区分是检索问题还是生成问题：检索命中后仍幻觉，多数是生成阶段未严格受证据约束。可通过引用强约束、答案模板化、证据不足时拒答/降级来控制。并持续用 faithfulness 指标监控回归。 Catego...

打开题库

手工录入已入库

Manual Q&A - 何时需要 reranker，如何验证其收益？

src_6c5cfad1f81c4de69ae969e6e0a1c9cd

2026/04/03 19:42

Question: 何时需要 reranker，如何验证其收益？ Answer: 当初检召回噪声高、Top-K 相关性不足时，reranker 价值最大。验证时看 NDCG@k、hit@k、最终答案可用率/忠实度是否提升，并评估新增时延是否可接受。没有指标收益就不应保留 r...

打开题库

手工录入已入库

Manual Q&A - dense/sparse/hybrid 检索怎么选？

src_d71e3aae3d324ef8aa75b0071c91429f

2026/04/03 19:42

Question: dense/sparse/hybrid 检索怎么选？ Answer: dense 擅长语义匹配，sparse（如 BM25）擅长关键词精确命中。hybrid 结合两者，通常在真实业务里更稳，尤其面对长尾查询。选择依据应是数据分布与评测指标，而不是单一技术...

打开题库