导入方式
最近来源(35)
Manual Q&A - 如何构建持续评测闭环(离线数据集 + 在线反馈 + 回归测试)?
src_b7e31896f33c44a18dac43051be087fd
2026/04/03 19:42
Question: 如何构建持续评测闭环(离线数据集 + 在线反馈 + 回归测试)? Answer: 离线评测负责稳定基线(可复现),在线反馈反映真实流量问题(可观测),回归测试负责防止迭代退化(可门禁)。三者要共用统一指标口径,并把失败样本持续回流到评测集。 Catego...
Manual Q&A - 线上如何定义 Agent 的SLO(成功率/延迟/成本)?
src_01428a7e28074708ade0454a950227f5
2026/04/03 19:42
Question: 线上如何定义 Agent 的SLO(成功率/延迟/成本)? Answer: 至少定义三类核心指标:任务完成率(质量)、P95/P99 延迟(体验)、单任务 token/工具成本(经济性)。再细分到子链路(检索、工具、生成)才能快速定位瓶颈。SLO 必须和...
Manual Q&A - 如何防 prompt injection / 工具越权调用?
src_8802d433cbcc4efb94f1fb7070726e50
2026/04/03 19:42
Question: 如何防 prompt injection / 工具越权调用? Answer: 把外部输入默认视为不可信,禁止直接提升工具权限。对高风险工具做权限分级、参数白名单、显式确认和审计日志。并在系统提示里固定安全边界,避免被用户文本覆盖。 Categories:...
Manual Q&A - Agent状态机如何设计以支持断点续跑?
src_ba620513139a47a29ff874d1dfd4b54d
2026/04/03 19:42
Question: Agent状态机如何设计以支持断点续跑? Answer: 把任务拆成显式状态(待执行、执行中、待重试、完成、失败),并对每次状态迁移记录事件与版本。配合持久化 checkpoint 和幂等执行键,服务重启后可从最近稳定点继续。 Categories: s...
Manual Q&A - 会话短期记忆与长期记忆如何分层?
src_25bb8dfc54d2496ba3906045490a6570
2026/04/03 19:42
Question: 会话短期记忆与长期记忆如何分层? Answer: 短期记忆服务当前任务(会话状态、最近工具结果);长期记忆沉淀跨会话稳定事实与偏好。两层应有不同写入门槛和过期策略,避免把噪声直接固化到长期记忆。 Categories: memory Tags: shor...
Manual Q&A - 如何减少“检索命中但回答仍幻觉”?
src_6c8729b031a4460da117da7e0039a559
2026/04/03 19:42
Question: 如何减少“检索命中但回答仍幻觉”? Answer: 先区分是检索问题还是生成问题:检索命中后仍幻觉,多数是生成阶段未严格受证据约束。可通过引用强约束、答案模板化、证据不足时拒答/降级来控制。并持续用 faithfulness 指标监控回归。 Catego...
Manual Q&A - 何时需要 reranker,如何验证其收益?
src_6c5cfad1f81c4de69ae969e6e0a1c9cd
2026/04/03 19:42
Question: 何时需要 reranker,如何验证其收益? Answer: 当初检召回噪声高、Top-K 相关性不足时,reranker 价值最大。验证时看 NDCG@k、hit@k、最终答案可用率/忠实度是否提升,并评估新增时延是否可接受。没有指标收益就不应保留 r...
Manual Q&A - dense/sparse/hybrid 检索怎么选?
src_d71e3aae3d324ef8aa75b0071c91429f
2026/04/03 19:42
Question: dense/sparse/hybrid 检索怎么选? Answer: dense 擅长语义匹配,sparse(如 BM25)擅长关键词精确命中。hybrid 结合两者,通常在真实业务里更稳,尤其面对长尾查询。选择依据应是数据分布与评测指标,而不是单一技术...