第 5 课
如何验证 AI 的回答
建立验证 AI 输出的习惯:来源、测试、示例、边界条件与可复现证据。
验证 AI 回答,就是把流畅的文字转化为你能信任的证据。对开发者来说,最好的验证通常来自官方文档、可运行测试、小示例、边界条件和可复现命令。
用匹配风险的验证方式
不同输出需要不同检查:
- 代码:运行测试、类型检查、lint 和人工审查。
- API 建议:对照官方文档。
- 安全结论:查看可信来源和项目策略。
- 数据转换:测试样例输入和输出。
- 概念解释:要求示例,并与已知行为对照。
目标不是怀疑一切,而是知道什么证据足够。
注意幻觉信号
当答案给出包名、API 方法、法律结论、价格、日期或 benchmark 数字,却没有来源时,要特别小心。这些细节可能看起来精确,但其实是编造或过时的。
可以要求 AI 分开列出事实和假设,然后在答案外部验证关键事实。
使用边界条件
简单示例只能证明正常路径。边界条件能暴露方案是否适合真实使用。代码场景下,要测试空输入、非法输入、大输入、时区、编码、权限和失败状态。
验证强度阶梯
风险越高,验证越强:
- 低风险:用已有知识和一个小示例对照。
- 中风险:用官方文档、测试或可复现命令验证。
- 高风险:需要负责人审查、安全检查、法务判断或接近生产环境的测试。
不是每个回答都值得花同样精力验证。错误代价越高,验证投入就应该越高。
把验证写进提示词
可以要求 AI 在答案后加入验证部分:
After the proposed solution, include: risks, assumptions, edge cases, and commands or tests I should run.
这不会让答案自动正确,但会给你一份检查清单。
保留小型验证记录
重要的 AI 辅助工作,可以在 PR、任务笔记或提交信息里记录三行:
- AI 帮了什么。
- 你验证了什么证据。
- 还剩什么风险。
这份短记录能让后续审查更轻松。
关键结论
- 验证强度应匹配任务风险。
- 看起来精确的 AI 输出也可能是编造或过时的。
- 测试、文档、示例和边界条件比自信语气更可靠。
- 小型验证记录能让 AI 辅助工作更可追踪。
下一课
下一课学习隐私、版权和安全使用如何影响 AI 工作。