第 5 课

如何验证 AI 的回答

建立验证 AI 输出的习惯:来源、测试、示例、边界条件与可复现证据。

验证 AI 回答,就是把流畅的文字转化为你能信任的证据。对开发者来说,最好的验证通常来自官方文档、可运行测试、小示例、边界条件和可复现命令。

用匹配风险的验证方式

不同输出需要不同检查:

  • 代码:运行测试、类型检查、lint 和人工审查。
  • API 建议:对照官方文档。
  • 安全结论:查看可信来源和项目策略。
  • 数据转换:测试样例输入和输出。
  • 概念解释:要求示例,并与已知行为对照。

目标不是怀疑一切,而是知道什么证据足够。

注意幻觉信号

当答案给出包名、API 方法、法律结论、价格、日期或 benchmark 数字,却没有来源时,要特别小心。这些细节可能看起来精确,但其实是编造或过时的。

可以要求 AI 分开列出事实和假设,然后在答案外部验证关键事实。

使用边界条件

简单示例只能证明正常路径。边界条件能暴露方案是否适合真实使用。代码场景下,要测试空输入、非法输入、大输入、时区、编码、权限和失败状态。

验证强度阶梯

风险越高,验证越强:

  1. 低风险:用已有知识和一个小示例对照。
  2. 中风险:用官方文档、测试或可复现命令验证。
  3. 高风险:需要负责人审查、安全检查、法务判断或接近生产环境的测试。

不是每个回答都值得花同样精力验证。错误代价越高,验证投入就应该越高。

把验证写进提示词

可以要求 AI 在答案后加入验证部分:

After the proposed solution, include: risks, assumptions, edge cases, and commands or tests I should run.

这不会让答案自动正确,但会给你一份检查清单。

保留小型验证记录

重要的 AI 辅助工作,可以在 PR、任务笔记或提交信息里记录三行:

  • AI 帮了什么。
  • 你验证了什么证据。
  • 还剩什么风险。

这份短记录能让后续审查更轻松。

关键结论

  • 验证强度应匹配任务风险。
  • 看起来精确的 AI 输出也可能是编造或过时的。
  • 测试、文档、示例和边界条件比自信语气更可靠。
  • 小型验证记录能让 AI 辅助工作更可追踪。

下一课

下一课学习隐私、版权和安全使用如何影响 AI 工作。

返回课程概览