序章:你以为你在和AI聊天,其实不是

资料库2026-05-17创建Howard 7 次浏览

一个你肯定遇到过的场景

你把一份三十页的行业报告拖进对话框,敲了一行字:

帮我总结这份报告的核心结论。

几秒后,AI(人工智能)给你列了三条结论。条理清晰、措辞专业、每一条都有模有样。你很满意。直到——

你随手翻了翻原文,发现其中一条结论在报告里根本不存在。AI 编造了一段逻辑自洽但完全虚构的分析,还煞有介事地标注了“根据报告第X部分”。

你又试了一次。这次,同样的提示词,结论变了一点点:上次编造的那条消失了,但新出现了一个同样不存在的数据引用。你的第一反应八成是:这AI今天不太行。

这个反应本身,就是本书要解决的第一个问题。

搞清楚我们在聊什么

在钻进AI的脑子之前,我们需要花三十秒,认清楚几个词。

你每天挂在嘴边的“AI”,其实是一个极其宽泛的概念。人脸解锁是AI,导航规划路线是AI,AlphaFold预测蛋白质结构也是AI,这些跟ChatGPT这类对话式产品八竿子打不着,但都叫AI。

这本书要讲的,是AI家族里一个特定的分支。我们一层层缩圈。

生成式AI(GAI或AIGC):AI里“能创作”的那一批。它不只识别和分类,还能生成全新的内容:写一段话、画一张图、谱一首曲子。你手机里的AI生图和AI写文案,都在这层。

语言模型(LM):生成式AI里专门处理文字的那一类。

视觉语言模型(VLM):生成式AI里能处理文字、图片和视频的那一类。

大语言模型(也叫大模型,LLM):语言模型里规模最大的那批。ChatGPT、Claude、豆包、DeepSeek,你叫得出名字的对话式AI,都是大模型。当你把它们装进一个能调用工具、能自主决策的系统里,它就变成了AI Agent(大模型驱动的智能体,有别于宽泛的Agent概念)。

序章:你以为你在和AI聊天,其实不是-BtoAI

图1:全球大模型演进时间表(不完全统计,截止到2026年5月)

在这本书里,说到“AI”,99%的时候指的是LLM和由它驱动的AI Agent。 至于AI家族里其他的成员,比如自动驾驶、人脸识别、围棋AI等等,我们只在对比的时候提到,让你看清楚LLM能做什么、不能做什么。

好,现在你知道我们在聊谁了。接下来,钻进它的脑子。

钻进AI的“脑子”

让我们回到刚才那一瞬间。在你按下发送键之后,你的三十页报告和那句“帮我总结”一起,在AI系统内部变成了什么?

它变成了一串数字。

具体来说,是一个大约两万行的矩阵。你的报告里每一个字、每一个标点,都被切成了被称为 Token (词元)的最小单元。其中中文大约每1.5个字一个Token,英文大约每4个字母(1个单词)一个Token。这些Token又被映射成高维向量,然后喂进一个神经网络(即AI模型)。

接下来发生的事情,和“思考”没有任何关系。

这个神经网络只做一件事:根据前面的所有Token,预测下一个最可能出现的Token。 它不是在“理解”你的报告,不是在“提炼”核心观点,更不是在“判断”哪些内容是重要的。它在做一道极其复杂的数学题:给定过去两万个Token,第两万零一个Token最可能是什么?

然后它把这个预测结果加回上下文,再预测第两万零二个。然后第两万零三个。第两万零四个。

就这样,一个字一个字地,它“生成”了你看到的那三条结论。

现在,关键问题来了:在每一步预测中,这个系统都在“选择”。 它不是在“查找”报告里有什么(AI模型本身没有数据库,没有搜索引擎,也没有任何“事实核对”机制)。它只是在用训练时学到的统计规律,猜一个在当前上下文中“看起来最合理”的下一个词。

大多数时候,这个“看起来最合理”碰巧和事实一致,因为它的训练数据里确实包含了海量人类知识,统计规律足够强。但有时候,“看起来最合理”的东西,碰巧不是真的。而且它自己不知道。

它没有“我是否在编造”的意识。它只有一个概率分布,和一个采样策略。当概率分布不够锐利,也就是多个候选Token的概率接近时,它选哪一个几乎就是随机的。而那个被选中的词,会立刻成为新的“事实”,写进上下文,影响后续的所有预测。

这就是幻觉的根源。不是bug,不是模型“坏了”。它是概率预测系统的结构性特征,就像内燃机必然产生废气一样。大模型拥有丰富的“分布式语义”关联,但缺乏指向真实世界的“指称语义”。它能写出逻辑完美的句子,但无法区分这个句子描述的是事实还是虚构。

你用的那个对话框看起来像聊天,但它背后不是一个在和你对话的人。它是一台概率生成引擎,被包装成了聊天界面的样子。

聊天框,是你用不好AI的最大原因

这是本书要讲的第一个反直觉结论:

你每天都在用聊天框,但这恰恰是你用不好AI的最大原因。

聊天框这个界面太成功了。它让任何人都能“用”AI,不需要编程。但“简单”和“好用”是两回事。

错觉一:它在“听”。 它不在听。它在把你说的话编码成Token,然后做概率预测。

错觉二:它在“想”。 它不在想。当你说“不对,再试一次”,它不会反思哪里错了,它只是在上一次对话历史的基础上,重新做一次概率预测。

错觉三:你问了,它答了,所以问题解决了。 AI的输出天然不可靠,“答了”不等于“答对了”。你用聊天的节奏使用一个不确定性的系统。

三个层次,你在哪一层

绝大多数人只操作第一层。少数人意识到第二层。极少数人走到了第三层。

小白学Prompt(提示词,发送给AI的指令或提问),高手搭Context(上下文,提供给AI参考信息),顶级玩家建System(系统,AI所在的体系与框架)。

当前,生成式AI也是发展到了“建System”的阶段,但这不是终点。

这本书不会给你什么 / 会给你什么

  • 不会给你100个“万能爆款提示词”
  • 不会教你用AI一夜暴富
  • 不会逐行讲解某个Agent框架的API
  • 不会告诉你“AI正在取代人类”

帮你建立一套理解生成式AI系统的思维框架。不束缚于任何具体模型、具体产品。

读完这本书,你应该能做到三件事:

第一,看懂一个AI产品的设计逻辑。 不管是ChatGPT、Claude、Kimi、千问——你能拆开它的系统提示词、工具链、上下文策略。

第二,诊断一个AI Agent为什么不稳定。 你能定位问题是出在上下文污染、工具误调用、注意力稀释还是评估缺失。

第三,从零设计一个可靠的AI Agent系统。 你能识破网红AI产品背后的“把戏”,了解AI产品从需求到上线的完整流程。

这本书写给谁 / 怎么读

第一类: 每天用AI但总觉得不顺手。

第二类: 正在做AI产品但总觉得不稳定。

第三类: 想认真做AI应用但不知道从哪开始。

本书前三章是认知地基。第四到七章是工程体系。第八章和小结随时跳读。每一章结尾有自查清单。

这本书的名字叫《为什么你说话AI不爱听》。但你很快会发现,“不爱听”并不是因为你的表达能力有问题。而是因为你一直在用一个“对人说话”的方式,跟一台概率引擎沟通。一旦你理解了这台引擎是如何运转的,你会发现它从来不“不爱听”,它只是用了一种你不了解的语言在“听”。学会这门语言不需要任何技术背景。你需要的只是一点好奇心,和一套对的思维框架。


参考链接

  1. Ashish Vaswani et al., "Attention Is All You Need", arXiv:1706.03762, 2017. https://arxiv.org/abs/1706.03762
  2. Andrew Ng, "ChatGPT Prompt Engineering for Developers", DeepLearning.AI. https://www.deeplearning.ai/courses/chatgpt-prompt-eng
  3. Andrew Ng, "Agentic AI", DeepLearning.AI, 2025. https://www.deeplearning.ai/courses/agentic-ai/ ;中文翻译版 https://github.com/datawhalechina/agentic-ai

下一章:AI ≠ 大语言模型

更多文章

第一章:AI ≠ 大语言模型

一个被忽略的常识 如果我让你说出一个“AI”的名字,你脱口而出的多半是 ChatGPT、豆包、Claude、Kimi,或者你手机里那个智能助手。 这很正常。过去三年,“大语言模型”和“生成式AI”铺天盖地,好不热闹。但这不正常的地方在于:很多人开始觉得AI = 聊天“机器人”。 当然,AI肯定不是聊天“机器人”,能聊天的“机器人”也不是“机器人”。 这不是一个词义辨析的游戏。这是一个认知错误:它会…

资料库 2026-05-17
第一章:AI ≠ 大语言模型

第二章:AI为什么不懂你

不是你的表达能力有问题 我们先做一个小的思维实验。 假设你有一个朋友,他有一个非常奇怪的“听力”方式: 你说的每一句话,他会先把它拆成一个一个的字 每个字在他脑子里会激活一整套联想网络,不是联想“意思”,是联想 “在过往所有对话中,这个字后面通常跟着什么字” 然后他根据这些联想,一个字一个字地拼出他的回答 他没有 “理解”这个概念,他只是在做联想 你跟他说:“我今天心情不太好。” 他拆开六个字。 …

资料库 2026-05-17
第二章:AI为什么不懂你
回到顶部