第一章:AI ≠ 大语言模型

资料库2026-05-17创建Howard 4 次浏览

一个被忽略的常识

如果我让你说出一个“AI”的名字,你脱口而出的多半是 ChatGPT、豆包、Claude、Kimi,或者你手机里那个智能助手。

这很正常。过去三年,“大语言模型”和“生成式AI”铺天盖地,好不热闹。但这不正常的地方在于:很多人开始觉得AI = 聊天“机器人”。

当然,AI肯定不是聊天“机器人”,能聊天的“机器人”也不是“机器人”。

这不是一个词义辨析的游戏。这是一个认知错误:它会影响你对AI能做什么、不能做什么、危险在哪里的全部判断。

当你以为AI就是聊天机器人时:

  • 你不会理解为什么自动驾驶也是AI
  • 你不会意识到你用手机拍照时的人像虚化、语音输入时的实时转写,这些都是AI
  • 你更不会想到,决定一个仓库机器人能不能准确抓取货品的那个系统,和ChatGPT共用同一套底层模型结构

但当你理解了AI的完整版图,你会突然看懂很多事:为什么大语言模型会“说错话”而人脸识别不会“认错人”?为什么能让AI一夜之间爆火的围棋AI敢下人类看不懂的招?为什么自动驾驶撞人比写错文案严重一万倍?

这一章,我们就刨根问底。

AI到底是什么

不需要背概念,我们看一张图。

第一章:AI ≠ 大语言模型-BtoAI

图1:AI的定义与范围

最外层蓝色——人工智能(AI): 一切让机器表现出“智能行为”的技术。下围棋、识别人脸、理解语音、控制机器人走路、给你推荐视频……只要在某个任务上做出了看起来“需要智慧”的结果,都算AI。

第二层绿色——机器学习(ML): AI的一个子集。传统编程是“人写规则,机器执行”(如果是红灯,就要停车)。机器学习是“人给数据,机器自己找规律”(喂给它十万张“红灯”和“非红灯”的照片,神经网络模型自己学会怎么判断)。

第三层紫色——深度学习(DL): 机器学习的一个子集。特点是“层数多”,即用多层神经网络(几十层、上百层、上千层)来提取数据中的深层模式。这层是现代AI的核心引擎。

最内层橙色——大语言模型(LLM): 深度学习的一种特定应用。它专门处理文本序列(后来也扩展到图像、音频等多模态数据)。ChatGPT、豆包都在这一层。

你现在看到很多人在讨论的“AI”,其实只是在说最里面那个小橙圈。

但外面那几圈同样重要,甚至在某些领域更重要。

LLM之外,AI还在做什么

我们走马观花,看几个方向。不是为了让你成为专家,而是让你感受一下“AI”这个词真正的覆盖范围。

第一章:AI ≠ 大语言模型-BtoAI

图2: 各种AI的区别

计算机视觉(CV)——让机器“会看”

你手机的人脸解锁。医院里CT影像的肿瘤筛查。工厂传送带上自动挑出残次品。自动驾驶汽车识别行人、路标和车道线。

这些系统的底层技术是卷积神经网络(CNN)及其后代,它们从像素中提取边缘、形状、局部特征、全局语义,一层一层向上抽象。2012年,一个叫AlexNet的模型在大规模图像识别比赛中把错误率从26

现在你每天用的“拍照搜题”“拍照识花”“视频美颜”背后都有CV。但大部分人在用这些功能时不会说“我在用AI”。

语音技术(ASR/TTS)——让机器“会听会说”

语音识别(ASR)和语音合成(TTS)合在一起,是你和智能音箱、车载助手、手机语音输入交互的基础,它让你与豆包直接对话。

早在深度学习爆发前,语音识别就有一套成熟的统计方法(隐马尔可夫模型)。深度学习进来后,准确率直接跳了一个台阶,从“勉强能听懂”变成“比人还准”。2016年,微软的语音识别系统在某个测试集上达到了人类水平。现在你的手机能实时把你说的话转成文字,延迟不到200毫秒。

强化学习(RL)——让机器“决策”

和前面两种不同,强化学习不是“看数据”或“听声音”,而是“在环境里试错”。

2016年,AlphaGo赢了李世石,“AI”这个概念一炮而红。它怎么做到的?不是背了人类棋谱,是和自己下了几千万盘棋,自己琢磨出了“走哪步赢面大”。2017年,AlphaZero更极端,它完全不看人类棋谱,从零开始自学围棋、国际象棋和将棋,超越几乎所有人类和AI。

强化学习的逻辑是:做对了给奖励,做错了给惩罚,让系统自己在无数次试错中找到最优策略。这套逻辑不只用于下棋,ChatGPT刚问世时在后期训练中使用的RLHF(人类反馈强化学习),本质上就是把“人类偏好”当成奖励信号,让模型学会“怎么回答更让人满意”,这里其实也给用户觉得“AI变笨”埋下了隐患。

顺便说一句,RL中也有一个概念叫Agent,但它与我们后面说的大模型驱动的AI Agent不同。本书所说的Agent就是AI Agent。

具身智能(EI)——让机器“动手”

这是目前AI最热的前沿之一。它回答一个问题:如果AI有了身体,会怎样?

一个仓库里的机械臂,要从杂乱的料箱里抓取特定形状的零件。它的“脑子”是一套视觉+规划+控制的深度学习系统,它的“身体”是电机、传感器和夹爪。这比纯文本生成难得多,错了不是“输出一段错误文字”,而是“撞坏零件”甚至“伤人”。

说白了,就是对“机器人”的又一包装,从机械手(机械臂)到人形机器人,拥有了“大脑”(一般就是动作大模型,VLA)之后就成为了“具身智能”。

具身智能被很多人认为是AI的终极形态:当AI不仅能“说”,还能“做”,那才是真正的“智能体”。

科学AI(AI4S,AI for Science)——让机器“发现”

DeepMind的AlphaFold 2解决了困扰生物学五十年的大问题:根据蛋白质的氨基酸序列预测其三维结构。这不仅是一个AI成果,它改写了药物研发和基础生物学的进程。到2022年,该系统已预测了超过2亿种蛋白质结构(2024年,AlphaFold因此获得诺贝尔化学奖)。

这就是AI在科学领域的威力:它不是“替代科学家”,而是把科学家从“手工分析庞大数据”中解放出来,让他们去问更重要的问题。

LLM为什么成了AI的“代言人”

看到这儿你可能会问:既然AI这么丰富,为什么公众眼里“AI = 聊天机器人”?

因为LLM撞上了一个特殊的东西:语言。

语言是人类最通用、最自然的交互界面。你不会用数学公式和人交流,不会用图像标签和人交流,你用句子。而LLM恰好可以接收句子、输出句子。这意味着任何人不需要会写代码、不需要学过数学,都能直接“使用”它。

这是AI史上第一次,人和机器的交互不需要“翻译”。

对比一下:计算机视觉也需要专业背景才能用(你没法“说话”让一个人脸识别系统工作),强化学习训练一个模型要烧几百万美元算力,一个机器人的硬件成本动辄几十万。

而LLM?打开一个网页,打字,回车。零门槛。

这就是为什么LLM成了AI的“代言人”,不是因为它是AI的全部,而是因为它是AI中唯一一个所有人都能直接触碰到的形态

这也意味着一个巨大的认知风险:你最容易接触到的那个AI,恰恰是AI家族里最“擅长表演”的一个。 它能流畅地说话,不代表它能准确地思考。它能自信地输出结论,不代表它真正“知道”那个结论。

这一点,我们下一章会展开。

三个你从此要记住的概念

在结束这一章之前,有三个概念需要记住。

Token——AI的“字”

你说话的时候,AI不是“听”,是把你的话切成一小块一小块的符号单元。这个单元就是Token。

  • 中文大约1.5个字一个Token:“人工智能”约等于2个Token
  • 英文大约4个字母或1个单词一个Token:“artificial”约等于2.5个Token
  • 标点符号、换行、空格也可能各占一个Token

为什么要切分?因为大模型的底层(神经网络)只能处理数字,不能处理文字。Tokenizer(分词器)做的就是“把人类文字映射成数字”这件事。

更重要的是:Token不仅决定了AI“读”你的方式,也决定了AI“写”给你的成本。 每次你和AI对话,你输入的内容和你收到的内容,都按Token计费(如果你用付费版的话)。

所以你会看到“中文对话可能比英文对话贵”,就是因为有些AI对话产品会先将中文翻译成英文,翻译的过程是额外的开销。而国产大模型(如DeepSeek)会直接使用中文字词作为Token单位,没有翻译这一步,因此在中文对话场景下,不仅成本更低,而且速度更快、语义保留更完整。相比之下,依赖翻译路径的模型,除了多一层Token开销,还可能因为翻译误差丢失原意,尤其是中文里的成语、俗语、双关语。

上下文窗口——AI的“短期记忆”

AI能“记住”多少对话?取决于它的上下文窗口,也就是前面说到用于计算概率的输入条件。

你可以把上下文窗口想象成一个黑板。你和AI的每一次对话,都写在这个黑板上。黑板的大小有限,可能是32K Token(大约2-3万字中文),也可能是200K Token(大约15万字中文)。

当黑板写满了,最前面的内容就会被擦掉。所以:

  • 如果你和AI聊了很久,它“忘了”开头你说过的话,不是不尊重你,是黑板满了
  • 如果你把一整本书扔进去,AI可能“没看到”中间的某段,因为那段被挤出窗口了
  • 上下文窗口的位置也很重要,因为通常越靠近首尾的内容,AI“注意”得越多

推理——AI的“思考”

当我们说AI“推理”时,我们在说的不是人类的逻辑思考。

AI的“推理”是:把输入Token跑一遍神经网络,在每一层做矩阵乘法+非线性变换,最终输出一个新的Token。这个Token被加回输入,再跑一遍。如此循环,直到生成结束。

所以AI的“推理”更像是一台巨大的函数机器:输入一串数字,输出一串数字。只不过这台函数机器有几千亿个参数(可以理解为“旋钮”),旋钮调整得当,它输出的数字序列恰好对应一段有逻辑的话。

但这不意味着它“理解”了逻辑。它只是在大规模训练中学到了“当人们讨论逻辑时,他们通常这样说话”。

本章小结

AI是一个巨大的家族。大语言模型只是这个家族里最能说会道的那个孩子,它因为“语言”这个通用界面,成了全家的门面,但这不意味着它就是全家。

计算机视觉、语音技术、强化学习、具身智能、科学AI……它们和LLM共享一些底层技术(都在深度学习这个大框架下),但各自解决完全不同的问题。

认清这个格局的价值在于:

  • 你不会高估LLM。 它能写论文不代表它能写很好。
  • 你不会低估LLM。 当LLM搭配上工具、记忆和验证(后面几章会讲),它可以从“只会说话”变成“会做事”,甚至做的比人还好。
  • 你不会把“AI”这个词用成一个模糊的黑箱。 下次有人说“AI很危险”,你可以追问:你具体说的是哪种AI?

自查清单

在进入下一章之前,检查一下:

  • 我能说出AI、机器学习、深度学习、大语言模型这四个概念的包含关系
  • 我能举出至少三个“非LLM的AI应用”(比如:人脸识别、语音转文字、围棋AI、蛋白质预测)
  • 我理解为什么LLM成了AI的代言人(语言是通用界面+零使用门槛)
  • 我能用一句话解释Token是什么
  • 我理解LLM为什么会遗忘
  • 我知道LLM实际上是计算概率

参考链接

  1. Alex Krizhevsky, Ilya Sutskever & Geoffrey Hinton, "ImageNet Classification with Deep Convolutional Neural Networks", NeurIPS 2012. https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks
  2. Alec Radford et al., "Improving Language Understanding by Generative Pre-Training", OpenAI, 2018. 
  3. OpenAI, "GPT-4 Technical Report", arXiv:2303.08774, 2023. https://arxiv.org/abs/2303.08774
  4. AlphaFold 2 获2024年诺贝尔化学奖, https://www.nobelprize.org/prizes/chemistry/2024/press-release/
  5. 机器学习(周志华), 清华大学出版社
  6. 动手学深度学习(李沐等), 人民邮电出版社, https://zh.d2l.ai/

理解了AI的版图,下一个问题是:既然LLM能说会道,为什么它总是曲解你的意思?我们要钻进概率引擎里面去看一看。

下一章:AI为什么不懂你

更多文章

第一章:AI ≠ 大语言模型

一个被忽略的常识 如果我让你说出一个“AI”的名字,你脱口而出的多半是 ChatGPT、豆包、Claude、Kimi,或者你手机里那个智能助手。 这很正常。过去三年,“大语言模型”和“生成式AI”铺天盖地,好不热闹。但这不正常的地方在于:很多人开始觉得AI = 聊天“机器人”。 当然,AI肯定不是聊天“机器人”,能聊天的“机器人”也不是“机器人”。 这不是一个词义辨析的游戏。这是一个认知错误:它会…

资料库 2026-05-17
第一章:AI ≠ 大语言模型
回到顶部