引言
AI人工智能中的各个名词解读。
推理服务是什么?
GPT、DeepSeek 这类大模型本质上就是个超大文件,它躺在磁盘上,文件里装的就是训练时学到的知识参数。要让它工作,得有个程序把它加载到内存里,对外暴露 HTTP 接口,接收用户请求做推理返回结果,这就是推理服务。给它配个前端网页聊天框,就成了我们熟悉的聊天 AI。
Memory 是什么?
推理服务本质是个 HTTP 服务,每个请求进来处理完就结束,本身不保存任何状态。而且为了扛住高并发,一般会部署多个推理服务实例做负载均衡。你第1次请求可能打到机器A,第2次请求可能打到机器B,完全是两个不同的进程。
但问题来了:我们在 AI 聊天页面里明显感觉它能记得我们之前的对话,这是怎么做到的?
其实大模型本身什么都不记得。每次请求时,系统会把之前的聊天记录重新拼到对话里,一起发给大模型。这些拼起来发给大模型的内容统称上下文(Context)。大模型看到完整上下文,自然就能接上话了。
但问题又来了:如果每次请求都把所有历史对话发出去,上下文会超长大模型处理不了,怎么办呢?
我们可以分两类管理:当前会话最近几轮对话完整保存,这叫短期记忆。很久之前的对话提取关键信息压缩成摘要,这叫长期记忆。每次请求时都将它们拼成对话发给大模型,这样大模型看起来就像有记忆一样。
这套管理上下文的机制就叫 Memory。
RAG 是什么?
有了记忆,大模型就能记住历史对话了。但新问题又来了:大模型的训练数据都是从互联网上抓的,历史公开数据训练完成后知识就固定了。你问它今天的新闻或公司内部文档,它根本不可能知道,怎么办?
给它配个外部知识库,里面可以放最新新闻、公司内部文档。这些资料数据量大的话就存到数据库里。用户提问时,先从数据库里做匹配,获得相关知识,再一起喂给大模型。大模型就能基于这些外部知识回答。
这种检索外部知识给到大模型做回答的方案,就是检索增强生成(Retrieval Augmented Generation),简称 RAG。
但问题又来了:传统数据库只能做字面匹配。但土豆、马铃薯、洋芋虽然意思一样,字面却完全不同,匹配不到怎么办呢?
我们可以把文本转成向量,用向量距离衡量语义相似度,这样语义相近的文本就能匹配上了。所以 RAG 用的数据库里存的是向量数据,这种数据库也叫向量数据库,比如 Milvus。数据量不大的话,也可以用我们的老朋友 PostgreSQL。
MCP 是什么?
有了 Memory 和 RAG 的加持,大模型能记住历史聊天和获取外部知识了。但新问题又来了:现在大模型只能对话和思考,就像光有大脑没有手脚,怎么让它具备操作工具的能力呢?
好办。我们可以在对话里约定一种消息格式。外部先告诉大模型有哪些工具可用,格式像这样。大模型想用工具时,输出一段特定格式,格式比如发邮件,里面写清楚发给谁和发什么。外部收到消息后执行发送邮件,完成后将返回的结果再回喂给大模型。大模型就能基于工具执行结果生成最终回复。
这种让大模型通过结构化消息来调用外部工具的方式,在工程上可以被抽象成一套协议规范,也就是 Model Context Protocol,简称 MCP 协议。
这个在外部负责解析格式并操作工具的程序,就是 MCP 后端。比如我们用来写代码的 Cursor、Claude Code,能被调用的具体工具就叫 MCP 插件。MCP 插件还可以拆分成本地的 MCP Client 和远端的 MCP Server。比如 GitHub MCP 插件,本地的 MCP Client 负责接收调用请求,远端的 MCP Server 部署在 GitHub 服务器上,真正执行 GitHub API 操作。
Skills 是什么?
MCP 协议和插件解决了工具调用问题,但新问题又来了:这么多插件,大模型怎么知道该按什么顺序用、怎么组合用呢?
这就好比给了一个大学生一堆钳子扳手,他也不一定能修好车,他缺的是经验和流程。那好办,我们可以写一份操作手册,里面详细说明遇到什么场景用什么工具,先做什么后做什么,有什么注意事项。这份结构化的操作指南就叫 Skills。
以排查线上事故为例:MCP 只是把查监控、查日志、查配置、回滚版本这些工具能力给到大模型;而排查问题 Skills 则明确规定了:先看监控判断影响范围,再查日志和配置定位模块,必要时执行回滚,这一整套固定流程。
换句话说:大模型就像大脑,负责思考和决策;MCP 协议就像神经系统,让大脑能连接并指挥外部工具;MCP 插件就是手上的工具,如钳子、扳手、螺丝刀……具体能力;而 Skills 是操作经验,规定在什么场景下按什么顺序组合使用哪些工具。
AI Agent 是什么?
大模型本来就能思考和规划。给它加上了 Memory,让它能记住历史;加上 RAG,让它能获取外部知识;加上 MCP 和 Skills,让它能操作工具。它们共同构成了一个在某些功能上能代替人类自主行动完成目标的 AI 系统,又叫 AI Agent。
它本质上就是一个智能工具。人通过提示词设定角色,它可以是智能客服、程序员、私人律师等各种角色,听从你的指令完成任务。
最近很火的 Claude Code 其实本质上就是个帮你自动操作电脑的 AI Agent。你能用电脑干什么,它就能干什么——比如发邮件、投简历,甚至做交易。所以权限安全是个大问题。
客观地说,Claude Code 做的事情并没有技术上的突破。它跟前段时间很火的 Manus 其实是类似的产品,只不过 Claude Code 主要面向本地电脑,Manus 考虑到安全问题,它将操作环境放到远端虚拟机里。
如果将 Claude Code 部署到远端服务器上,就有点开源版 Manus 那味道了。安不安全是用户该考虑的问题,Claude Code 只管开源。