AI Agent与LLM核心术语解释手册：从入门到精通

AI 2026-03-01 2

人工智能技术的飞速发展带来了大量的专业术语，对于刚刚接触这一领域的开发者、产品经理或企业决策者来说，这些概念常常令人困惑。本文将系统梳理AI Agent（智能体）和大语言模型（LLM）领域的核心术语，按照从基础到应用的逻辑，为您提供一份清晰易懂的解释指南。

一、基础概念篇

1. 大语言模型（LLM，Large Language Model）

定义：大语言模型是一种基于深度学习的大规模神经网络模型，通常采用Transformer架构，能够理解和生成人类语言。它通过在海量文本数据上训练，学习语言的复杂模式、语法规则和知识。

通俗理解：可以把LLM想象成一个“超级文字接龙游戏”——它根据你输入的文本（提示词），预测接下来最应该出现的文字是什么，并逐字生成完整的回答。目前业界领先的模型参数量已达到万亿级别，如DeepSeek R1（671B参数）、GPT-4等。

关键特征：LLM的核心优势在于其强大的语言理解和生成能力，能够执行各种语言任务，如文本生成、问答、摘要、翻译等。当模型规模扩大到一定程度时，会表现出涌现能力——即出现训练时未明确教授的新能力。

2. Transformer架构

定义：由Google团队在2017年论文《Attention Is All You Need》中提出的神经网络架构，现已成为大语言模型的主流架构。它完全基于自注意力机制，摒弃了传统的循环和卷积结构。

核心优势：能够高效处理序列数据中的长距离依赖关系，并支持高度并行化计算。这使得Transformer可以同时关注输入文本中的所有位置，而不是像早期模型那样逐词处理，大大提升了训练效率和理解能力。

3. Token（词元/标记）

定义：大模型处理文本的基本单位，是语言中有独立含义的最小实体。原始文本需要被分割成一系列标准化的Token后才能输入模型。

实际换算：在英文中，1个Token约等于4个字符或0.75个单词；100个Token约等于75个单词。一个中文字符约占0.6个Token。模型的“上下文窗口”大小（如8K、128K）即指最大支持的Token数量。

4. 参数量（Parameters）

定义：衡量大模型规模的重要指标，指模型中可调节的数值总数，这些参数通过训练不断优化以提升模型性能。参数通常以B（Billion，十亿）为单位，如175B表示1750亿参数。

规模效应：参数量的增长与模型能力呈现正相关关系。更大的参数量通常意味着模型可以学习更复杂的模式和存储更多的知识，但也带来了更高的计算资源需求和训练成本。

5. 上下文窗口（Context Window）

定义：AI模型在一次处理中能够容纳的最大文本量（以Token数衡量），可以理解为AI的“工作记忆”容量。例如，一个200K Token的上下文窗口大约可以容纳15万单词——相当于300页书的內容。

重要性：上下文窗口决定了模型处理长文档或维持长对话的能力。任何超出窗口范围的信息都不会被模型考虑。

6. 涌现（Emergence）

定义：指大语言模型在达到一定规模后，突然表现出新能力或性能显著提升的现象，这些能力在较小规模模型中并不明显。例如，当模型规模达到特定阈值后，在多步算术、复杂推理等任务上的准确性会突然显著提升。

7. 幻觉（Hallucination）

定义：当AI生成听起来合理但实际上不正确或虚构的信息时，称为幻觉。这可以包括不存在的API端点、错误的语法、虚构的事实等。

如何避免：使用检索增强生成（RAG）技术，让AI基于具体、可验证的数据源生成回答，可以有效减少幻觉。

8. 推理（Inference）

定义：AI模型根据输入生成响应的过程。每次你发送提示词并获得回复，就是一次推理。

二、AI智能体（Agent）核心概念

9. AI智能体（AI Agent）

定义：智能体是指能够感知环境并采取行动以实现特定目标的代理体。它将大语言模型作为核心计算引擎，实现感知、规划、行动的闭环工作流程。简单来说，AI Agent = LLM + 任务规划 + 上下文记忆 + 工具调用。

通俗理解：就像你聘请了一位代理律师——他/她以你的名义、在你的授权范围内处理相关事宜。AI Agent能理解任务目标、感知环境信息、自主决策并执行行动，最终完成任务。

与Chatbot的区别：传统Chatbot的核心目标是语言交互（回答、对话），而AI Agent的核心目标是完成任务、自主决策。Chatbot像一位博闻强记的图书管理员，能复述知识但难以自主行动；Agent则像一位能干的助理，可以替你完成复杂任务。

10. 工具调用 / 函数调用（Tool Calling / Function Calling）

定义：大语言模型调用外部函数、工具或API的能力，基于用户请求和对话上下文。这使得AI能够执行文本生成之外的实际操作，如数据检索、数学计算、API交互等。

工作原理：模型检测到需要使用工具时，返回相关工具和参数；开发者根据这些信息调用实际的方法；将工具返回值附加到请求中再次请求模型，最终得出结果。例如，查询天气时，模型会调用天气API获取实时数据再回答用户。

11. 思维链（Chain of Thought，CoT）

定义：一种提示技术，鼓励语言模型在给出最终答案之前，逐步解释其推理过程。它旨在将逻辑复杂的问题进行拆解，通过一系列有逻辑关系的思考形成完整的推理链。

价值：思维链能显著提高模型处理复杂问题的准确性，也让模型的决策过程更加透明、可验证。例如，解决数学应用题时，模型会先列出已知条件、写出中间计算步骤，再给出最终答案。

12. 规划（Planning）

定义：智能体的“思维模型”，负责将复杂任务拆解为可执行的子任务，并评估执行策略。通过大模型提示工程（如ReAct、CoT推理模式）实现，使智能体能够精准拆解任务，分步解决。

13. 记忆（Memory）

定义：智能体存储和回忆信息的机制，包括短期记忆和长期记忆：

短期记忆：存储当前会话上下文，支持多轮对话（通常随会话结束而清除）

长期记忆：存储用户偏好、业务数据等，通常通过向量数据库持久化，可在后续交互中检索使用

14. 自主性（Autonomy）

定义：AI智能体独立运作、无需持续人工监督即可做出决策的能力。自主性使智能体能够根据变化的条件和反馈来规划、执行和调整行为。

15. 多智能体系统（Multi-Agent System）

定义：由在一个环境中交互的多个智能体组成的计算系统，能解决单个智能体难以处理的复杂问题。多智能体系统实现智能体之间的通信、信息交换和任务协作。

智能体辩论（Agent Debate）：一种创新协作架构，让多个智能体通过多轮“辩论”迭代优化结论，最终通过群体决策输出高质量结果。

三、训练与优化技术篇

16. 预训练（Pre-training）

定义：大语言模型开发的第一个关键阶段，在大规模通用数据集上对模型进行初步训练。模型通过处理海量文本数据（互联网公开文本、书籍、论文等），学习语言的基本规律、语法结构和常识知识。

方法：通常采用自监督学习，如让模型预测被遮挡的词（掩码语言建模）或预测下一个词（因果语言建模）。

17. 微调（Fine-tuning）

定义：在预训练模型基础上，使用特定领域或任务的数据进一步训练模型的过程。针对预训练模型的部分或全部参数，使用较小规模但更有针对性的数据集进行调整，使模型更好地适应特定应用场景。

常见方法：包括全参数微调（调整所有参数）和参数高效微调（如LoRA，只调整少量额外参数）。

18. RLHF（基于人类反馈的强化学习）

定义：Reinforcement Learning from Human Feedback，一种将人类价值观和偏好融入大语言模型的训练方法。模型基于正面和负面的人类反馈进行更新，使其输出更符合人类期望。

地位：这是GPT-3后时代大语言模型越来越像人类对话的核心技术。

19. 温度（Temperature）

定义：控制生成文本随机性和多样性的关键参数。它通过调整模型输出的概率分布，直接影响生成内容的“保守”或“冒险”程度。

典型设置：

低温度（0.0-0.3）：输出更聚焦、一致、可预测——适合代码生成、数学解题

中等温度（1.0左右）：通用对话、翻译等场景

高温度（0.7-1.5）：输出更具创意、多样、探索性——适合创意写作、诗歌创作

20. 少样本学习（Few-shot Learning）

定义：模型从少量示例中学习执行任务的能力。通过在提示词中提供几个输入输出示例，引导模型理解所需输出格式和风格，无需进行微调。

零样本学习（Zero-shot Learning）：模型能够泛化并响应从未见过的输入，这是大语言模型的核心价值之一。

四、应用与架构篇

21. 提示词（Prompt）

定义：用户输入给LLM的内容，模型基于此生成响应。提示词可以是一个问题、一条指令，或一个请求。

系统提示词（System Prompt）：指导AI行为和角色的背景指令，用户通常看不见，但它们告诉AI如何回应（例如“你是一名电商客服专家”“请简洁回答”）。

22. 提示工程（Prompt Engineering）

定义：设计和格式化输入，使LLM能够理解并产生期望输出的优化方法。清晰、具体的提示词比模糊的提示词能获得更好的结果。

23. 检索增强生成（RAG，Retrieval-Augmented Generation）

定义：一种结合检索和生成技术的模型架构。在生成响应前，先从外部知识库中检索相关信息，再将这些信息与用户查询一起输入LLM，生成更准确、可溯源的回答。

优势：使模型能够访问最新、可引证和可靠的数据，超越原始训练集的范围，有效减少幻觉，提高回答的可信度。

知识库（Knowledge Base）：为RAG提供外部事实性信息的数据集合，可来自企业文档、FAQ、数据库等。

24. MCP（模型上下文协议）

定义：Model Context Protocol，一种将AI助手连接到外部工具和数据源的开放标准。MCP服务器暴露能力（如数据库访问、Azure DevOps、时间跟踪等），AI助手可以使用这些能力。

价值：MCP是工具接入的标准化协议，实现工具与Agent的解耦。接入MCP后，Agent无需为每个工具编写调用代码，只需注册MCP Server即可。

25. 嵌入（Embedding）

定义：文本的数值（向量）表示。通过文本嵌入模型将文本块转换为数值向量的过程，就是生成嵌入。这些向量捕捉词元的语义和句法信息，使意义相近的词在向量空间中距离也相近。

应用：用于语义搜索、信息检索、文本相似度计算等。例如，搜索“客户过账”会找到关于“过账客户交易”的内容，即使没有精确匹配的词语。

26. 护栏（Guardrails）

定义：防止AI系统生成有害或不适当内容的安全机制。包括内容过滤、输出验证和行为约束，确保AI响应符合安全准则和组织政策。

27. 编排（Orchestration）

定义：对多个自主AI智能体进行结构化管理和协调，以实现共同目标。与孤立运行的单个智能体不同，编排将它们集成到统一系统中，使它们能够高效通信、交换信息并协作处理复杂任务。

28. A2A（智能体间通信协议）

定义：Agent-to-Agent，指实现AI智能体之间直接交互和协调的通信协议和框架。A2A系统支持多智能体之间的信息共享、任务委派和协同解决问题。

29. LangChain / Dify / Langfuse

定义：大模型应用开发框架和工具：

LangChain：帮助开发人员使用语言模型构建端到端应用程序的强大框架，提供工具、组件和接口

Dify：开源LLM应用开发平台，提供可视化界面和API，支持提示编排、知识库管理、Agent编排等功能

Langfuse：开源的LLM应用可观测性平台，用于追踪、评估和调试基于大语言模型的应用

五、总结与学习建议

对于刚开始接触AI Agent和LLM领域的朋友，不必急于掌握所有术语。建议从以下核心概念开始：

核心概念一句话理解

LLM AI的“大脑”，负责理解和生成语言

Prompt 你对AI说的话

Token AI处理文本的计数单位

上下文窗口 AI能记住的信息量上限

幻觉 AI编造看起来合理但不正确的内容

工具调用 AI能做的不只是说话，还能采取行动

RAG 让AI基于你提供的最新资料回答问题，减少胡说八道

智能体能自主思考、规划并执行任务的AI系统

随着您在实际工作中与AI助手互动、开发AI应用，这些术语会自然地融入您的知识体系。最重要的是理解如何有效沟通（提示工程），以及何时需要验证AI的建议（防范幻觉）