从零构建 AI Agent：LLM 大模型应用开发实践

Building AI Agent from Scratch: LLM-based Application Development In Action

陈光剑编著

AI 天才研究院 / AI Genius Institute, 2024

从零构建 AI Agent：LLM 大模型应用开发实践

Building-AI-Agent-from-Scratch-LLM-based-Application-Development-Practice

陈光剑编著

前言

前言.md

第一部分：AI Agent 基础

第1章：AI Agent 概述

第1章：AI Agent 概述.md

1.1 什么是 AI Agent

1.1.1 AI Agent 的定义

1.1.2 AI Agent 的特征

1.1.3 AI Agent 与传统 AI 系统的区别

1.2 AI Agent 的发展历程

1.2.1 早期 AI Agent 研究

1.2.2 机器学习时代的 AI Agent

1.2.3 大语言模型驱动的 AI Agent

1.3 AI Agent 的应用场景

1.3.1 智能助手

1.3.2 自动化任务执行

1.3.3 决策支持系统

1.4 AI Agent 的核心组件

1.4.1 感知模块

1.4.2 推理与决策模块

1.4.3 执行模块

1.4.4 学习与适应模块

第2章：大语言模型（LLM）基础

第2章：大语言模型（LLM）基础.md

2.1 LLM 概述

2.1.1 LLM 的定义与特点

2.1.2 主流 LLM 模型介绍

2.1.3 LLM 的能力与局限性

2.2 LLM 的工作原理

2.2.1 Transformer 架构

2.2.2 自注意力机制

2.2.3 预训练与微调

2.3 LLM 的应用方式

2.3.1 零样本学习

2.3.2 少样本学习

2.3.3 提示工程

2.4 LLM 评估指标

2.4.1 困惑度（Perplexity）

2.4.2 BLEU 分数

2.4.3 人工评估方法

第二部分：AI Agent 设计与实现

第3章：AI Agent 架构设计

第3章：AI Agent 架构设计.md

3.1 AI Agent 总体架构

3.1.1 模块化设计原则

3.1.2 数据流与控制流

3.1.3 可扩展性考虑

3.2 输入处理模块

3.2.1 自然语言理解

3.2.2 多模态输入处理

3.2.3 上下文管理

3.3 任务规划模块

3.3.1 目标分解

3.3.2 任务优先级排序

3.3.3 资源分配

3.4 知识检索模块

3.4.1 知识库设计

3.4.2 检索算法选择

3.4.3 结果排序与筛选

3.5 推理与决策模块

3.5.1 基于规则的推理

3.5.2 基于 LLM 的推理

3.5.3 混合推理策略

3.6 输出生成模块

3.6.1 自然语言生成

3.6.2 多模态输出生成

3.6.3 输出质量控制

第4章：LLM 集成与优化

第4章：LLM 集成与优化.md

4.1 LLM 选型

4.1.1 开源 vs 闭源模型

4.1.2 通用模型 vs 领域特定模型

4.1.3 性能与资源需求评估

4.2 LLM 微调技术

4.2.1 全量微调

4.2.2 适配器微调

4.2.3 提示微调

4.3 LLM 加速技术

4.3.1 模型量化

4.3.2 模型剪枝

4.3.3 知识蒸馏

4.4 LLM 推理优化

4.4.1 批处理推理

4.4.2 动态形状优化

4.4.3 模型并行与流水线并行

4.5 LLM 部署方案

4.5.1 本地部署

4.5.2 云端部署

4.5.3 边缘计算部署

第5章：知识库构建与管理

第5章：知识库构建与管理.md

5.1 知识表示方法

5.1.1 符号化表示

5.1.2 向量化表示

5.1.3 混合表示

5.2 知识获取与更新

5.2.1 人工编辑

5.2.2 自动抽取

5.2.3 持续学习

5.3 知识存储技术

5.3.1 关系型数据库

5.3.2 图数据库

5.3.3 向量数据库

5.4 知识检索算法

5.4.1 关键词匹配

5.4.2 语义检索

5.4.3 混合检索策略

5.5 知识融合与推理

5.5.1 实体对齐

5.5.2 关系推理

5.5.3 知识图谱补全

第6章：对话管理与任务执行

第6章：对话管理与任务执行.md

6.1 对话状态跟踪

6.1.1 槽位填充

6.1.2 意图识别

6.1.3 上下文管理

6.2 对话策略学习

6.2.1 基于规则的策略

6.2.2 强化学习方法

6.2.3 混合策略

6.3 自然语言生成

6.3.1 基于模板的方法

6.3.2 基于 LLM 的生成

6.3.3 控制生成的一致性和多样性

6.4 任务规划与分解

6.4.1 目标分析

6.4.2 子任务生成

6.4.3 执行顺序优化

6.5 外部工具集成

6.5.1 API 调用

6.5.2 脚本执行

6.5.3 错误处理与重试机制

第三部分：AI Agent 应用开发

第7章：智能助手开发实践

第7章：智能助手开发实践.md

7.1 需求分析与系统设计

7.1.1 用户需求调研

7.1.2 功能模块划分

7.1.3 系统架构设计

7.2 对话流程设计

7.2.1 多轮对话管理

7.2.2 意图识别与槽位填充

7.2.3 上下文理解与维护

7.3 知识库构建

7.3.1 领域知识收集

7.3.2 知识结构化与存储

7.3.3 知识更新机制

7.4 LLM 集成与优化

7.4.1 模型选择与微调

7.4.2 提示工程最佳实践

7.4.3 输出质量控制

7.5 多模态交互实现

7.5.1 语音识别与合成

7.5.2 图像识别与生成

7.5.3 多模态融合策略

7.6 个性化与学习机制

7.6.1 用户画像构建

7.6.2 个性化推荐

7.6.3 反馈学习与持续优化

第8章：任务自动化 Agent 开发实践

第8章：任务自动化 Agent 开发实践.md

8.1 系统需求与架构设计

8.1.1 自动化需求分析

8.1.2 任务类型与流程梳理

8.1.3 系统模块设计

8.2 任务理解与规划

8.2.1 自然语言指令解析

8.2.2 任务可行性分析

8.2.3 子任务生成与排序

8.3 执行环境集成

8.3.1 操作系统接口

8.3.2 应用程序 API 集成

8.3.3 网络爬虫与数据采集

8.4 LLM 辅助决策

8.4.1 不确定性处理

8.4.2 异常情况应对

8.4.3 结果验证与纠错

8.5 执行监控与报告

8.5.1 实时状态跟踪

8.5.2 执行日志与数据收集

8.5.3 结果分析与报告生成

8.6 安全性与权限管理

8.6.1 身份认证与授权

8.6.2 敏感操作保护

8.6.3 审计与合规性保障

第9章：创意生成 Agent 开发实践

第9章：创意生成 Agent 开发实践.md

9.1 创意生成系统设计

9.1.1 创意领域定义

9.1.2 生成流程设计

9.1.3 评估指标确立

9.2 灵感源与知识库构建

9.2.1 多源数据采集

9.2.2 创意元素提取

9.2.3 知识图谱构建

9.3 LLM 创意生成技术

9.3.1 条件生成方法

9.3.2 风格迁移技术

9.3.3 多样性增强策略

9.4 创意评估与筛选

9.4.1 新颖性评估

9.4.2 实用性分析

9.4.3 市场潜力预测

9.5 人机协作创意优化

9.5.1 反馈收集机制

9.5.2 交互式创意迭代

9.5.3 创意组合与融合

9.6 创意展示与应用

9.6.1 多模态创意呈现

9.6.2 创意原型快速生成

9.6.3 版权保护与管理

第四部分：AI Agent 高级主题

第10章：多 Agent 协作系统

第10章：多 Agent 协作系统.md

10.1 多 Agent 系统架构

10.1.1 集中式 vs 分布式架构

10.1.2 角色定义与分工

10.1.3 通信协议设计

10.2 任务分配与协调

10.2.1 任务分解策略

10.2.2 负载均衡算法

10.2.3 冲突检测与解决

10.3 知识共享与同步

10.3.1 分布式知识库

10.3.2 知识一致性维护

10.3.3 增量学习与知识传播

10.4 集体决策机制

10.4.1 投票算法

10.4.2 拍卖机制

10.4.3 共识算法

10.5 多 Agent 学习

10.5.1 协作强化学习

10.5.2 对抗性学习

10.5.3 元学习在多 Agent 系统中的应用

第11章：Agent 的可解释性与透明度

第11章：Agent 的可解释性与透明度.md

11.1 可解释 AI 概述

11.1.1 可解释性的重要性

11.1.2 可解释性评估标准

11.1.3 法律与伦理考虑

11.2 LLM 决策过程可视化

11.2.1 注意力机制可视化

11.2.2 token 影响分析

11.2.3 决策树生成

11.3 推理路径重构

11.3.1 中间步骤生成

11.3.2 逻辑链提取

11.3.3 反事实解释

11.4 知识溯源

11.4.1 知识来源标注

11.4.2 置信度评估

11.4.3 不确定性量化

11.5 可解释性与性能平衡

11.5.1 解释粒度调整

11.5.2 按需解释策略

11.5.3 解释压缩技术

第12章：Agent 安全与隐私保护

第12章：Agent 安全与隐私保护.md

12.1 AI 安全威胁分析

12.1.1 数据投毒攻击

12.1.2 对抗性攻击

12.1.3 模型逆向与窃取

12.2 隐私保护技术

12.2.1 差分隐私

12.2.2 联邦学习

12.2.3 安全多方计算

12.3 对抗性防御策略

12.3.1 输入净化

12.3.2 对抗性训练

12.3.3 模型集成防御

12.4 安全开发实践

12.4.1 安全编码规范

12.4.2 漏洞检测与修复

12.4.3 安全审计与测试

12.5 合规性与伦理考虑

12.5.1 数据处理合规

12.5.2 算法公平性

12.5.3 伦理决策框架

第13章：Agent# 第13章：Agent 的持续学习与适应

第13章：Agent 的持续学习与适应.md

13.1 在线学习机制

13.1.1 增量学习算法

13.1.2 概念漂移检测

13.1.3 模型更新策略

13.2 主动学习技术

13.2.1 不确定性采样

13.2.2 多样性采样

13.2.3 代表性采样

13.3 迁移学习与域适应

13.3.1 跨域知识迁移

13.3.2 零样本与少样本学习

13.3.3 元学习方法

13.4 自监督学习

13.4.1 对比学习

13.4.2 掩码预测任务

13.4.3 数据增强技术

13.5 终身学习系统设计

13.5.1 可塑性与稳定性平衡

13.5.2 灾难性遗忘缓解

13.5.3 知识积累与整合机制

第14章：Agent 性能评估与优化

第14章：Agent 性能评估与优化.md

14.1 评估指标体系

14.1.1 任务完成质量

14.1.2 响应时间与吞吐量

14.1.3 资源利用效率

14.2 基准测试设计

14.2.1 多样化场景构建

14.2.2 难度递进测试集

14.2.3 长尾case覆盖

14.3 A/B测试最佳实践

14.3.1 实验设计方法

14.3.2 统计显著性分析

14.3.3 线上评估与监控

14.4 性能瓶颈分析

14.4.1 计算密集型优化

14.4.2 内存密集型优化

14.4.3 I/O密集型优化

14.5 扩展性优化

14.5.1 水平扩展架构

14.5.2 负载均衡策略

14.5.3 分布式缓存技术

第15章：Agent 的商业化与部署

第15章：Agent 的商业化与部署.md

15.1 商业模式设计

15.1.1 价值主张分析

15.1.2 收入模式选择

15.1.3 成本结构优化

15.2 市场定位与差异化

15.2.1 目标用户画像

15.2.2 竞品分析

15.2.3 独特卖点提炼

15.3 规模化部署方案

15.3.1 云原生架构设计

15.3.2 容器化与编排

15.3.3 多区域部署策略

15.4 运维自动化

15.4.1 持续集成与部署(CI/CD)

15.4.2 监控告警系统

15.4.3 自动伸缩与故障转移

15.5 用户反馈与迭代优化

15.5.1 用户行为分析

15.5.2 反馈收集机制

15.5.3 快速迭代流程

第五部分：前沿探索与未来展望

第16章：多模态 Agent

第16章：多模态 Agent.md

16.1 多模态感知技术

16.1.1 计算机视觉集成

16.1.2 语音识别与合成

16.1.3 触觉反馈处理

16.2 跨模态学习方法

16.2.1 模态对齐技术

16.2.2 模态融合策略

16.2.3 模态转换生成

16.3 多模态交互设计

16.3.1 自然用户界面

16.3.2 情境感知交互

16.3.3 多通道反馈机制

16.4 多模态应用场景

16.4.1 智能家居控制

16.4.2 虚拟现实助手

16.4.3 多模态教育系统

第17章：情感与社交 Agent

第17章：情感与社交 Agent.md

17.1 情感计算基础

17.1.1 情感识别技术

17.1.2 情感建模方法

17.1.3 情感生成策略

17.2 社交技能模拟

17.2.1 对话风格适应

17.2.2 非语言行为生成

17.2.3 社交规则学习

17.3 个性化交互

17.3.1 用户画像构建

17.3.2 偏好学习与推荐

17.3.3 长期关系维护

17.4 群体交互动态

17.4.1 多人对话管理

17.4.2 角色扮演与协调

17.4.3 群体情绪调节

第18章：自主学习与创新 Agent

第18章：自主学习与创新 Agent.md

18.1 好奇心驱动学习

18.1.1 内在动机建模

18.1.2 探索策略设计

18.1.3 新颖性评估方法

18.2 创造性问题解决

18.2.1 类比推理技术

18.2.2 概念融合与重组

18.2.3 启发式搜索策略

18.3 假设生成与验证

18.3.1 科学发现模拟

18.3.2 实验设计自动化

18.3.3 理论构建与修正

18.4 元认知与自我改进

18.4.1 性能自评估

18.4.2 学习策略调整

18.4.3 架构自优化

第19章：Agent 与人类协作的未来

第19章：Agent 与人类协作的未来.md

19.1 人机协作模式演进

19.1.1 辅助决策到联合决策

19.1.2 任务分配优化

19.1.3 知识互补与共创

19.2 增强人类能力

19.2.1 认知增强技术

19.2.2 创造力激发工具

19.2.3 个性化学习助手

19.3 伦理与社会影响

19.3.1 就业结构变革

19.3.2 教育体系重构

19.3.3 人际关系重塑

19.4 监管与治理挑战

19.4.1 责任归属问题

19.4.2 隐私与安全平衡

19.4.3 国际协调与标准制定

第20章：迈向通用人工智能

第20章：迈向通用人工智能.md

20.1 AGI的定义与特征

20.1.1 多任务学习与泛化

20.1.2 抽象推理能力

20.1.3 自主目标设定

20.2 AGI架构探索

20.2.1 认知架构研究

20.2.2 神经符号融合系统

20.2.3 元学习与适应性框架

20.3 AGI的评估与测试

20.3.1 通用智能测试设计

20.3.2 长期互动评估

20.3.3 安全性与稳定性验证

20.4 AGI的伦理与控制

20.4.1 价值对齐问题

20.4.2 可解释性与透明度

20.4.3 失控风险防范

20.5 后AGI时代展望

20.5.1 智能爆炸假说

20.5.2 人机共生社会

20.5.3 宇宙尺度计算

附录

附录.md

附录A：工具与资源

附录B：数学基础

附录C：术语表

附录D：参考文献

索引

后记

后记.md

关于作者

致谢

捐赠：AI天才研究院

Donate to AI Genius Institute:

微信	支付宝

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
static		static
.gitignore		.gitignore
HELP		HELP
LICENSE		LICENSE
README.md		README.md
touch.sh		touch.sh
全书目录.md		全书目录.md
前言.md		前言.md
后记.md		后记.md
第10章：多 Agent 协作系统.md		第10章：多 Agent 协作系统.md
第11章：Agent 的可解释性与透明度.md		第11章：Agent 的可解释性与透明度.md
第12章：Agent 安全与隐私保护.md		第12章：Agent 安全与隐私保护.md
第13章：Agent 的持续学习与适应.md		第13章：Agent 的持续学习与适应.md
第14章：Agent 性能评估与优化.md		第14章：Agent 性能评估与优化.md
第15章：Agent 的商业化与部署.md		第15章：Agent 的商业化与部署.md
第16章：多模态 Agent.md		第16章：多模态 Agent.md
第17章：情感与社交 Agent.md		第17章：情感与社交 Agent.md
第18章：自主学习与创新 Agent.md		第18章：自主学习与创新 Agent.md
第19章：Agent 与人类协作的未来.md		第19章：Agent 与人类协作的未来.md
第1章：AI Agent 概述.md		第1章：AI Agent 概述.md
第20章：迈向通用人工智能.md		第20章：迈向通用人工智能.md
第2章：大语言模型（LLM）基础.md		第2章：大语言模型（LLM）基础.md
第3章：AI Agent 架构设计.md		第3章：AI Agent 架构设计.md
第4章：LLM 集成与优化.md		第4章：LLM 集成与优化.md
第5章：知识库构建与管理.md		第5章：知识库构建与管理.md
第6章：对话管理与任务执行.md		第6章：对话管理与任务执行.md
第7章：智能助手开发实践.md		第7章：智能助手开发实践.md
第8章：任务自动化 Agent 开发实践.md		第8章：任务自动化 Agent 开发实践.md
第9章：创意生成 Agent 开发实践.md		第9章：创意生成 Agent 开发实践.md
附录.md		附录.md

License

yq1320/AI-Agent-In-Action

Folders and files

Latest commit

History

Repository files navigation

从零构建 AI Agent：LLM 大模型应用开发实践

从零构建 AI Agent：LLM 大模型应用开发实践

前言

第一部分：AI Agent 基础

第1章：AI Agent 概述

1.1 什么是 AI Agent

1.1.1 AI Agent 的定义

1.1.2 AI Agent 的特征

1.1.3 AI Agent 与传统 AI 系统的区别

1.2 AI Agent 的发展历程

1.2.1 早期 AI Agent 研究

1.2.2 机器学习时代的 AI Agent

1.2.3 大语言模型驱动的 AI Agent

1.3 AI Agent 的应用场景

1.3.1 智能助手

1.3.2 自动化任务执行

1.3.3 决策支持系统

1.4 AI Agent 的核心组件

1.4.1 感知模块

1.4.2 推理与决策模块

1.4.3 执行模块

1.4.4 学习与适应模块

第2章：大语言模型（LLM）基础

2.1 LLM 概述

2.1.1 LLM 的定义与特点

2.1.2 主流 LLM 模型介绍

2.1.3 LLM 的能力与局限性

2.2 LLM 的工作原理

2.2.1 Transformer 架构

2.2.2 自注意力机制

2.2.3 预训练与微调

2.3 LLM 的应用方式

2.3.1 零样本学习

2.3.2 少样本学习

2.3.3 提示工程

2.4 LLM 评估指标

2.4.1 困惑度（Perplexity）

2.4.2 BLEU 分数

2.4.3 人工评估方法

第二部分：AI Agent 设计与实现

第3章：AI Agent 架构设计

3.1 AI Agent 总体架构

3.1.1 模块化设计原则

3.1.2 数据流与控制流

3.1.3 可扩展性考虑

3.2 输入处理模块

3.2.1 自然语言理解

3.2.2 多模态输入处理

3.2.3 上下文管理

3.3 任务规划模块

3.3.1 目标分解

3.3.2 任务优先级排序

3.3.3 资源分配

3.4 知识检索模块

3.4.1 知识库设计

3.4.2 检索算法选择

3.4.3 结果排序与筛选

3.5 推理与决策模块

3.5.1 基于规则的推理

3.5.2 基于 LLM 的推理

3.5.3 混合推理策略

3.6 输出生成模块

3.6.1 自然语言生成

3.6.2 多模态输出生成

3.6.3 输出质量控制

第4章：LLM 集成与优化

4.1 LLM 选型

4.1.1 开源 vs 闭源模型

4.1.2 通用模型 vs 领域特定模型

4.1.3 性能与资源需求评估

4.2 LLM 微调技术

4.2.1 全量微调

4.2.2 适配器微调

4.2.3 提示微调