理解数据漂移与模型漂移：用 Python 进行漂移检测

避开模型漂移的陷阱，并查阅我们关于数据漂移监控的实用指南。

更新 2026年5月25日 · 9分钟读

“漂移”（Drift）是机器学习中的一个术语，用来描述机器学习模型在生产环境中的性能如何随着时间的推移而逐渐变差。这可能由多种原因造成，例如输入数据分布随时间发生变化，或者输入（x）与期望目标（y）之间的关系发生改变。

当我们在现实世界中使用机器学习时，数据往往是动态且不断变化的，漂移会成为一个重大问题。本文将深入探讨模型为何会发生漂移、不同类型的漂移、检测算法，最后通过一个开源的 Python 实现来完成对漂移检测的讲解。

什么是漂移？

机器学习模型是用历史数据进行训练的，但一旦投入现实世界使用，由于一种称为漂移的现象，它们可能会随着时间的推移变得过时并失去准确性。漂移是指用于训练机器学习模型的数据的统计性质随时间发生变化。这会导致模型变得不那么准确，或表现与设计初衷不同。

换句话说，“漂移”是指由于模型所处环境发生变化，导致其进行准确预测的能力下降。

为什么机器学习模型会发生漂移？

机器学习模型会随时间发生漂移的原因有多种。

一个常见原因是用于训练模型的数据变得过时，无法再代表当前的实际情况。

例如，考虑一个基于历史数据训练、用于预测公司股价的机器学习模型。如果我们在稳定市场的数据上训练该模型，它起初可能表现良好。然而，若市场随时间变得更加动荡，由于数据的统计性质发生了变化，模型可能不再能准确预测股价。

另一个导致模型漂移的原因是模型本身并未设计为可处理数据的变化。有些机器学习模型较其他模型更能应对数据变化，但没有任何模型可以完全避免漂移。

漂移的类型

下面来看看需要考虑的两种不同类型的漂移：

1. 概念漂移

概念漂移（也称为模型漂移）是指模型所要完成的任务随着时间发生变化。例如，设想一个机器学习模型是基于邮件内容来检测垃圾邮件的。如果人们收到的垃圾邮件类型发生了显著变化，该模型可能不再能准确识别垃圾邮件。

概念漂移可进一步分为四类（Learning under Concept Drift: A Review, Jie Lu 等）：

突变式漂移
渐进式漂移
增量式漂移
概念再现

来源：https://arxiv.org/pdf/2004.05785.pdf

2. 数据漂移

数据漂移（也称为协变量偏移）是指输入数据的分布随时间发生变化。例如，假设一个模型是基于客户年龄和收入来预测其购买产品可能性的。如果客户的年龄和收入分布随时间显著变化，模型可能不再能准确预测购买可能性。

了解概念漂移和数据漂移并采取措施预防或减轻其影响非常重要。应对漂移的一些策略包括：持续监控和评估模型性能、用新数据更新模型，以及采用对漂移更具鲁棒性的机器学习模型。

您可以在我们的 DataFramed 播客节目中，进一步了解包括漂移在内的部署后的数据科学话题。

3. LLM 与嵌入漂移

大语言模型（LLM）带来了一种上述方法并未针对的漂移。数据不再是表格中的行——而是自由文本——随时间变化的通常是用户提问的含义。现在普遍认为有三种需要监测的 LLM 漂移形式。

嵌入漂移

当用户发送给模型的文本含义发生变化，即便表面文本看起来相同，就会出现嵌入漂移。LLM 会把文本转换为称为嵌入的长数值向量，漂移可能出现在这些数字中，而不是出现在您通常会监测的任何表面特征上。

设想一个客户支持聊天机器人，最初主要处理安装和上手问题。六个月后，消息量和平均长度都没有变化，但用户现在大多在询问账单和取消。文本统计看起来稳定，但嵌入分布已经发生了变化。为检测这一点，团队会使用统计距离度量，将最近一批嵌入与基准批次进行比较。

提示或输入漂移

提示漂移与嵌入漂移思路相同，但在更高一层进行跟踪。不是直接比较原始嵌入，而是使用分类器或另一个 LLM 将传入查询分桶到类别中，并观察类别组合的变化。

例如，一个面向后端工程师的内部编码助手，可能会逐渐开始接收到来自数据科学家的流量，问题主要是 pandas 相关。助手也许仍能胜任作答，但其服务对象已不再是测试时的人群，系统提示或检索索引可能会逐渐不再适配。

评分准则漂移

评分准则漂移指的是自动评估器对模型输出给出的质量分数随时间发生变化。许多生产团队现在使用 LLM 作为裁判，为每个回答在有用性、准确性或语气等方面打分。当这些分数针对相同类型输入开始下降时，通常意味着某些东西发生了变化——比如 API 背后的模型、被检索的文档，或用户构成。

评分准则漂移的特别之处在于，它无需真实标签就能提供质量信号，而真实标签在生成式输出的实时场景中很少可得。

如何检测漂移？

我们有两种方法可以检测漂移：

1. 基于机器学习模型的方法：基于模型的方法用于检测传入输入数据是否发生了漂移。

2. 统计检验：有许多统计方法可以检测数据漂移。主要分为三类：

- 序贯分析方法
- 用于检测漂移的自定义模型
- 基于时间分布的方法，这类方法非常常见。

基于时间分布的方法使用统计手段来计算两个概率分布之间的差异，以检测漂移。这些方法包括人口稳定性指数、KL 散度、JS 散度、KS 检验，以及 Wasserstein 距离。

检测数据漂移的算法

Kolmogorov–Smirnov（K-S）检验

Kolmogorov–Smirnov（K-S）检验是一种非参数统计检验，用于判断两组数据是否来自相同分布。它常用于检验一个样本是否来自特定总体，或比较两个样本是否来自同一总体。

该检验的原假设是两者分布相同。如果拒绝该假设，说明模型中可能存在漂移。

K-S 检验是比较数据集、判断其是否来自同一分布的有用工具。

人口稳定性指数

人口稳定性指数（PSI）是一种统计度量，用于比较两个不同数据集中某个分类变量的分布。

人口稳定性指数（PSI）用于衡量一个变量在两个样本或随时间的分布变化程度。它常被用来监测人群特征的变化，并识别机器学习模型性能可能存在的问题。

PSI 最初用于监控风险评分卡中分数分布的变化，但如今也被用于检查所有与模型相关属性（包括因变量和自变量）的分布性漂移。

较高的 PSI 值表明两个数据集中该变量的分布存在显著差异，可能意味着模型发生了漂移。

如果某个变量的分布发生了显著变化，或多个变量在一定程度上发生了变化，可能需要对模型进行再校准或重建以提升其性能。

Page–Hinkley 方法

Page–Hinkley 方法是一种统计方法，用于检测随时间推移数据序列均值的变化。它常被用于监控机器学习模型的性能，并检测数据分布的变化以指示模型漂移。

使用 Page–Hinkley 方法的第一步是定义阈值和决策函数。阈值是判断均值变化是否显著的分界值，决策函数是在检测到变化时返回 1、未检测到变化时返回 0 的函数。

接着，在每个时间步计算数据序列的均值，并将决策函数应用于数据以判断是否发生变化。如果决策函数返回 1，则表示检测到变化，模型可能正在发生漂移。

Page–Hinkley 方法是一种简单有效的手段，可用于检测数据序列均值随时间的变化。它对在直观观察中不易察觉的小幅均值变化尤其敏感。不过，必须谨慎选择阈值和决策函数，确保方法对数据变化足够敏感，同时又不至于产生过多误报。

在 Python 中实现漂移检测

本节我们将使用 Evidently 进行漂移检测。Evidently 是一个为从事机器学习的数据科学家和工程师打造的开源 Python 库，帮助他们从验证到生产阶段，对模型进行测试、评估与性能跟踪。

导入库

import pandas as pd
import numpy as np
from sklearn import datasets

from evidently import Report
from evidently.presets import DataDriftPreset

导入数据集并创建基准与目标分区

# create ref and cur dataset for drift detection
adult_data = datasets.fetch_openml(name='adult', version=2, as_frame=True)
adult = adult_data.frame

adult_ref = adult[~adult.education.isin(['Some-college', 'HS-grad', 'Bachelors'])].copy()
adult_cur = adult[adult.education.isin(['Some-college', 'HS-grad', 'Bachelors'])].copy()

adult_cur.iloc[:2000, 3:5] = np.nan

生成漂移报告

#dataset-level metrics
report = Report([DataDriftPreset()], include_tests=True)
my_eval = report.run(current_data=adult_cur, reference_data=adult_ref)
my_eval