Thanks to visit codestin.com
Credit goes to developer.aliyun.com

Skill即服务:用Agent安全玩转云上Flink

简介: Flink Skill是阿里云为AI Agent时代打造的安全运维能力,通过Confirm门控、目标锁定、Read-back验证三层防护,实现自然语言驱动的Flink全生命周期管理。实测可将作业反压从99%修复至0%,全域巡检缩至30秒,并支持多Skill协同搭建实时数仓等复杂场景。

演__作者:李昊哲,阿里云实时计算 Flink 产品经理

内容摘要

Flink Skill 是阿里云为 AI Agent 时代设计的安全操作云上Flink的能力,解决了 Agent 直接调用 OpenAPI 操作生产环境时"能执行但不安全"的核心痛点。实测数据显示,Flink Skill 可将作业反压从 99% 修复至 0%,将全域巡检时间从半天缩短至 30 秒,并支持多个Skill 协同完成实时数仓搭建等复杂任务。

幻灯片9.png

核心观点

  • 安全边界是Agent使用Skill的基础:Flink skill在大模型(大脑)和 API 工具(手脚)之间提供安全护栏和能力边界,确保 Agent 操作生产环境既能干活又不闯祸

  • 对话即运维,Flink运维门槛归零:用户通过自然语言即可完成实例创建、作业部署、故障诊断、告警配置等全链路操作,无需编码或 API 经验

  • Flink skill三层安全防护保障生产:Confirm 门控(写操作需用户确认)、目标锁定(防止偏移操作)、Read-back 验证(确认实际状态后才算成功)

  • Flink Skill与多Skill 协同:Flink + DMS + Hologres等多个 Skill 联动,一句话搭建实时数仓、多模态实时舆情分析系统等复杂场景

一、为什么 AI Agent 时代需要 Skill?

AI Agent 行业在 2025 年发生了什么标志性事件?

2025 年底,AI Agent 行业达成共识:Agent 必须能操作生产环境。三大标志性事件推动了这一转变:Manus 刷屏引发行业对 Agent 执行能力的关注,Anthropic 发布 MCP(Model Context Protocol)协议定义了 Agent 与工具的交互标准,OpenAI 跟进发布 Function Calling 生态,Google 发布 A2A(Agent-to-Agent)协议。这些协议共同确立了 Agent 操作外部系统的技术基础。

云资源操作方式经历了哪些演进阶段?

从控制台点击到 Terraform 编码,再到 Copilot 问答、Agent+OpenAPI 直接调用,每个阶段都有明确的局限性。Agent 直接通过 OpenAPI 操作云资源存在严重安全风险——它能执行但没有护栏,可能删错实例或改错配置。Skill 的核心价值是在 AI 可控范围内为 Agent 安装安全门和能力边界。

阶段 时间 操作方式 核心局限
控制台时代 2018 年前 页面点击,人工校验参数 依赖开发者手动操作,效率低
IaC 时代 2018-2023 年 Terraform/SDK 编码 需要编码能力和 API 经验,门槛高
Copilot 时代 2023-2024 年 对话式问答 能回答问题但不能执行操作
Agent + OpenAPI 2024-2025 年 Agent 直接调用 API 能执行但不安全,无护栏无边界
Agent + Skill 2025 年至今 自然语言 + Skill 安全保障 当前最优解:既能干活又不闯祸

二、Flink Skill 的核心能力是什么?

Flink Skill 是连接 Agent 大脑与执行动作的神经中枢,通过 SOP 注入将专家运维经验固化为 Agent 原生能力,通过逻辑封装屏蔽工具调用复杂度。用一句话总结:Memory 是 Agent 的资产,工具是设备,Skill 是生产工艺。

幻灯片4.png

Skill 如何解决 Agent 操作的安全问题?

Flink Skill 实现了三层生产级安全防护机制,确保 Agent 操作的每一步都在可控范围内:

安全机制 功能说明 解决的问题
Confirm 门控 所有写操作需用户显式确认后才执行 防止误操作,保障用户知情权
目标锁定 限定 Agent 操作范围,防止偏移操作 防止 Agent 误操作非目标实例
Read-back 验证 不信任 API 返回码,验证实际状态后才算成功 确保操作真正生效(如实例确实 RUNNING)

Flink Skill 提供了哪些具体能力?

Flink Skill 已发布的能力覆盖从实例售卖到作业运维的全生命周期,分为五层架构:

幻灯片7.png

  • 实例管理层(Instance Management):实例创建、扩缩容、生命周期全流程管理,支持一句话完成实例部署

  • 控制台运维层(Workspace Ops):作业 SQL 开发、提交部署、日常运维全场景覆盖,已在 Skill Hub 公开发布

  • 知识层(Knowledge):封装官网文档知识,自动结构化沉淀,开发时无需手动查阅参数文档

  • 诊断层(Diagnose):作业健康诊断、性能分析、根因定位,自动生成诊断报告

  • 安全层(Security):三层安全防护 + 多 Skill 协同能力

三、Flink Skill 有哪些典型应用场景?

Flink Skill 支持多端调用(Flink 控制台、DataWorks Data Agent、OpenClaw、QoderWork、Qoder等等),实现一次建设、多端调用、所说即所得。以下是四个已验证的生产场景。

幻灯片9.png

场景一:作业诊断与修复——如何让 Flink 作业自动修复反压?

通过对话即可完成原来需要翻多个页面、逐项排查的故障诊断和修复流程。实测将作业反压(Backpressure)从 99% 修复至 0%,全程无需人工介入控制台。

幻灯片10.png

典型痛点:Flink 作业 Failover 后日志仅一行报错,根因定位如大海捞针。Checkpoint 超时、反压、数据倾斜每个问题排查方式不同,半夜告警需要逐项翻查控制台日志、Metrics 和事件。

Skill 解决流程

  1. 用户一句话描述问题(如"帮我分析作业的反压问题")

  2. Agent 调用 Diagnose Skill 自动诊断,输出优化建议

  3. 用户确认后,Agent 调用 Workspace Ops Skill 调整并行度参数

  4. Agent 执行 Hot Update 使配置生效

  5. Agent 自动检测作业稳定性,确认反压从 99% 降为 0%

Demo演示:

请至钉钉文档查看附件《1.mov》。

场景二:全域巡检诊断——如何 30 秒完成大促前巡检?

一句话触发全地域 Flink 实例自动巡检,30 秒生成完整巡检报告。原来需要半天时间编写脚本、对接 OpenAPI 的巡检工作,现在通过多个 Skill 组合一次完成。

幻灯片11.png

操作方式:用户输入"帮我巡检所有 Flink 实例,给我一个巡检报告"。Agent 自动执行全地域扫描,遍历所有可用区,发现实例并生成包含风险建议、运行状态和诊断提示的完整报告。

效率对比

指标 传统方式 Skill 方式 提升幅度
巡检耗时 约半天(编写脚本+调试+执行) 30 秒 提升约 1000 倍
技能要求 需要 OpenAPI 编程经验 自然语言即可 门槛归零
覆盖范围 取决于脚本质量 自动全地域扫描 无遗漏

Demo演示:

请至钉钉文档查看附件《2.mov》。

场景三:实时数仓搭建——如何一句话搭建 Flink CDC 全增量同步链路?

通过 Flink Skill + DMS Skill + Hologres Skill 多 Skill 联动,一句话完成从 MySQL 到 Hologres 的实时数仓搭建,告别 T+1 报表延迟。

幻灯片12.png

用户输入示例:"建一个实时数仓,从 MySQL 写一个 Flink CDC 作业,全量和增量数据同时写到 Hologres,确认链路没问题。"

Agent 自动编排流程

  1. DMS Skill 在 MySQL 中创建源表(如 orders 表)

  2. Hologres Skill 自动创建目标库和 Sink 表,完成 Schema 一致性校验

  3. Flink Skill 生成 Flink CDC 全增量一体化作业

  4. Agent 启动作业并确认 Ready 状态

  5. 如发现策略异常,Agent 自动修复后重新提交

  6. 可选:调用 CMS Skill 一键配置监控告警

Demo演示:

请至钉钉文档查看附件《3.mov》。

场景四:品牌舆情实时监控——非技术人员如何搭建多模态实时分析系统?

6 个 Skill 协同工作(Flink 实例管理、Hologres 实例管理、DMS 建表、DataWorks 作业开发、CMS 告警、DIS 性能查询),让市场部同事无需写一行代码即可搭建实时舆情分析系统。

幻灯片13.png

核心实现:通过 Datagen 模拟社交评论数据流,调用 Flink 内置的 AI_SENTIMENT 函数进行实时情感分析,结果写入 Hologres 后搭建实时 BI 报表,展示各品牌正负面情感评分和实时评论流。

image.png

关键价值

  • 用户全程无代码操作,Agent 自主决定调用流程、参数传递和异常处理

  • 原来需要提工单给数据团队排期的工作,现在市场部同事直接对话完成

  • 支持根据需求灵活编排组合,用 Create Skill 搭积木式打造团队专属数据流水线

幻灯片14.png

舆情分析看板demo:

请至钉钉文档查看附件《屏幕录制2026-04-23 17.47.57.mov》。

四、如何开始使用 Flink Skill?

Flink Skill 提供两种使用入口,均为开箱即用,无需额外安装插件或切换工具。

入口一:阿里云 Skill 门户一键安装

阿里云 Skill Hub 门户已上线首批 69 个官方 Skill,涵盖六大云领域。用户搜索后一键安装即可使用,支持多云生态联动和自动化工作流编排。

幻灯片16.png

访问地址:skills.aliyun.com

入口二:实时计算 Flink 版控制台内置 Skill 技能包

Flink 控制台已原生内置所有 Skill 技能包,开箱即用。从代码生成、故障诊断到资源调配,全链路能力已内置在控制台中,无需切换工具。

幻灯片17.png

五、常见问题(FAQ)

Q: 什么是 Flink Skill?

A: Flink Skill 是阿里云为 AI Agent 设计的安全操作Flink的能力,将Flink专家运维经验固化为 Agent 可调用的能力包,通过三层安全防护确保 Agent 操作生产环境的安全性。

Q: Flink Skill 和直接用 Agent 调 OpenAPI 有什么区别?

A: 直接调 OpenAPI 没有安全护栏,Agent 可能误删实例或改错配置。Flink Skill 提供 Confirm 门控、目标锁定和 Read-back 验证三层安全防护,确保每一步操作可控可回退。

Q: 非技术人员能使用 Flink Skill 吗?

A: 可以。Flink Skill 实现了对话即运维、门槛归零,用户只需用自然语言描述需求,Agent 自动编排底层 Skill 完成全链路操作,无需编写代码或了解 API。

Q: Flink Skill 支持哪些调用方式?

A: 支持多端调用:Flink 原生控制台、阿里云 Skill Hub 门户、DataWorks Data Agent、OpenClaw、QoderWork、Qoder 等,实现一次建设、多端调用。

Q: 如何在阿里云上搭配使用Skill?

A: Flink Skill作为首批 69 个官方 Skill ,已在 skills.aliyun.com 上线,用户可立即安装体验与Hologres、DMS等产品联动使用。

alibabacloud-flink-instance-manage:https://skills.aliyun.com/skills/alibabacloud-flink-instance-manage

alibabacloud-flink-workspace-ops:https://skills.aliyun.com/skills/alibabacloud-flink-workspace-ops

结论

Flink Skill 代表了云资源操作从"人工操控"到"AI 安全托管"的演进方向。通过将专家运维经验固化为 Skill、提供三层安全防护、支持多 Skill 协同编排,阿里云实时计算 Flink 实现了让业务用户像与同事对话一样操作生产环境的目标。Flink Skill作为首批 69 个官方 Skill ,已在 skills.aliyun.com 上线,用户可立即安装体验。

更多内容


活动推荐

复制下方链接或者扫描左边二维码

即可免费试用阿里云 Serverless Flink,体验新一代实时计算平台的强大能力!

了解试用详情:https://free.aliyun.com/?productCode=sc

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
3天前
|
机器学习/深度学习 自然语言处理 C++
大模型应用:大模型实测对比:1.8B vs 6B,本地部署的极限拉扯与真实体感.119
本文对比Qwen1.5-1.8B与ChatGLM2-6B两大中文大模型:前者轻量易部署,CPU即可运行,代码简洁,但易幻觉、指令遵循弱;后者参数量大,中文理解与逻辑更强,但需GPU、加载复杂。二者代表“小而美”与“大而全”的典型路径。
大模型应用:大模型实测对比:1.8B vs 6B,本地部署的极限拉扯与真实体感.119
|
3天前
|
人工智能 安全 API
Hermes Agent与OpenClaw全面对比:2026年AI Agent框架选型及部署终极指南
在AI智能体快速普及的2026年,Hermes Agent与OpenClaw已经成为开源社区最具代表性的两大框架。二者均支持自主任务执行、工具调用、文件操作、代码生成与自动化流程,但设计理念、技术路线、能力侧重与使用体验完全不同,导致大量用户在选型时陷入困惑。有人偏爱Hermes的自我进化能力,也有人依赖OpenClaw成熟的技能生态与多平台接入。
146 1
|
9天前
|
人工智能 运维 安全
让 AI 帮你运维 Elasticsearch:阿里云 ES Agent Skill 正式发布
阿里云Elasticsearch Agent Skill是一套面向AI编程助手的智能运维技能包,覆盖实例创建、故障诊断、网络配置三大核心场景。支持自然语言交互,自动校验参数、识别架构差异、执行幂等操作,并内置49条诊断规则与7套SOP,大幅提升ES运维效率与可靠性。
279 7
|
2月前
|
JSON 运维 Java
Apache Flink Agents 0.2.1 发布公告
Apache Flink Agents 0.2.1发布!修复3个关键缺陷(含MCP连接与Jackson反序列化问题),优化事件日志JSON输出、减小wheel包体积,并增强CI可观测性。推荐所有用户升级。支持OpenAI、Anthropic等多模型集成,附Demo演示智能运维能力。(239字)
290 5
Apache Flink Agents 0.2.1 发布公告
|
1月前
|
关系型数据库 MySQL Apache
Flink CDC 3.6.0:支持 Flink 1.20/2.2, MySQL/PostgreSQL入湖入流支持Schema Evolution
Apache Flink CDC 3.6.0 正式发布!支持 Flink 1.20.x/2.2.x 与 JDK 11,增强端到端 Schema Evolution(MySQL/PostgreSQL 入湖入流),新增 Oracle Source 与 Hudi Sink 连接器,全面覆盖主流数据湖生态,并优化 Transform 框架、YAML 路由及多连接器能力。(239字)
690 2
Flink CDC 3.6.0:支持 Flink 1.20/2.2, MySQL/PostgreSQL入湖入流支持Schema Evolution
|
21天前
|
API
ICP网站备案查询-ICP域名备案查询-ICP备案查询-企业备案查询API接口介绍
当我们需要查询某企业名下的域名,或查询某个域名隶属于哪个企业,可以用ICP网站备案查询功能。本文介绍ICP网站备案查询API,可以集成到自身系统中,实现**实时**查询ICP网站备案信息
190 0
|
5天前
|
人工智能 自然语言处理 机器人
[开源框架-实战]用 Hermes Agent 搭一个微信播报机器人
30 分钟,零 Python 代码,搭出一个每天早上 9 点把 GitHub Trending 推送到你微信的机器人。顺带把 Hermes 的 Skill、Gateway、Cron 四个招牌能力全用上。
178 8
|
11天前
|
运维 Java 开发者
[015][web模块]基于Spring Boot的HTTP客户端日志与默认配置实战
本文详解基于Spring Boot的HTTP客户端统一配置方案,支持RestTemplate、RestClient与WebClient三种客户端,实现无侵入的日志记录(请求/响应头、状态码)、默认请求头注入(如X-Request-Id)、非2xx异常自动转换及链路追踪支持,全部通过Customizer与Filter机制自动装配,开箱即用,提升微服务调用可观测性与开发效率。(239字)
134 5
[015][web模块]基于Spring Boot的HTTP客户端日志与默认配置实战
|
11天前
|
弹性计算 人工智能 运维
阿里云服务器2核4G199元1年:轻量应用服务器抢购和云服务器u1实例对比与选购策略参考
阿里云服务器2核4G热门配置价格:轻量应用服务器2核4G(199元/年)与云服务器ECS通用算力型u1实例2核4G(199元/年)。二者虽价格相同,但定位截然不同:轻量服务器主打开箱即用,峰值带宽达200M,预装OpenClaw等AI镜像,适合新用户快速建站或AI尝鲜,但续费价格较高且需每日限时抢购;ECS u1实例则提供5M固定带宽、80G云盘,支持VPC等深度定制,企业新老用户同享,且承诺续费同价至2027年3月,长期成本更可控。本文从产品定位、适用场景、购买资格、续费政策等维度提供了以供对比与选购策略,帮助个人开发者与中小企业根据业务需求做出最优选择。
179 10