极客 AI数据工程训练营（2026）

# 🏷
> #猫咪推荐AI数据工程 #AI数据工程训练营 #AI数据工程 #数据工程 #Lakehouse #Iceberg #dbt #Dagster #RAG工程 #GraphRAG #AgentSkills #FunctionCalling #RAGAS #OpenTelemetry #lakeFS #AI上线治理

---

#### ⬇️获取课程⬇️

# 🔍 课程介绍>>> 
是一门围绕 AI 应用上线所需数据工程体系设计的专项实战课程。课程从“Demo 为什么不能直接投产”切入，逐步拆解 AI 从 0 到 1 上线所需的数据路径、数据契约、采集入湖、Lakehouse 底座、Transform 语义层、资产化编排、非结构化数据处理、检索生成一体化、Agent Skills、AI 行为约束、评测、可观测性、GraphRAG、治理与成本控制，最终落到稳定上线交付。

这门课不是单纯讲模型或提示词，而是把 AI 应用背后的数据链路、工程规范、资产治理、回滚追溯、评测监控、成本优化串成一条完整生产闭环。学习者最终能带走的是一套面向 AI 生产环境的数据工程方法：如何让数据可追溯、可验证、可治理，如何让 RAG 与 Agent 消费可信数据，如何通过评测、Tracing、版本治理和 SLO 保障 AI 应用稳定上线。

## 知识与能力图谱

|阶段|周次与主题|核心知识模块|能力目标|训练/产出物指向|
|---|---|---|---|---|
|上线认知与数据路径|Week 1 从 Demo 到上线：AI 为什么不能直接用？|AI 从 0 到 1 上线全流程数据路径；Demo 幻觉与生产级架构差异；数据版本控制、权限隔离、质量门禁；RAG 到 Lakehouse 数据管线；PII 处理规范|建立“AI 上线不是模型调用，而是数据工程闭环”的基本认知|项目数据工程化起跑线搭建；合规边界确认|
|输入确定性|Week 2 输入确定性保障——数据盘点与数据契约|结构化、非结构化、对话三类数据源盘点；更新频率、增量窗口、权限边界；Schema、业务口径、SLA 的 YAML 契约；字段级 PII 分级脱敏；源端元数据；指标孤岛治理|能将不稳定数据输入转化为机器可读、可校验、可拦截的数据契约|自动生成全量/增量映射与回溯配置；自动拦截脏数据并预警|
|采集与入湖|Week 3 采集与入湖——Batch / CDC / Stream 的组合拳|批处理链路、实时链路、CDC 乱序纠偏、Exactly-once、回退策略；数据备份可回放、可溯源、可验收；Backfill 与 Replay|能设计批、流、CDC 组合的数据采集链路，并保证一致性与可验收|链路健康度监控指标；分钟级故障定位机制|
|Lakehouse 底座|Week 4 Lakehouse 底座——Iceberg 快照/演进/性能基线|Iceberg 原子提交、快照回溯、时间点数据复现；Hidden Partitioning、Schema Evolution；Compaction、元数据清理、文件大小与扫描量指标；高并发表结构|能构建支持回滚、演进、性能治理的 Lakehouse 表设计|生产级 Iceberg 表结构；检索联动字段与业务状态标记|
|Transform 与语义层|Week 5 Transform 与语义层——把口径写进工程|dbt 分层建模；Staging 到 Marts；增量转换、自动化测试、文档生成、CI 集成；MetricFlow/dbt Semantic Layer；查询工具封装；口径变更影响分析|能将指标口径从“人脑约定”变为工程资产，减少 Agent 误查和口径歧义|受控 Tools；权限过滤、参数校验、审计日志；指标血缘图谱|
|资产化编排|Week 6 资产化数据工厂——编排、回填与可追溯|从任务运行转向数据资产状态；Dagster 声明式编排；分区、回填、幂等重试；全链路血缘；协作规范|能把数据生产过程资产化，使变更、代码版本、上游输入可追踪|上游到 AI 消费端的元数据映射；团队协作变更流程|
|非结构化数据工程|Week 7 非结构化数据工程|智能文档解析 IDP；PDF/网页布局识别；标题层级、页码坐标元数据；语义切片、固定长度切片、Overlap；证据链溯源；抽样质检与回归对照|能把文档、网页等非结构化资料转为可检索、可定位、可质检的数据资产|切片质量抽样规则；版本对比机制；证据链元数据设计|
|检索生成闭环|Week 8 检索 × 生成的一体化工程闭环|向量 + BM25 双路召回；RRF 排序；Cross-Encoder 重排；Top-K 噪声过滤；Embedding 与切片治理；pgvector；RAG API；JSON Schema / Function Calling；Prompt as Code|能构建从索引、检索、重排、生成到输出约束的完整 RAG 工程链路|标准化 RAG 服务契约；Prompt 模板、版本、评测结果关联|
|Agent 能力封装|Week 9 核心工作流 Skills 化封装|Agent Skills 价值；工程工艺从口头规则转为可迁移交付物；SKILL.md；YAML frontmatter；scripts、references、assets；Progressive Disclosure|能将可复用工作流沉淀为 Skill Pack，供不同 Agent/IDE/平台复用|可审计、可版本化、可评测、可回滚的 Skill Pack|
|AI 行为约束|Week 10 AI 行为的工程化约束与资产消费闭环|工具输入输出 JSON Schema；幂等性、权限校验、审计日志；Function Calling 消费语义层指标与检索服务；多工具路由、失败回退、HITL；行为结果写入 Iceberg 快照 ID|能让 Agent 在工程约束下消费数据资产，而不是自由访问原始数据|工具选择策略；降级路径；人工介入节点；AI 行为到支撑数据的溯源|
|自动化评测|Week 11 自动化评测与 RAGAS 实战|评测集资产化；问题-答案-证据三元组；FAQ、边界案例、反例、多跳推理；Faithfulness、答案相关性、上下文精准度；CI/CD 回归门禁；A/B Test；LLM-as-a-Judge；业务指标体系|能建立从样本生成、评测、回归、改进到业务指标跟踪的评测流水线|效果退化自动拦截；生产-评测-改进反馈闭环|
|可观测性|Week 12 OpenTelemetry 与 Tracing 全链路可观测性|OpenInference 标准协议；OpenTelemetry 采集 LLM 输入输出、Token 消耗、Tool Call 耗时；Trace ID；Span 级链路追踪；实时监控仪表盘；Bad Case 复盘模板|能把一次 AI 请求拆解为可追踪、可定位、可复盘的工程链路|质量+性能双维监控；P99 延迟、失败率、幻觉率告警；定位-修复-回归验证模板|
|GraphRAG|Week 13 GraphRAG 处理跨文档关系与全局归纳|RAG 与 GraphRAG 能力边界；图结构增强；实体关系显式化；轻量知识图谱；图检索策略；Prompt 注入图结构；A/B 对比|能判断何时需要 GraphRAG，并用图结构处理跨文档关系、总结归因、多跳推理|图结构检索与普通向量检索并行评估；适用场景与成本收益总结|
|治理与版本控制|Week 14 AI 数据治理与版本控制|lakeFS 分支概念；数据、索引、Prompt 原子级绑定发布与秒级回滚；OpenLineage/OpenMetadata 生命周期图谱；合规审计白皮书；Canary 验证；灰度发布|能把 AI 应用相关的数据、索引、Prompt、评测、Trace 纳入统一治理和版本发布体系|不可篡改上线合规白皮书；灰度流量分配策略；自动发布或回滚决策|
|稳定上线交付|Week 15 降本增效，打通稳定上线闭环|Embedding/检索/生成/存储成本模型；重复请求优化；多级缓存、限流、分层召回、降级；模型超时降级 BM25；SLO 与应急 Runbook；Capstone 产品包交付|能整合 15 周成果，形成可演示、可回归、可上线的 AI 数据工程产品包|上线资料、运维交接文档、应急手册、产品包|

## 深度亮点剖析

### 亮点一：从“AI Demo”直接切入生产落差

课程开头不是讲工具安装，也不是讲单点技术，而是先回答“AI 为什么不能直接用”。这一点决定了课程的工程化基调：它把幻觉、数据版本、权限隔离、质量门禁、合规边界、RAG 到 Lakehouse 的数据管线都放在上线场景里讨论。

这意味着课程关注的核心问题不是“能不能跑通一次问答”，而是：

|Demo 阶段问题|课程中的生产化处理|
|---|---|
|数据来源不清|数据盘点、源端元数据、数据契约|
|指标口径不一致|MetricFlow/dbt Semantic Layer、语义层指标一次定义|
|检索结果不可控|向量 + BM25、RRF、Cross-Encoder、Top-K 质量拦截|
|AI 行为不可追踪|Function Calling、JSON Schema、审计日志、Trace ID|
|上线后不可回滚|Iceberg 快照、lakeFS 分支、灰度发布与秒级回滚|
|效果退化难发现|RAGAS、CI/CD 门禁、A/B Test、LLM-as-a-Judge|
|成本不可控|成本模型、多级缓存、限流、分层召回、降级策略|

这种设计让课程更像一套“AI 数据工程上线方法论”，而不是零散的数据工具教程。

### 亮点二：Lakehouse、dbt、Dagster、Iceberg 被组织成一条数据生产线

课程没有孤立讲 Lakehouse 或 dbt，而是将它们放在“数据从进入系统到被 AI 消费”的链路中：

- Week 3 解决数据如何稳定进入湖仓，包括 Batch、CDC、Stream、Backfill、Replay。
    
- Week 4 解决湖仓底座如何支持快照、回溯、Schema 演进和性能治理。
    
- Week 5 解决数据进入语义层后，指标口径如何工程化、测试化、文档化。
    
- Week 6 进一步用资产化编排，把任务运行升级为数据资产状态管理。

这里的训练重点不是“会用某个工具”，而是把数据接入、湖仓存储、Transform、语义层、编排、血缘、回填串成可维护的生产管线。课程多次强调“可回放、可溯源、可验收、可回滚”，说明它的目标是让数据链路承担 AI 应用的生产责任。

### 亮点三：RAG 被拆成完整工程系统，而不是检索增强问答技巧

RAG 相关内容覆盖 Week 7 到 Week 13，跨度很大，说明课程将 RAG 视为数据工程系统，而不是一个简单调用框架。

课程对 RAG 的拆解路径非常细：

|RAG 工程环节|对应课程内容|
|---|---|
|文档解析|IDP、PDF/网页布局识别、标题层级、页码坐标元数据|
|切片策略|固定长度切片、自适应切分、Overlap、上下文连续性|
|证据追踪|原文件指纹、页码、坐标元数据、证据链溯源|
|召回|向量 + BM25 双路召回|
|排序|RRF、Cross-Encoder 重排|
|质量控制|Top-K 噪声过滤、生成前质量拦截|
|服务化|RAG API、强制输出证据引用、片段 ID、置信度|
|输出约束|JSON Schema、Function Calling|
|评测|RAGAS、Faithfulness、答案相关性、上下文精准度|
|可观测|OpenTelemetry、Trace ID、Span 级追踪|
|进阶增强|GraphRAG、实体关系、图检索、跨文档归纳|

这种拆解方式把 RAG 从“能回答”推进到“能审计、能评测、能复盘、能治理”。

### 亮点四：将 Agent 使用数据的行为纳入工程约束

课程在 Week 9 和 Week 10 处理 Agent 相关内容，但重点不是 Agent 概念，而是“如何让 Agent 按工程规则消费数据”。

Week 9 的 Skills 化封装强调把工程工艺从口头规则变成可复用、可迁移、可治理的 Skill Pack。Week 10 则进一步规定工具输入输出、权限校验、幂等性、审计日志、多工具路由、失败回退、HITL 节点，以及将 Agent 决策动作标记到 Iceberg 快照 ID。

这使课程中的 Agent 不再是自由调用工具的黑盒，而是被限制在以下机制中运行：

|约束维度|课程设计|
|---|---|
|输入输出|JSON Schema 契约|
|数据访问|不直接访问原始表，通过受控 Tools 和语义层消费|
|权限与安全|权限校验、审计日志|
|失败处理|工具选择策略、降级路径、人工介入|
|结果追溯|AI 行为关联 Iceberg 快照 ID|
|复用治理|Skill Pack 版本、评测、可观测、回滚|

这部分体现出课程对“AI 行为生产化”的关注：不是只让 Agent 完成任务，而是让它的每一步可控、可查、可回放。

### 亮点五：评测、Tracing、治理、成本控制形成上线闭环

后半段课程明显转向生产运营能力。Week 11 到 Week 15 依次处理评测、可观测、GraphRAG、治理、成本与上线交付。

这条路径很清晰：

- 先用 RAGAS、LLM-as-a-Judge、A/B Test 建立效果评测。
    
- 再用 OpenTelemetry、OpenInference、Trace ID 建立链路可观测性。
    
- 然后用 GraphRAG 处理普通 RAG 难以覆盖的跨文档关系和全局归纳问题。
    
- 接着用 lakeFS、OpenLineage、OpenMetadata 做版本、血缘、合规治理。
    
- 最后用成本模型、缓存、降级、SLO、Runbook 和 Capstone 交付稳定上线产品包。

这说明课程不是止步于“项目完成”，而是推进到“上线后如何稳定运行、发现问题、控制成本、快速回滚”。

### 亮点六：实战强度体现在“交付物链条”而非单次作业

截图中虽未展开每周“实践项目”页签，但详细内容本身已经包含大量产出型训练：

|训练类型|具体体现|
|---|---|
|契约设计|YAML 契约、字段级 PII 分级脱敏规则、JSON Schema|
|数据工程实现|Batch/CDC/Stream 入湖、Iceberg 表结构、dbt 分层建模、Dagster 编排|
|质量治理|质量门禁、脏数据拦截、抽样质检、回归对照|
|检索生成系统|混合检索、重排、RAG API、Prompt as Code|
|Agent 工程化|Skill Pack、工具契约、多工具路由、HITL|
|评测与监控|RAGAS、CI/CD 门禁、Trace 追踪、监控仪表盘|
|上线交付|lakeFS 版本发布、Canary 验证、SLO、Runbook、Capstone 产品包|

因此课程的实战强度不是靠“案例数量”堆出来的，而是靠每个模块都指向可落地的工程资产。

## 行业/专业背景溯源

### Lakehouse

课程中 Lakehouse 出现在 Week 1、Week 4、Week 14，主要作为 AI 数据链路的底座。它承接从 RAG 数据管线到 Iceberg 表结构、快照、回滚、Schema 演进、性能基线，再到 lakeFS 分支治理的能力。课程语境下的 Lakehouse 不是泛泛的数据平台概念，而是支持 AI 应用上线所需的可追溯、可回滚、可演进数据底座。

### Iceberg

Iceberg 在课程中承担生产级表设计与回溯能力。Week 4 明确围绕 Iceberg 快照、原子提交、快照回溯、Hidden Partitioning、Schema Evolution、Compaction、元数据清理展开；Week 10 又将 Agent 决策动作标记到 Iceberg 快照 ID，用于实现“AI 行为 → 支撑数据”的完整溯源。

### dbt、MetricFlow、dbt Semantic Layer

这些内容集中在 Week 5，用来把指标口径写入工程。课程强调从 Staging 到 Marts 的分层建模、增量转换、自动化测试、文档生成、CI 集成，并通过 MetricFlow/dbt Semantic Layer 实现指标“一次定义，处处复用”。在课程语境中，它们服务于语义层治理，目标是减少指标孤岛和 Agent 直接访问原始表带来的风险。

### Dagster

Dagster 出现在 Week 6，用于资产化编排。课程并不只是讲任务调度，而是强调从“关注任务运行”转向“关注数据资产状态”，利用声明式编排、分区、回填、幂等重试、血缘追溯来确保生产确定性。

### IDP

IDP 出现在 Week 7，课程称为“智能文档解析”。其作用是处理 PDF、网页等非结构化数据，保留表格结构、标题层级、页码坐标等关键元数据，为后续切片、检索、证据链溯源和质量抽样提供基础。

### BM25、RRF、Cross-Encoder、pgvector

这些术语集中在 Week 8，构成检索工程化能力。BM25 与向量检索组成双路召回，RRF 用于确定性与语义性之间的平衡排序，Cross-Encoder 用于重排与过滤 Top-K 噪声片段，pgvector 用于向量、元数据、业务状态同库存储。

### Function Calling 与 JSON Schema

Function Calling 和 JSON Schema 出现在 Week 8 与 Week 10。课程将它们用于约束输出结构、规范工具输入输出、保证下游可消费，并让 Agent 按数据契约和业务规则执行动作。

### Agent Skills 与 SKILL.md

Week 9 将 Agent Skills 作为工程能力封装方式。课程中的 Skill 以目录为单位，核心锚点是 SKILL.md，包含 YAML frontmatter 和 Markdown 指令正文，并可配套 scripts、references、assets。它的作用是把工程工艺变成可复用、可迁移、可审计、可版本化的交付物。

### RAGAS 与 LLM-as-a-Judge

Week 11 使用 RAGAS 做多维量化评测，指标包括 Faithfulness、答案相关性、上下文精准度。LLM-as-a-Judge 用于自动生成高质量评测样本，构建“生产 → 评测 → 改进”的反馈闭环。

### OpenTelemetry、OpenInference、Tracing

Week 12 处理全链路可观测性。OpenTelemetry 用于采集 LLM 输入输出、Token 消耗、Tool Call 耗时；OpenInference 标准协议用于集成；Trace ID 和 Span 追踪用于还原从用户请求到检索、重排、生成、工具调用的级联链路。

### GraphRAG

Week 13 将 GraphRAG 用于跨文档关系与全局归纳。课程强调判断 RAG 与 GraphRAG 的能力边界，在需要总结、归因、多跳推理时引入图结构增强，并通过实体关系显式化、轻量知识图谱、图检索策略和 A/B 对比评估效果。

### lakeFS、OpenLineage、OpenMetadata

Week 14 中，lakeFS 用于将 Lakehouse 引入“分支”概念，实现数据、索引、Prompt 的原子级绑定发布与秒级回滚。OpenLineage/OpenMetadata 用于捕捉完整生命周期图谱，支撑血缘分析、影响评估和合规审计。

### SLO 与 Runbook

Week 15 中，SLO 用来定义线上服务目标，并结合 Week 11 评测与 Week 12 监控建立基准。Runbook 则作为应急手册，覆盖核心链路故障、数据回滚、模型切换等上线后的运维场景。

## 课程定位判别

这是一门**面向 AI 应用生产上线的数据工程专项实战课程**，层级偏进阶到生产级实战。

从课程内容看，它不适合被定位为 AI 入门课。课程大量涉及 Lakehouse、Iceberg、dbt、Dagster、CDC、Stream、Schema Evolution、RAGAS、OpenTelemetry、GraphRAG、lakeFS、SLO、Runbook 等工程术语，并且每周都围绕生产约束展开，如质量门禁、数据契约、权限隔离、审计日志、灰度发布、回滚、Tracing、成本模型、Capstone 产品包。

它的学习目标不是让学员理解 AI 基本概念，而是训练学员把 AI 应用背后的数据链路搭成可上线系统。课程深度集中在“数据如何成为 AI 可安全消费的资产”，并通过评测、监控、治理、成本控制保障上线后的稳定运行。

## 适合什么人看

### 适合人群

|人群|适配原因|
|---|---|
|数据工程师|课程主体围绕数据采集、入湖、Lakehouse、Transform、编排、血缘、治理与成本控制展开|
|AI 应用工程师 / RAG 工程师|课程系统覆盖文档解析、切片、检索、重排、RAG API、评测、Tracing、GraphRAG|
|数据平台 / 数据架构方向从业者|课程强调数据契约、语义层、资产化编排、版本发布、灰度回滚、合规审计|
|负责 AI 应用上线的技术负责人|课程完整覆盖从 Demo 到生产上线的关键风险：幻觉、权限、质量、评测、监控、成本、回滚|
|希望把 Agent 落到业务系统中的工程人员|Week 9、Week 10 专门处理 Skills 封装、工具契约、Function Calling、失败回退、HITL 和行为溯源|

### 需要的学习基础

从术语密度看，学习者最好已经能理解数据链路、表结构、指标口径、数据建模、任务编排、API、CI/CD、监控等工程概念。课程虽然从 Demo 到上线讲起，但中后段很快进入生产级设计，不是零基础概念普及型课程。

### 不太适合的人群

只想学习提示词写法、模型基础原理、单机 RAG Demo 或纯业务视角 AI 应用介绍的人，可能会觉得这门课工程细节过重。课程重点在“AI 数据工程生产化”，而不是 AI 工具体验或模型科普。

# ☁️ 网盘目录（仅展示部分目录）>>>