发财猫的IT仓库
01 安全基础课
红岸就业班培训课程(2024-2025)(红岸安全)
【Day 1 培训】王老师-Web90天0到1实现高薪就业(2024)
学神IT教育 Kali 安全渗透高级工程师(2023)
学神IT教育 Kali 安全渗透高级工程师(2024)
蚁景网安 Web安全工程师特训班20期(2024)
智榜样-高级网络安全工程师2414期(2024-2025)(湖南网安基地)
马哥教育 资深网络安全工程师7期(全程班)(八维一体)(2025)
蚁景网安 Web安全工程师特训班21期(2025)
蚁景网安 Web安全工程师特训班22期(2025)
八方网域 马士兵网络安全大师课(2025)
长亭安全 安道场互动培训(2024-2025)
蚁景网安 Web安全工程师特训班23期(2025)
学神IT教育 Kali渗透测试Web安全高级工程师(2025)
马哥教育 资深网络安全工程师-八维一体安全精英课11期(2025.9.27结课)
蚁景网安 Web安全工程师特训班24期(2026)
蚁景网安 Web安全工程师特训班24期(2026)
02 CTF竞赛
极安御信 CTF-Reverse零基础到提高训练营(2024)
星盟团队 CTF从入门到提高-PWN篇(i春秋)(2024)
看雪 Browser Pwn Chrome V8篇(2024-2025)
看雪 Linux pwn 探索篇(2024)
CTFshow私教课程-Pwn系列(2024-2025)
CTFshow私教课程-Web系列(2024)
蚁景网安 CTF-MISC实战技能特训班(非外面流传的不完整老版本)(2025)
蚁景网安 CTF-Reverse实战技能特训班(非外面流传的不完整老版本)(2025)
FuzzingLab专题1:Fuzzing基础
FuzzingLab专题4:Chrome漏洞挖掘与v8 CTF pwn入门指南
看雪 30小时教你进阶CTF-密码学(2025)
看雪 CTF训练营-Web篇(2025-2026)
实验室-从零开始学习CTF实战特训营-第三期(直播班)(2025-2026)
实验室-从零开始学习CTF实战特训营-第三期(直播班)(2025-2026)
蚁景网安 CTF-Web实战技能特训班(非外面流传的不完整老版本)(2025-2026)
蚁景网安 CTF-PWN实战技能特训班(非外面流传的不完整老版本)(2025-2026)
看雪 30小时教你进阶CTF-密码学(2025-2026)
17 应急响应&流量分析&HW
wxiaoge应急响应培训(2024-2025)
隐雾安全 HVV零基础突击班(2025)
蚁景网安 HW突击班(2024)
蓝队防守实战(2023)
护网实战技能(绿盟)(2023)
DX 护网研判培训(2025)
蚁景网安 HW突击班(2025)
98 Python开发
老男孩教育 Python全栈开发29期(2024)
路飞学城 Python 全栈(2025-2099)
马哥教育 Python开发基础(2024)
猿人学爬虫基础课(Python基础&JS基础&Spider基础&安卓开发)(2025)
96 爬虫APP逆向
真 · 完整版 路飞爬虫APP逆向11期(2024)
真 · 完整版 路飞爬虫APP逆向12期(2024)
真 · 完整版 路飞爬虫APP逆向13期(2025)
真 · 完整版 路飞爬虫APP逆向14期(2025)
真 · 完整版 路飞爬虫APP逆向15期(2026)
图灵爬虫就业班(2026)
18 企业安全
乾颐堂-Cisco Umbrella SASE 2024
乾颐堂-FTD(威胁防御)_SSL_ZTA-2024
闪石星曜CyberSecurity-Java代码审计零基础到实战(2025)
哈拉少免杀第四期(2024-2025)(最强免杀)(鬼屋女鬼师傅)
99 正版课程合集
5号黯区红队渗透培训(主内网进阶)
2025年8月份正版合集优惠列表
安全板块VIP
月神SRC漏洞挖掘第四期
哈拉少高级免杀&红队武器化开发五期(高阶免杀)(鬼屋女鬼师傅)
黑色键盘&小笼包《SRC漏洞挖掘培训班第一期》
玲珑安全《第六期技能提升课程》
小迪渗透(V2024-2026)
地图大师Src漏洞挖掘课程(2025)
北山安全学院Src培训(2025)
柯林斯-民间新秀红队培训
OneFox安全团队 App渗透逆向攻防课程(2025)(琴音安全)
OneFox 安全团队 Golang红蓝安全工具开发(2025)(琴音安全)
菜狗安全《代码审计培训》:手把手0day挖掘教学(2025)
哈拉少高级免杀对抗&红队武器化开发六期(高阶免杀)(鬼屋女鬼师傅)
猎洞时刻Src第三期(2025)
猎洞时刻Src第三期(2025)
2026年1月份正版合集优惠列表
月神SRC漏洞挖掘第六期
哈拉少高级免杀对抗&红队武器化开发七期(高阶免杀)(鬼屋女鬼师傅)
玲珑安全《第八期漏洞挖掘培训》
2026年1月份正版合集优惠列表
菜狗安全《代码审计培训》:手把手0day挖掘教学第二期(2026)
北山安全学院Src培训(2026)
2026年正版合集优惠列表
19 安全取证
美亚柏科 MCE-电子数据取证(存储介质取证)
地图大师Src 系列课程(2025)
Clippings
青咖慧·AIGC全能大师领航班2412期(2025)
磐石安全 CISP-PTE(2025)
路飞JS逆向8期(2025)
大白哥红队攻防演练课(第1期)(2025)
Java代码审计工程师8期(非外面流传的不完整老版本)(2025)
20 开源情报(OSINT)
李白 开源情报(2025)
大白哥免杀课3期(2024)
大白哥免杀课5期(2024)
大白哥免杀课1期(2024)
大白哥免杀课2期(2024)
看雪 从0到1开发AI代码审计系统(全面高效)(2025)
98 C++开发
慕课网 C++中高级工程师(真·完整版)(非外面流传的不完整版本)(2024)
95 SEO(搜索引擎优化)
核裂变方程式·黑白帽SEO变异培训(初级)
小火炬Src基础课(2025)
隐雾安全EDU【Src】专题课程
21 数据安全(Data Security)
Data部落 数据安全管理15讲(第二期)(2025)
沛沛老师 数据安全实战营(第二期)(2025)
沛沛老师-数据安全简历&面试(2025)
豪密科技 密评培训(2025)
豪密科技 密评培训(2025-2026)(适配新版题库)
Timeline Sec 高级红队V1.3(2024)
红队笔记-导学服务包&黑思文档(2025)
猎洞时刻 漏洞挖掘Src培训(2025)
北山安全Src📕新思路Src漏洞挖掘 (2024-2025)
路飞 AI智能体+大模型产品经理实战营第一期(2025)
黑马博学谷 AI大模型应用与开发4期训练营(2025)
网规2025 网络规划设计师(第2版新教材)(2025)
架构2025 系统架构设计师(2025)
监理2025 信息系统监理师(2025)
软设2025 软件设计师一课通(2025)
数工2025 数据库系统工程师(2025)
网工2025 网络工程师(第六版)(2025)
系规2025 系统规划与管理师(2025)
集成2025 系统集成项目管理师(2025)
信安2025 信息安全工程师(2025)
信管2025 信息系统项目管理师解密+直播课 第四版教材(2025)
架构2025 系统架构设计师-VIP旗舰班(文老师)(2025)
隐雾安全Src第6期(2025)
大白哥红队攻防演练课(第2期)(2025)
李白你好 实战攻防&渗透(第一期)(2024)
谢公子 红队培训之内网渗透(2022-2023)
谢公子 域渗透攻防(2024)
渗透攻击红队 内网域渗透
蚁景网安 Python全栈安全开发特训班(Python-网络编程-自动化-扫描器)(2024)
FuzzingLab专题2:浏览器
FuzzingLab专题3:内核Fuzz入门
隐雾 移动安全第一期&第二期(2024)
守夜人Jaden-IT 吴老板 移动安全攻防逆向大师课(2025)
实验室 Web高级渗透测试工程师-第八期(直播班)(2025)
玄冥 高级内网域渗透(2024-2025)
志远JS逆向直播课(2025)
道一安全 PHP代码审计&渗透测试第一期(2024-2025)
蚁景网安 渗透测试工程师特训班18期(2025)
94 副业课程
路飞学城 小红书副业班第一期(2025)
得安慧 CISP-PTE国家注册渗透测试工程师(2025)
得安慧 CISSP国际注册信息安全专家(2025)
得安慧 CISA国际注册信息系统审计师(2025)
大白哥免杀课6期(2024-2025)
苏木 EDUSRC培训(第二期)(2025)
暗月渗透测试(2025-2026)
Ferry学院 Windows全栈安全开发篇
22 逆向工程与安全
Ferry学院 Windows全栈安全逆向篇
蚁景网安 Src赏金猎人大师班(2025)
蚁景网安 Python网络安全实战班(2025)
大白哥红队攻防演练课(第3期)(2025)
23 游戏逆向
智派学院 Python零基础内存逆向FPS实战教程
路飞JS逆向9期(2025)
如意安全内部Src课程(鸡哥)(2025)
OneFox安全团队 Golang红蓝安全工具开发(2025)
OneFox安全团队 Golang安全开发(2023)
路飞 AI智能体+大模型产品经理实战营第二期(2025)
路飞AI大模型工程师就业班第3期(2025)【非外部流传不完整版本】
代码审计工程师(中级)认证(工信部)(2025)
周瑜 Spring AI(2025)
暗月渗透测试(2022-2024年初)(完整版)
样式大全(自用整理)
真 · 老鑫安全培训第五期-基础+进阶(2025)
咨安 红队武器开发高级进阶(2024-2025)(完整版)(非外面流传的不完整版本)
极安御信 免杀专题(2025)(唯一完整版)
加解密逆向技能速成培训(99逆向速成班)(跟着斯叔唠安全)(2025-2026)
泷羽Sec OSCP+考证培训(2025-2026)
msf专题课分析
逆向研究生 JS逆向&APP逆向(2025)
等级测评师培训第1期(2025)
路飞学城 小红书副业班第三期(2025)
路飞 AI智能体+大模型产品经理实战营第三期(2025)
智榜样 SRC漏洞挖掘陪跑营第二期(2025)
极客事纪 内网域渗透高级安全工程师(2024)
极客事纪 内网域渗透高级安全工程师(2024)
大白哥免杀课7期(2025)
李白你好 实战攻防(第2期)(2025-2026)
隐雾安全Src第7期(2025)
未命名
24 网络封包分析(WPE)
WPE网络封包实战视频教程(2025-2026)
大白哥红队攻防演练课(第5期)(2025)
2025 网络安全课表清单
2026 网络安全课表清单
路飞JS逆向10期(2025-2026)
Timeline Sec 高级红队V2.0(2025)
庆尘Src第3期(2025-2026)
庆尘Src第1期(2025)
路飞 AI智能体+大模型产品经理实战营第四期(2025-2026)
路飞 Agent大师之路(2025-2026)
蚁景网安 渗透测试工程师特训班19期(2026)
极客 AI量化交易训练营(2026)
路飞学城 小红书副业班系列课程(2025-2099)
路飞学城 小红书副业班第一期(2025)
路飞学城 小红书副业班第二期(2025)
实验室 恶意样本分析工程师就业班(2024-2026)
路飞JS逆向10期(2025-2026)
庆尘Src第3期(2025-2026)
庆尘Src第1期(2025)
路飞 AI智能体+大模型产品经理实战营第四期(2025-2026)
蚁景网安 渗透测试工程师特训班19期(2026)
Timeline Sec 高级红队V2.0(2025)
路飞 Agent大师之路(2025-2026)
实验室 恶意样本分析工程师就业班(2024-2026)
路飞学城 小红书副业班系列课程(2025-2099)
极客 AI量化交易训练营(2026)
东方瑞通CISP-PTE渗透测试工程师精讲(2026)
东方瑞通CISP-PTE渗透测试工程师精讲(2026)
东方瑞通CISP渗透测试工程师精讲(2026)
Day 1 Src (Day1安全团队-安全圈王老师)(2025-2099)
地图大师Src 系列课程(2025-2099)
智榜样 SRC漏洞挖掘陪跑营第八期(2026)
上心师傅Src(把爱留在618)(2025-2099)
安全牛OSCP+(2025-2026)
安全牛OSCC(SEC-100 - Security Essentials课程)(2025)
网工2026 软考网络工程师(文老师)(2026-2099)
路飞JS逆向11期(2026)
北山安全Src📕新思路Src漏洞挖掘 (2024-2099)
极客 AI业务流架构师训练营(2026)
极客 AI数据工程训练营(2026)
马哥 大模型应用与工程实践(2026-2027)
B站博主HD236300的JS逆向VIP(2026)
极安御信 红队渗透测试直播班(2026)
看雪 安卓研修班 1W计划(2026)
红队攻击手特训营-第十二期(直播班)(2025-2026)
-
+
首页
极客 AI数据工程训练营(2026)
# 🏷 > #猫咪推荐AI数据工程 #AI数据工程训练营 #AI数据工程 #数据工程 #Lakehouse #Iceberg #dbt #Dagster #RAG工程 #GraphRAG #AgentSkills #FunctionCalling #RAGAS #OpenTelemetry #lakeFS #AI上线治理 --- #### ⬇️获取课程⬇️ <a href="https://fcmit.cc/" target="_blank" style="text-decoration: none; display: flex; align-items: center; justify-content: center; text-align: center;"> <img style="height: 8em; width: auto; margin-right: 10px; pointer-events: none; user-select: none;" src="https://fcmit.cc/lxkf3.png" referrerpolicy="no-referrer" alt="1.png"> </a> # 🔍 课程介绍>>> 是一门围绕 AI 应用上线所需数据工程体系设计的专项实战课程。课程从“Demo 为什么不能直接投产”切入,逐步拆解 AI 从 0 到 1 上线所需的数据路径、数据契约、采集入湖、Lakehouse 底座、Transform 语义层、资产化编排、非结构化数据处理、检索生成一体化、Agent Skills、AI 行为约束、评测、可观测性、GraphRAG、治理与成本控制,最终落到稳定上线交付。 这门课不是单纯讲模型或提示词,而是把 AI 应用背后的数据链路、工程规范、资产治理、回滚追溯、评测监控、成本优化串成一条完整生产闭环。学习者最终能带走的是一套面向 AI 生产环境的数据工程方法:如何让数据可追溯、可验证、可治理,如何让 RAG 与 Agent 消费可信数据,如何通过评测、Tracing、版本治理和 SLO 保障 AI 应用稳定上线。 ## 知识与能力图谱 |阶段|周次与主题|核心知识模块|能力目标|训练/产出物指向| |---|---|---|---|---| |上线认知与数据路径|Week 1 从 Demo 到上线:AI 为什么不能直接用?|AI 从 0 到 1 上线全流程数据路径;Demo 幻觉与生产级架构差异;数据版本控制、权限隔离、质量门禁;RAG 到 Lakehouse 数据管线;PII 处理规范|建立“AI 上线不是模型调用,而是数据工程闭环”的基本认知|项目数据工程化起跑线搭建;合规边界确认| |输入确定性|Week 2 输入确定性保障——数据盘点与数据契约|结构化、非结构化、对话三类数据源盘点;更新频率、增量窗口、权限边界;Schema、业务口径、SLA 的 YAML 契约;字段级 PII 分级脱敏;源端元数据;指标孤岛治理|能将不稳定数据输入转化为机器可读、可校验、可拦截的数据契约|自动生成全量/增量映射与回溯配置;自动拦截脏数据并预警| |采集与入湖|Week 3 采集与入湖——Batch / CDC / Stream 的组合拳|批处理链路、实时链路、CDC 乱序纠偏、Exactly-once、回退策略;数据备份可回放、可溯源、可验收;Backfill 与 Replay|能设计批、流、CDC 组合的数据采集链路,并保证一致性与可验收|链路健康度监控指标;分钟级故障定位机制| |Lakehouse 底座|Week 4 Lakehouse 底座——Iceberg 快照/演进/性能基线|Iceberg 原子提交、快照回溯、时间点数据复现;Hidden Partitioning、Schema Evolution;Compaction、元数据清理、文件大小与扫描量指标;高并发表结构|能构建支持回滚、演进、性能治理的 Lakehouse 表设计|生产级 Iceberg 表结构;检索联动字段与业务状态标记| |Transform 与语义层|Week 5 Transform 与语义层——把口径写进工程|dbt 分层建模;Staging 到 Marts;增量转换、自动化测试、文档生成、CI 集成;MetricFlow/dbt Semantic Layer;查询工具封装;口径变更影响分析|能将指标口径从“人脑约定”变为工程资产,减少 Agent 误查和口径歧义|受控 Tools;权限过滤、参数校验、审计日志;指标血缘图谱| |资产化编排|Week 6 资产化数据工厂——编排、回填与可追溯|从任务运行转向数据资产状态;Dagster 声明式编排;分区、回填、幂等重试;全链路血缘;协作规范|能把数据生产过程资产化,使变更、代码版本、上游输入可追踪|上游到 AI 消费端的元数据映射;团队协作变更流程| |非结构化数据工程|Week 7 非结构化数据工程|智能文档解析 IDP;PDF/网页布局识别;标题层级、页码坐标元数据;语义切片、固定长度切片、Overlap;证据链溯源;抽样质检与回归对照|能把文档、网页等非结构化资料转为可检索、可定位、可质检的数据资产|切片质量抽样规则;版本对比机制;证据链元数据设计| |检索生成闭环|Week 8 检索 × 生成的一体化工程闭环|向量 + BM25 双路召回;RRF 排序;Cross-Encoder 重排;Top-K 噪声过滤;Embedding 与切片治理;pgvector;RAG API;JSON Schema / Function Calling;Prompt as Code|能构建从索引、检索、重排、生成到输出约束的完整 RAG 工程链路|标准化 RAG 服务契约;Prompt 模板、版本、评测结果关联| |Agent 能力封装|Week 9 核心工作流 Skills 化封装|Agent Skills 价值;工程工艺从口头规则转为可迁移交付物;SKILL.md;YAML frontmatter;scripts、references、assets;Progressive Disclosure|能将可复用工作流沉淀为 Skill Pack,供不同 Agent/IDE/平台复用|可审计、可版本化、可评测、可回滚的 Skill Pack| |AI 行为约束|Week 10 AI 行为的工程化约束与资产消费闭环|工具输入输出 JSON Schema;幂等性、权限校验、审计日志;Function Calling 消费语义层指标与检索服务;多工具路由、失败回退、HITL;行为结果写入 Iceberg 快照 ID|能让 Agent 在工程约束下消费数据资产,而不是自由访问原始数据|工具选择策略;降级路径;人工介入节点;AI 行为到支撑数据的溯源| |自动化评测|Week 11 自动化评测与 RAGAS 实战|评测集资产化;问题-答案-证据三元组;FAQ、边界案例、反例、多跳推理;Faithfulness、答案相关性、上下文精准度;CI/CD 回归门禁;A/B Test;LLM-as-a-Judge;业务指标体系|能建立从样本生成、评测、回归、改进到业务指标跟踪的评测流水线|效果退化自动拦截;生产-评测-改进反馈闭环| |可观测性|Week 12 OpenTelemetry 与 Tracing 全链路可观测性|OpenInference 标准协议;OpenTelemetry 采集 LLM 输入输出、Token 消耗、Tool Call 耗时;Trace ID;Span 级链路追踪;实时监控仪表盘;Bad Case 复盘模板|能把一次 AI 请求拆解为可追踪、可定位、可复盘的工程链路|质量+性能双维监控;P99 延迟、失败率、幻觉率告警;定位-修复-回归验证模板| |GraphRAG|Week 13 GraphRAG 处理跨文档关系与全局归纳|RAG 与 GraphRAG 能力边界;图结构增强;实体关系显式化;轻量知识图谱;图检索策略;Prompt 注入图结构;A/B 对比|能判断何时需要 GraphRAG,并用图结构处理跨文档关系、总结归因、多跳推理|图结构检索与普通向量检索并行评估;适用场景与成本收益总结| |治理与版本控制|Week 14 AI 数据治理与版本控制|lakeFS 分支概念;数据、索引、Prompt 原子级绑定发布与秒级回滚;OpenLineage/OpenMetadata 生命周期图谱;合规审计白皮书;Canary 验证;灰度发布|能把 AI 应用相关的数据、索引、Prompt、评测、Trace 纳入统一治理和版本发布体系|不可篡改上线合规白皮书;灰度流量分配策略;自动发布或回滚决策| |稳定上线交付|Week 15 降本增效,打通稳定上线闭环|Embedding/检索/生成/存储成本模型;重复请求优化;多级缓存、限流、分层召回、降级;模型超时降级 BM25;SLO 与应急 Runbook;Capstone 产品包交付|能整合 15 周成果,形成可演示、可回归、可上线的 AI 数据工程产品包|上线资料、运维交接文档、应急手册、产品包| ## 深度亮点剖析 ### 亮点一:从“AI Demo”直接切入生产落差 课程开头不是讲工具安装,也不是讲单点技术,而是先回答“AI 为什么不能直接用”。这一点决定了课程的工程化基调:它把幻觉、数据版本、权限隔离、质量门禁、合规边界、RAG 到 Lakehouse 的数据管线都放在上线场景里讨论。 这意味着课程关注的核心问题不是“能不能跑通一次问答”,而是: |Demo 阶段问题|课程中的生产化处理| |---|---| |数据来源不清|数据盘点、源端元数据、数据契约| |指标口径不一致|MetricFlow/dbt Semantic Layer、语义层指标一次定义| |检索结果不可控|向量 + BM25、RRF、Cross-Encoder、Top-K 质量拦截| |AI 行为不可追踪|Function Calling、JSON Schema、审计日志、Trace ID| |上线后不可回滚|Iceberg 快照、lakeFS 分支、灰度发布与秒级回滚| |效果退化难发现|RAGAS、CI/CD 门禁、A/B Test、LLM-as-a-Judge| |成本不可控|成本模型、多级缓存、限流、分层召回、降级策略| 这种设计让课程更像一套“AI 数据工程上线方法论”,而不是零散的数据工具教程。 ### 亮点二:Lakehouse、dbt、Dagster、Iceberg 被组织成一条数据生产线 课程没有孤立讲 Lakehouse 或 dbt,而是将它们放在“数据从进入系统到被 AI 消费”的链路中: - Week 3 解决数据如何稳定进入湖仓,包括 Batch、CDC、Stream、Backfill、Replay。 - Week 4 解决湖仓底座如何支持快照、回溯、Schema 演进和性能治理。 - Week 5 解决数据进入语义层后,指标口径如何工程化、测试化、文档化。 - Week 6 进一步用资产化编排,把任务运行升级为数据资产状态管理。 这里的训练重点不是“会用某个工具”,而是把数据接入、湖仓存储、Transform、语义层、编排、血缘、回填串成可维护的生产管线。课程多次强调“可回放、可溯源、可验收、可回滚”,说明它的目标是让数据链路承担 AI 应用的生产责任。 ### 亮点三:RAG 被拆成完整工程系统,而不是检索增强问答技巧 RAG 相关内容覆盖 Week 7 到 Week 13,跨度很大,说明课程将 RAG 视为数据工程系统,而不是一个简单调用框架。 课程对 RAG 的拆解路径非常细: |RAG 工程环节|对应课程内容| |---|---| |文档解析|IDP、PDF/网页布局识别、标题层级、页码坐标元数据| |切片策略|固定长度切片、自适应切分、Overlap、上下文连续性| |证据追踪|原文件指纹、页码、坐标元数据、证据链溯源| |召回|向量 + BM25 双路召回| |排序|RRF、Cross-Encoder 重排| |质量控制|Top-K 噪声过滤、生成前质量拦截| |服务化|RAG API、强制输出证据引用、片段 ID、置信度| |输出约束|JSON Schema、Function Calling| |评测|RAGAS、Faithfulness、答案相关性、上下文精准度| |可观测|OpenTelemetry、Trace ID、Span 级追踪| |进阶增强|GraphRAG、实体关系、图检索、跨文档归纳| 这种拆解方式把 RAG 从“能回答”推进到“能审计、能评测、能复盘、能治理”。 ### 亮点四:将 Agent 使用数据的行为纳入工程约束 课程在 Week 9 和 Week 10 处理 Agent 相关内容,但重点不是 Agent 概念,而是“如何让 Agent 按工程规则消费数据”。 Week 9 的 Skills 化封装强调把工程工艺从口头规则变成可复用、可迁移、可治理的 Skill Pack。Week 10 则进一步规定工具输入输出、权限校验、幂等性、审计日志、多工具路由、失败回退、HITL 节点,以及将 Agent 决策动作标记到 Iceberg 快照 ID。 这使课程中的 Agent 不再是自由调用工具的黑盒,而是被限制在以下机制中运行: |约束维度|课程设计| |---|---| |输入输出|JSON Schema 契约| |数据访问|不直接访问原始表,通过受控 Tools 和语义层消费| |权限与安全|权限校验、审计日志| |失败处理|工具选择策略、降级路径、人工介入| |结果追溯|AI 行为关联 Iceberg 快照 ID| |复用治理|Skill Pack 版本、评测、可观测、回滚| 这部分体现出课程对“AI 行为生产化”的关注:不是只让 Agent 完成任务,而是让它的每一步可控、可查、可回放。 ### 亮点五:评测、Tracing、治理、成本控制形成上线闭环 后半段课程明显转向生产运营能力。Week 11 到 Week 15 依次处理评测、可观测、GraphRAG、治理、成本与上线交付。 这条路径很清晰: - 先用 RAGAS、LLM-as-a-Judge、A/B Test 建立效果评测。 - 再用 OpenTelemetry、OpenInference、Trace ID 建立链路可观测性。 - 然后用 GraphRAG 处理普通 RAG 难以覆盖的跨文档关系和全局归纳问题。 - 接着用 lakeFS、OpenLineage、OpenMetadata 做版本、血缘、合规治理。 - 最后用成本模型、缓存、降级、SLO、Runbook 和 Capstone 交付稳定上线产品包。 这说明课程不是止步于“项目完成”,而是推进到“上线后如何稳定运行、发现问题、控制成本、快速回滚”。 ### 亮点六:实战强度体现在“交付物链条”而非单次作业 截图中虽未展开每周“实践项目”页签,但详细内容本身已经包含大量产出型训练: |训练类型|具体体现| |---|---| |契约设计|YAML 契约、字段级 PII 分级脱敏规则、JSON Schema| |数据工程实现|Batch/CDC/Stream 入湖、Iceberg 表结构、dbt 分层建模、Dagster 编排| |质量治理|质量门禁、脏数据拦截、抽样质检、回归对照| |检索生成系统|混合检索、重排、RAG API、Prompt as Code| |Agent 工程化|Skill Pack、工具契约、多工具路由、HITL| |评测与监控|RAGAS、CI/CD 门禁、Trace 追踪、监控仪表盘| |上线交付|lakeFS 版本发布、Canary 验证、SLO、Runbook、Capstone 产品包| 因此课程的实战强度不是靠“案例数量”堆出来的,而是靠每个模块都指向可落地的工程资产。 ## 行业/专业背景溯源 ### Lakehouse 课程中 Lakehouse 出现在 Week 1、Week 4、Week 14,主要作为 AI 数据链路的底座。它承接从 RAG 数据管线到 Iceberg 表结构、快照、回滚、Schema 演进、性能基线,再到 lakeFS 分支治理的能力。课程语境下的 Lakehouse 不是泛泛的数据平台概念,而是支持 AI 应用上线所需的可追溯、可回滚、可演进数据底座。 ### Iceberg Iceberg 在课程中承担生产级表设计与回溯能力。Week 4 明确围绕 Iceberg 快照、原子提交、快照回溯、Hidden Partitioning、Schema Evolution、Compaction、元数据清理展开;Week 10 又将 Agent 决策动作标记到 Iceberg 快照 ID,用于实现“AI 行为 → 支撑数据”的完整溯源。 ### dbt、MetricFlow、dbt Semantic Layer 这些内容集中在 Week 5,用来把指标口径写入工程。课程强调从 Staging 到 Marts 的分层建模、增量转换、自动化测试、文档生成、CI 集成,并通过 MetricFlow/dbt Semantic Layer 实现指标“一次定义,处处复用”。在课程语境中,它们服务于语义层治理,目标是减少指标孤岛和 Agent 直接访问原始表带来的风险。 ### Dagster Dagster 出现在 Week 6,用于资产化编排。课程并不只是讲任务调度,而是强调从“关注任务运行”转向“关注数据资产状态”,利用声明式编排、分区、回填、幂等重试、血缘追溯来确保生产确定性。 ### IDP IDP 出现在 Week 7,课程称为“智能文档解析”。其作用是处理 PDF、网页等非结构化数据,保留表格结构、标题层级、页码坐标等关键元数据,为后续切片、检索、证据链溯源和质量抽样提供基础。 ### BM25、RRF、Cross-Encoder、pgvector 这些术语集中在 Week 8,构成检索工程化能力。BM25 与向量检索组成双路召回,RRF 用于确定性与语义性之间的平衡排序,Cross-Encoder 用于重排与过滤 Top-K 噪声片段,pgvector 用于向量、元数据、业务状态同库存储。 ### Function Calling 与 JSON Schema Function Calling 和 JSON Schema 出现在 Week 8 与 Week 10。课程将它们用于约束输出结构、规范工具输入输出、保证下游可消费,并让 Agent 按数据契约和业务规则执行动作。 ### Agent Skills 与 SKILL.md Week 9 将 Agent Skills 作为工程能力封装方式。课程中的 Skill 以目录为单位,核心锚点是 SKILL.md,包含 YAML frontmatter 和 Markdown 指令正文,并可配套 scripts、references、assets。它的作用是把工程工艺变成可复用、可迁移、可审计、可版本化的交付物。 ### RAGAS 与 LLM-as-a-Judge Week 11 使用 RAGAS 做多维量化评测,指标包括 Faithfulness、答案相关性、上下文精准度。LLM-as-a-Judge 用于自动生成高质量评测样本,构建“生产 → 评测 → 改进”的反馈闭环。 ### OpenTelemetry、OpenInference、Tracing Week 12 处理全链路可观测性。OpenTelemetry 用于采集 LLM 输入输出、Token 消耗、Tool Call 耗时;OpenInference 标准协议用于集成;Trace ID 和 Span 追踪用于还原从用户请求到检索、重排、生成、工具调用的级联链路。 ### GraphRAG Week 13 将 GraphRAG 用于跨文档关系与全局归纳。课程强调判断 RAG 与 GraphRAG 的能力边界,在需要总结、归因、多跳推理时引入图结构增强,并通过实体关系显式化、轻量知识图谱、图检索策略和 A/B 对比评估效果。 ### lakeFS、OpenLineage、OpenMetadata Week 14 中,lakeFS 用于将 Lakehouse 引入“分支”概念,实现数据、索引、Prompt 的原子级绑定发布与秒级回滚。OpenLineage/OpenMetadata 用于捕捉完整生命周期图谱,支撑血缘分析、影响评估和合规审计。 ### SLO 与 Runbook Week 15 中,SLO 用来定义线上服务目标,并结合 Week 11 评测与 Week 12 监控建立基准。Runbook 则作为应急手册,覆盖核心链路故障、数据回滚、模型切换等上线后的运维场景。 ## 课程定位判别 这是一门**面向 AI 应用生产上线的数据工程专项实战课程**,层级偏进阶到生产级实战。 从课程内容看,它不适合被定位为 AI 入门课。课程大量涉及 Lakehouse、Iceberg、dbt、Dagster、CDC、Stream、Schema Evolution、RAGAS、OpenTelemetry、GraphRAG、lakeFS、SLO、Runbook 等工程术语,并且每周都围绕生产约束展开,如质量门禁、数据契约、权限隔离、审计日志、灰度发布、回滚、Tracing、成本模型、Capstone 产品包。 它的学习目标不是让学员理解 AI 基本概念,而是训练学员把 AI 应用背后的数据链路搭成可上线系统。课程深度集中在“数据如何成为 AI 可安全消费的资产”,并通过评测、监控、治理、成本控制保障上线后的稳定运行。 ## 适合什么人看 ### 适合人群 |人群|适配原因| |---|---| |数据工程师|课程主体围绕数据采集、入湖、Lakehouse、Transform、编排、血缘、治理与成本控制展开| |AI 应用工程师 / RAG 工程师|课程系统覆盖文档解析、切片、检索、重排、RAG API、评测、Tracing、GraphRAG| |数据平台 / 数据架构方向从业者|课程强调数据契约、语义层、资产化编排、版本发布、灰度回滚、合规审计| |负责 AI 应用上线的技术负责人|课程完整覆盖从 Demo 到生产上线的关键风险:幻觉、权限、质量、评测、监控、成本、回滚| |希望把 Agent 落到业务系统中的工程人员|Week 9、Week 10 专门处理 Skills 封装、工具契约、Function Calling、失败回退、HITL 和行为溯源| ### 需要的学习基础 从术语密度看,学习者最好已经能理解数据链路、表结构、指标口径、数据建模、任务编排、API、CI/CD、监控等工程概念。课程虽然从 Demo 到上线讲起,但中后段很快进入生产级设计,不是零基础概念普及型课程。 ### 不太适合的人群 只想学习提示词写法、模型基础原理、单机 RAG Demo 或纯业务视角 AI 应用介绍的人,可能会觉得这门课工程细节过重。课程重点在“AI 数据工程生产化”,而不是 AI 工具体验或模型科普。 # ☁️ 网盘目录(仅展示部分目录)>>> <div class="link-preview-window" style="width:100%; max-width:100%; height:600px; margin:16px 0; overflow:hidden; border-radius:8px;"> <iframe src="https://wp.fcmit.cc/cxdlj/XCguT5Er" style="display:block; width:100%; height:100%; border:0;"></iframe> </div>
发财猫的IT仓库
2026年5月12日 02:02
24
0 条评论
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
Word文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码
有效期