大模型基石 AI 分布式存储工程实战

从0到1构建企业级 AI 存储平台,掌握海量数据存储集群部署、调优、AI对接技术,成为 AI 基座稀缺高薪人才

已完结
|
难度:初级
|
时长:共 25 小时
新课榜第 10 名
优惠到手 339
原价¥399.00
满1788减500 满1188减280 满888减180 满588减100 满388减60 满188减15

更多

距离活动结束
立即购买
加购物车
  • 掌握AI场景存储架构设计
  • 掌握分布式存储故障处理技术
  • 掌握AI+存储深度对接方案
  • 掌握企业级监控系统搭建
  • 掌握 Ceph 企业级部署技巧
  • 积累 AI+存储项目开发经验
试看本节课 13:56
试看本节课 05:21
试看本节课 06:34
1-1 AI+Ceph 分布式存储工程实战--课程导学
2-4 技术红利前瞻:早期布局存储技术的个人与企业机遇
3-1 集群架构设计:从规划到部署的全局视角

课程预览

检测到您还没有关注慕课网服务号,无法接收课程更新通知。请扫描二维码即可绑定
重新观看
AI 算力狂飙,存储成为新战场。大模型训练需求年增10倍,80%企业面临存储架构与AI脱节瓶颈——数据加载慢、扩容难等问题。市场急需"懂AI的存储工程师",岗位薪资涨幅达25%+,具备 AI 场景经验者年薪超50万。本课程聚焦 Ceph 技术与 AI 大模型训练场景融合,结合 JuiceFS 加速、DeepSeek 实战,PB级存储架构设计、高并发优化、生产级故障恢复技能,助你快速成为"存储+AI"复合型工程师,抢占AI时代高薪赛道。

本章介绍:

本章主要对整体课程内容进行全面介绍,包括课程内容安排、学习收获、课程适应人群、学习建议等,让大家在最短的时间内,对课程有整体的了解。

第1章 AI+Ceph分布式存储工程实战--课程导学
1 节|14分钟
展开
  • 视频:
    1-1 AI+Ceph 分布式存储工程实战--课程导学
    试看
    13:56

本章介绍:

本章将为你揭示数据在AI革命中的基石作用,系统阐述大数据、算力与算法的协同关系,并重点解析分布式存储如何成为大模型不可或缺的基础设施。你将掌握分布式存储的六大核心优势与技术全景,理解其从传统存储到云存储的演进逻辑,并洞见AI与存储融合的未来趋势。

第2章 AI时代的数据基石
9 节|75分钟
收起
  • 视频:
    2-1 AI发展的核心要素:数据、算力与算法的协同演进
    06:06
  • 视频:
    2-2 分布式存储:大模型时代的必备基础设施
    06:46
  • 视频:
    2-3 六大优势解读:为何分布式存储是AI人才必争之地
    07:37
  • 视频:
    2-4 技术红利前瞻:早期布局存储技术的个人与企业机遇
    试看
    05:21
  • 视频:
    2-5 技术全景扫描:AI分布式存储体系全解析
    10:52
  • 视频:
    2-6 从本地到云:存储演进与分布式存储的本质
    13:22
  • 视频:
    2-7 存储类型解析:分布式存储的多元应用场景
    11:47
  • 视频:
    2-8 未来趋势:AI与存储的深度融合与协同进化
    07:17
  • 视频:
    2-9 主流大模型盘点:国内外AI存储需求对比分析
    05:16

本章介绍:

本章将为你系统讲解构建企业级Ceph集群的完整规划与准备工作。你将学会从硬件选型、操作系统配置到自动化运维工具(Ansible)部署的全流程环境搭建方法,掌握内部软件源、时间同步及安全加固等关键生产级实践,为后续集群部署奠定坚实基础。

第3章 搭建生产级分布式存储集群环境准备
9 节|124分钟
收起
  • 视频:
    3-1 集群架构设计:从规划到部署的全局视角
    试看
    06:34
  • 视频:
    3-2 初探Ceph:开源分布式存储系统的核心架构
    09:56
  • 视频:
    3-3 硬件选型与配置:构建高可靠存储节点的关键要素
    17:41
  • 视频:
    3-4 操作系统与环境配置:打造稳定的集群运行基石
    26:57
  • 视频:
    3-5 内部Yum源搭建:实现规模化高效部署
    21:18
  • 视频:
    3-6 Ansible自动化运维:批量配置与管理的利器
    09:39
  • 视频:
    3-7 Chrony时间同步:保障分布式系统一致性的守护者
    15:41
  • 视频:
    3-8 节点安全加固:基础防护与访问控制策略
    12:34
  • 视频:
    3-9 本章回顾:环境准备的关键要点总结
    03:24

本章介绍:

本章将带你完成从0到1部署生产级Ceph集群的全程实战。你将亲手完成Monitor初始化、MGR部署、OSD批量添加,并深入掌握副本与纠删码存储池的设计策略、PG动态调整及CRUSH地图定制等核心技能,真正获得构建与设计分布式存储集群的能力

第4章 从零打造你的分布式存储集群
11 节|181分钟
展开
  • 视频:
    4-1 生产级集群部署:从规划到上线的全流程
    06:09
  • 视频:
    4-2 Monitor部署与集群初始化
    24:16
  • 视频:
    4-3 MGR深度解析:集群监控与管理的智能中枢
    07:58
  • 视频:
    4-4 OSD批量部署:标准化硬盘初始化实战 (一)
    19:16
  • 视频:
    4-5 OSD批量部署:标准化硬盘初始化实战 (二)
    25:07
  • 视频:
    4-6 副本存储池设计:为AI小文件训练优化性能 (一)
    16:25
  • 视频:
    4-7 副本存储池设计:为AI小文件训练优化性能 (二)
    17:30
  • 视频:
    4-8 EC纠删码存储池设计:大文件存储的经济高效方案
    24:38
  • 视频:
    4-9 PG动态调优实战:实现存储池的智能负载均衡
    16:59
  • 视频:
    4-10 CRUSH地图定制:掌握数据分布与故障域的设计艺术
    18:52
  • 视频:
    4-11 本章回顾:集群部署核心技能总结
    02:54

本章介绍:

本章将为你深入解析对象存储架构,并通过实战掌握Ceph RGW的完整能力。你将学会对象存储池规划、多网关高可用部署、生命周期与垃圾回收策略配置,并完成与PyTorch、JuiceFS及自研测试工具(Python/Go)的集成实践,打造面向AI数据湖的现代对象存储方案。

第5章 分布式存储集群中的对象存储
18 节|282分钟
展开
  • 视频:
    5-1 对象存储架构解析:数据访问模式与设计原则
    05:00
  • 视频:
    5-2 Ceph RGW:开源S3兼容存储的实现之道
    05:05
  • 视频:
    5-3 存储池功能划分:策略化数据管理(一)
    25:39
  • 视频:
    5-4 存储池功能划分:策略化数据管理(二)
    12:45
  • 视频:
    5-5 多RGW高可用部署:构建弹性对象存储门户(一)
    16:48
  • 视频:
    5-6 多RGW高可用部署:构建弹性对象存储门户(二)
    14:49
  • 视频:
    5-7 生命周期策略实战:智能数据清理与归档
    28:48
  • 视频:
    5-8 GC机制与空间优化:垃圾回收原理与配置
    10:48
  • 视频:
    5-9 元数据管理模式:Index与Indexless的优劣对比
    24:23
  • 视频:
    5-10 功能验证实战:使用s3cmd全面测试对象存储
    09:22
  • 视频:
    5-11 压力测试实战:CosBench揭示系统性能边界(一)
    14:13
  • 视频:
    5-12 压力测试实战:CosBench揭示系统性能边界(二)
    14:34
  • 视频:
    5-13 Python对接实战:开发面向DeepSeek的对象存储测试工具
    26:44
  • 视频:
    5-14 Go语言实战:高性能测试与数据清理程序开发(一)
    17:24
  • 视频:
    5-15 Go语言实战:高性能测试与数据清理程序开发(二)
    16:33
  • 视频:
    5-16 AI训练对接实战:PyTorch直接读写对象存储数据
    16:31
  • 视频:
    5-17 JuiceFS加速实战:为AI训练构建缓存加速层
    18:38
  • 视频:
    5-18 本章回顾:对象存储核心能力与AI集成总结
    03:26

本章介绍:

本章将为你剖析Ceph RBD块存储的核心引擎与优化原理。你将通过实战掌握块存储池设计、快照与克隆技术、性能测试工具(FIO/vdbench)使用,并完成与Kubernetes AI训练集群的对接,获得支撑云平台与高性能计算场景的块存储部署与管理能力。

第6章 分布式存储集群中的块存储
9 节|117分钟
展开
  • 视频:
    6-1 块存储核心引擎解析:性能优化与架构设计
    05:25
  • 视频:
    6-2 Ceph RBD深度解读:云计算的存储底层逻辑
    09:11
  • 视频:
    6-3 存储池优化实战:数据与元数据分离架构
    16:21
  • 视频:
    6-4 快照功能实战:实现块设备的高效数据保护
    15:02
  • 视频:
    6-5 快速克隆实战:秒级复制TB级数据的奥秘
    14:13
  • 视频:
    6-6 性能测试实战:FIO与VDBench工具深度使用
    18:40
  • 视频:
    6-7 AI训练场景实战:K8s集群与块存储无缝对接(一)
    17:01
  • 视频:
    6-8 AI训练场景实战:K8s集群与块存储无缝对接(二)
    16:56
  • 视频:
    6-9 本章回顾:块存储在企业与AI场景中的应用总结
    03:55

本章介绍:

本章将为你解析分布式文件系统(CephFS)的架构与高性能共享方案。你将掌握文件系统分层设计、挂载优化、性能对比选型(JuiceFS/NFS/Samba)等实战技能,并实现PyTorch与分布式文件系统的直连访问,具备构建与管理海量非结构化数据存储平台的能力。

第7章 实现PB级别的分布式文件存储
8 节|89分钟
展开
  • 视频:
    7-1 文件系统架构解析:共享存储与高性能访问
    04:13
  • 视频:
    7-2 CephFS机制揭秘:突破容量与性能瓶颈的设计
    07:02
  • 视频:
    7-3 分层存储实战:数据与元数据分离的高级配置
    11:08
  • 视频:
    7-4 业务挂载与优化实战:参数调优与性能提升
    16:53
  • 视频:
    7-5 JuiceFS vs CephFS:AI训练场景下的存储选型
    15:21
  • 视频:
    7-6 企业级文件系统对比:CephFS、NFS、Samba全解析
    18:21
  • 视频:
    7-7 AI训练直连实战:PyTorch与分布式文件系统无缝集成
    11:25
  • 视频:
    7-8 本章回顾:PB级文件存储架构与AI适配总结
    04:18

本章介绍:

本章将为你构建企业级分布式存储监控体系的完整能力。你将学会部署并整合Prometheus、Grafana、Alertmanager核心监控栈,实现对集群硬件、Ceph组件及业务性能的全维度指标采集与可视化,最终建立起具备智能告警与自定义监控能力的可观测性平台。

第8章 分布式集群的监控搭建和管理运维
11 节|160分钟
展开
  • 视频:
    8-1 可观测性设计:监控体系构建的原则与方法
    06:01
  • 视频:
    8-2 监控告警体系搭建实战:从原理到实现
    09:14
  • 视频:
    8-3 Prometheus部署实战:云原生时序数据存储方案
    11:58
  • 视频:
    8-4 Grafana可视化实战:打造业务监控全景看板
    13:40
  • 视频:
    8-5 节点监控实战:Node Exporter部署与数据采集 (一)
    17:04
  • 视频:
    8-6 节点监控实战:Node Exporter部署与数据采集(二)
    17:38
  • 视频:
    8-7 业务监控实战:MGR模块数据导出与分析
    14:58
  • 视频:
    8-8 集群指标采集实战:Ceph Exporter集成与配置
    10:29
  • 视频:
    8-9 告警通知实战:Alertmanager多通道告警策略
    30:41
  • 视频:
    8-10 自定义监控实战:Shell脚本采集与推送指标
    23:41
  • 视频:
    8-11 本章回顾:分布式存储监控体系全栈总结
    04:09

本章介绍:

本章将为你提供深度优化存储集群性能与稳定性的系统方法。你将掌握从万兆网络传输优化、操作系统内核参数调整,到Ceph OSD核心引擎精细配置的全链路调优技能,学会在保障数据安全(Scrub)的同时最大化I/O性能,以满足AI训练等高负载场景的极致要求。

第9章 分布式存储系统集群调优
9 节|122分钟
展开
  • 视频:
    9-1 性能分析方法论:从监控到调优的系统路径
    05:56
  • 视频:
    9-2 调优必要性分析:理解系统软硬件性能边界
    04:19
  • 视频:
    9-3 网络调优实战:万兆环境下的传输优化策略(一)
    16:01
  • 视频:
    9-4 网络调优实战:万兆环境下的传输优化策略(二)
    17:17
  • 视频:
    9-5 系统稳定性调优:内核参数与资源限制优化(一)
    21:27
  • 视频:
    9-6 系统稳定性调优:内核参数与资源限制优化(二)
    12:56
  • 视频:
    9-7 OSD参数调优实战:性能与稳定的平衡艺术
    22:09
  • 视频:
    9-8 数据安全调优:Scrub机制原理与参数建议
    18:14
  • 视频:
    9-9 本章回顾:集群性能优化关键点总结
    02:45

本章介绍:

本章将为你系统构建生产环境故障应对与根因分析的能力。你将通过大量真实场景(如磁盘损坏、节点宕机、网络变更、数据恢复等)的实战演练,掌握标准化应急流程、高级数据恢复手法及常见故障的排查思路,成长为能够保障集群高可用的资深运维工程师。

第10章 生产级分布式存储集群中常见的故障问题处理及排查
13 节|224分钟
展开
  • 视频:
    10-1 故障处理工程实践:方法论与应急流程
    09:41
  • 视频:
    10-2 告警响应策略:从告警到处置的标准化路径
    08:06
  • 视频:
    10-3 磁盘故障处理:OSD坏盘替换与数据重建
    22:34
  • 视频:
    10-4 服务中断应急:Monitor宕机恢复方案
    14:20
  • 视频:
    10-5 网络变更规划:集群IP迁移与配置更新
    27:12
  • 视频:
    10-6 存储资源规划:集群扩容与缩容操作指南
    16:56
  • 视频:
    10-7 多盘损坏应急:超越副本容忍度的数据恢复
    26:15
  • 视频:
    10-8 写入过载处理:OSD Full状态应急与预防
    29:26
  • 视频:
    10-9 高级调试手法:Ceph源码编译与机制探析
    18:23
  • 视频:
    10-10 数据恢复:操作系统重装后的OSD快速恢复(一)
    14:33
  • 视频:
    10-11 数据恢复:操作系统重装后的OSD快速恢复(二)
    13:26
  • 视频:
    10-12 故障排查经验集:常见问题分类与处理思路
    20:06
  • 视频:
    10-13 本章回顾:故障处理与运维实战能力总结
    02:08

本章介绍:

本章将为你开启分布式存储与AI大模型深度融合的创新实践。你将完成DeepSeek私有化助手的快速部署,掌握基于专属数据的知识库构建与模型微调,并开发智能日志分析与磁盘预警AI应用,亲身实践存储基础设施与AI智能体的协同演进。

第11章 DeepSeek推理大模型在分布式集群的应用
6 节|78分钟
展开
  • 视频:
    11-1 DeepSeek大模型解析:推理架构与运行原理
    09:49
  • 视频:
    11-2 私有化AI助手部署实战:5分钟快速安装指南
    16:24
  • 视频:
    11-3 专属知识库构建实战:基于分布式存储的模型微调
    15:42
  • 视频:
    11-4 AI运维系统实战:打造智能日志分析与异常检测平台
    12:45
  • 视频:
    11-5 智能磁盘预警实战:训练基于大模型的故障预测系统
    18:03
  • 视频:
    11-6 本章回顾:存储与AI融合创新的未来展望
    04:45

本章介绍:

本章主要对课程内容进行全面总结,帮助大家梳理课程重难点,以便确保大家能够达到最好的学习效果。

第12章 AI+Ceph分布式存储工程实战--课程总结
1 节|12分钟
展开
  • 视频:
    12-1 AI+Ceph分布式存储工程实战--课程总结
    11:08
本课程已完结
适合人群
想进阶为AI分布式存储运维的传统运维人员
想要拓展分布式存储能力的后端工程师
想要补齐存储架构与AI对接短板的全栈工程师
想具备分布式对象/块/文件存储开发经验的开发者
对AI分布式存储技术感兴趣的其他技术人员
技术储备
具备Linux、Python基础
环境参数
Linux环境 Rocky 8.10
存储集群版本 Ceph 16.2.15
Python版本 Python3.10
监控系统软件 Prometheus、Node_exporter、Alertmanager
奋斗的松鼠哥
存储研发专家,运维专家, 已有166个学生
不为别的,只为提升面试通过率
尽管课程时间很长,
但没关系,我们有老师的陪伴,
还有同学之间互相鼓励,彼此帮助,
完成学习后,还能获得慕课网官方认证的证书。
立即购买
数据加载中...
《大模型基石 AI 分布式存储工程实战》的真实评价
综合评分:分,共 人参与
篇幅原因,只展示最近100条评价
//

学习咨询

选课、学习遇到问题?

扫码添加指导老师 1V1 帮助你!

添加后老师会第一时间解决你的问题

¥

无门槛

::
立即使用
¥ ??

登录后领取优惠补贴

立即领取
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号