大數據建模與分析挖掘應用實戰(zhàn)(廣州,5月20-22日)
【舉辦單位】北京曼頓培訓網 www.mdpxb.com 中國培訓資訊網 www.e71edu.com
【咨詢電話】4006820825 010-56133998 13810210257
【培訓日期】
上海,2018年4月22-24日;廣州,2018年5月20-22日
成都,2018年6月3-5日
【培訓地點】上海、廣州、成都
【培訓對象】
1.大數據分析應用開發(fā)工程師
2.大數據分析項目的規(guī)劃咨詢管理人員
3.大數據分析項目的IT項目高管人員
4.大數據分析與挖掘處理算法應用工程師
5.大數據分析集群運維工程師
6.大數據分析項目的售前和售后技術支持服務人員
【課程背景】
大數據建模與分析挖掘技術已經逐步地應用到新興互聯網企業(yè)(如電子商務網站、搜索引擎、社交網站、互聯網廣告服務提供商等)、銀行金融證券企業(yè)、電信運營等行業(yè),給這些行業(yè)帶來了一定的數據價值增值作用。
■本次課程面向有一定的數據分析挖掘算法基礎的工程師,帶大家實踐大數據分析挖掘平臺的項目訓練,系統(tǒng)地講解數據準備、數據建模、挖掘模型建立、大數據分析與挖掘算法應用在業(yè)務模型中,結合主流的Hadoop與Spark大數據分析平臺架構,實現項目訓練。
■結合業(yè)界使用最廣泛的主流大數據平臺技術,重點剖析基于大數據分析算法與BI技術應用,包括分類算法、聚類算法、預測分析算法、推薦分析模型等在業(yè)務中的實踐應用,并根據講師給定的數據集,實現兩個基本的日志數據分析挖掘系統(tǒng),以及電商(或內容)推薦系統(tǒng)引擎。
■本課程基本的實踐環(huán)境是Linux集群,JDK1.8, Hadoop 2.7.*,Spark 2.1.*。
■學員需要準備的電腦最好是i7三代及以上CPU,8GB及以上內存,硬盤空間預留50GB(可用移動硬盤),基本的大數據分析平臺所依賴的軟件包和依賴庫等,講師已經提前部署在虛擬機鏡像(VMware鏡像),學員根據講師的操作任務進行實踐。
■本課程采用技術原理與項目實戰(zhàn)相結合的方式進行教學,在講授原理的過程中,穿插實際的系統(tǒng)操作,本課程講師也精心準備的實際的應用案例供學員動手訓練。
【培訓目標】
1.本課程讓學員充分掌握大數據平臺技術架構、大數據分析的基本理論、機器學習的常用算法、國內外主流的大數據分析與BI商業(yè)智能分析解決方案、以及大數據分析在搜索引擎、廣告服務推薦、電商數據分析、金融客戶分析方面的應用案例。
2.本課程強調主流的大數據分析挖掘算法技術的應用和分析平臺的實施,讓學員掌握主流的基于大數據Hadoop和Spark的大數據分析平臺架構和實際應用,并用結合實際的生產系統(tǒng)案例進行教學,掌握基于Hadoop、spark大數據平臺的數據挖掘和數據倉庫分布式系統(tǒng)平臺應用,以及商業(yè)和開源的數據分析產品加上Hadoop平臺形成大數據分析平臺的應用剖析。。
3.讓學員掌握常見的機器學習算法,深入講解業(yè)界成熟的大數據分析挖掘與BI平臺的實踐應用,并以客戶分析系統(tǒng)、日志分析和電商推薦系統(tǒng)為案例,串聯常用的數據挖掘技術進行應用教學。
【培訓特色】
定制授課+ 實戰(zhàn)案例訓練+ 互動咨詢討論,共3天
【課程大綱】
模塊一Spark ML基礎入門
1.1 Spark介紹
1.2 Spark ML介紹
1.3 課程的基礎環(huán)境
1.4 Spark SparkSession
1.5 Spark Datasets操作
1.6 Datasets操作的代碼實操
模塊二Spark ML
Pipelines(ML管道)
2.1 Pipelines的主要概念
2.2 Pipelines實例講解
2.3 ML操作的代碼實操
2.4 使用 ML Pipeline 構建機器學習工作流案例展示
2.5 實例的代碼實操聲
模塊三Spark ML數學基礎
3.1 ML矩陣向量計算
3.2 分類效果評估指標及ML實現詳解
3.3 交叉-驗證方法及ML實現詳解
3.4 實例的代碼實操
3.5 特征的提取及ML實現詳解
3.6特征的轉換及ML實現詳解
3.7 特征的選擇及ML實現詳解
3.8 實例的代碼實操
模塊四Spark ML特征的提取、轉換和選擇
4.1 線性回歸算法
4.2 邏輯回歸算法
4.3 ML回歸算法參數詳解
4.4 ML實例
4.5 實例的代碼實操
模塊五Spark ML線性回歸/邏輯回歸算法
5.1 決策樹算法
5.2 隨機森林算法
5.3 GDBT算法
5.4 ML樹模型參數詳解
5.5 ML實例
5.6 實例的代碼實操
模塊六Spark ML決策樹/隨機森林/GBDT算法
6.1 KMeans聚類算法
6.2 ML KMeans模型參數詳解
6.3 ML實例
6.4 實例的代碼實操
模塊七Spark ML KMeans聚類算法
7.1 LDA主題聚類算法
7.2 ML LDA主題聚類模型參數詳解
7.3 ML實例
7.4 實例的代碼實操
模塊八Spark ML LDA主題聚類算法
8.1 協(xié)同過濾推薦算法
8.2 ML協(xié)同過濾分布式實現邏輯
8.3 ML協(xié)同過濾源碼開發(fā)
8.4 實現實例
8.5 實例的代碼實操
模塊九Spark ML協(xié)同過濾推薦算法
9.1 案例背景
9.2 架構設計
9.3 數據準備
9.4 模型訓練
9.5 模型預測
9.6 腳本封裝
模塊十項目實踐
大型案例:基于Spark的推薦模型開發(fā)
模塊十一
培訓總結
項目方案的課堂討論,討論實際業(yè)務中的分析需求,剖析各個環(huán)節(jié)的難點、痛點、瓶頸,啟發(fā)出解決之道;完成講師布置的項目案例,鞏固學過的大數據分析挖掘處理平臺技術知識以及應用技能
【講師介紹】
張老師,曼頓培訓網(www.mdpxb.com)資深講師。阿里大數據高級專家,國內資深的Spark、Hadoop技術專家、虛擬化專家,對HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態(tài)系統(tǒng)中的技術進行了多年的深入的研究,更主要的是這些技術在大量的實際項目中得到廣泛的應用,因此在Hadoop開發(fā)和運維方面積累了豐富的項目實施經驗。近年主要典型的項目有:某電信集團網絡優(yōu)化、中國移動某省移動公司請賬單系統(tǒng)和某省移動詳單實時查詢系統(tǒng)、中國銀聯大數據數據票據詳單平臺、某大型銀行大數據記錄系統(tǒng)、某大型通信運營商全國用戶上網記錄、某省交通部門違章系統(tǒng)、某區(qū)域醫(yī)療大數據應用項目、互聯網公共數據大云(DAAS)和構建游戲云(Web Game Daas)平臺項目等。
【費用及報名】
1、費用:培訓費6800元(含培訓費、講義費);如需食宿,會務組可統(tǒng)一安排,費用自理。
2、報名咨詢:4006820825 010-56133998 56028090 13810210257 鮑老師
3、報名流程:電話登記-->填寫報名表-->發(fā)出培訓確認函
4、備注:如課程已過期,請訪問我們的網站,查詢最新課程
5、詳細資料請訪問北京曼頓培訓網:www.mdpxb.com (每月在全國開設四百多門公開課,歡迎報名學習)