8120| 39
|
新手入門大數(shù)據(jù) Hadoop基礎(chǔ)與電商行為日志分析 |
新手入門大數(shù)據(jù) Hadoop基礎(chǔ)與電商行為日志分析
『課程介紹』: 本課程從Hadoop核心技術(shù)入手,以電商項(xiàng)目為依托,帶領(lǐng)你從0基礎(chǔ)開始上手,逐步掌握大數(shù)據(jù)核心技術(shù)(如:HDFS、YARN、MapReduce以及Hive),并使用這些技術(shù)進(jìn)行實(shí)戰(zhàn),最終完成電商行為日志分析項(xiàng)目,讓你輕松入門大數(shù)據(jù)! 『課程目錄』: 第1章 大數(shù)據(jù)概述 本章將從故事說起,讓大家明白大數(shù)據(jù)是與我們的生活息息相關(guān)的,并不是遙不可及的,還會介紹大數(shù)據(jù)的特性,以及大數(shù)據(jù)對我們帶來的技術(shù)變革,大數(shù)據(jù)處理過程中涉及到的技術(shù)以及大數(shù)據(jù)典型應(yīng)用。 1-1 課程導(dǎo)學(xué) 1-2 學(xué)前必讀(助你平穩(wěn)踩坑,暢學(xué)無憂) 1-3 課程目錄 1-4 從一個(gè)案例說起 1-5 什么是大數(shù)據(jù)以及大數(shù)據(jù)的4V特征 1-6 大數(shù)據(jù)帶來的技術(shù)變革 1-7 大數(shù)據(jù)現(xiàn)存的模式 1-8 大數(shù)據(jù)的技術(shù)概念 1-9 大數(shù)據(jù)帶來的挑戰(zhàn) 1-10 如何對大數(shù)據(jù)進(jìn)行存儲和分析 1-11 大數(shù)據(jù)典型應(yīng)用 第2章 初識Hadoop 本章節(jié)將帶領(lǐng)大家認(rèn)識Hadoop以及Hadoop生態(tài)系統(tǒng)、Hadoop的發(fā)展史、Hadoop的優(yōu)勢、Hadoop的三個(gè)核心組件、Hadoop發(fā)行版的選擇,為后續(xù)深入講解Hadoop打下堅(jiān)實(shí)的基礎(chǔ)。 2-1 課程目錄 2-2 Hadoop概述 2-3 Hadoop核心組件之HDFS概述 2-4 Hadoop核心組件之MapReduce 2-5 Hadoop核心組件之YARN 2-6 Hadoop優(yōu)勢 2-7 Hadoop發(fā)展史 2-8 Hadoop生態(tài)圈 2-9 Hadoop發(fā)行版選型 2-10 OOTB環(huán)境的使用 第3章 分布式文件系統(tǒng)HDFS 本章將從Hadoop的設(shè)計(jì)目標(biāo)、架構(gòu)及文件系統(tǒng)命令空間出發(fā),快速搭建單節(jié)點(diǎn)偽分布式HDFS的實(shí)驗(yàn)環(huán)境,通過講解使用hdfs shell以及Java API的方式操作HDFS文件系統(tǒng),詳細(xì)分析HDFS文件的讀寫流程,并通過HDFS API來實(shí)現(xiàn)詞頻統(tǒng)計(jì)案例,使得大家對Hadoop分布式文件系統(tǒng)HDFS有深刻的認(rèn)識以及實(shí)戰(zhàn)。 ... 3-1 HDFS概述 3-2 HDFS設(shè)計(jì)目標(biāo) 3-3 HDFS架構(gòu)詳解 3-4 文件系統(tǒng)NameSpace詳解 3-5 HDFS副本機(jī)制 3-6 本課程使用的Linux環(huán)境介紹 3-7 Hadoop部署前置介紹 3-8 JDK1.8部署詳解 3-9 ssh無密碼登陸部署詳解 3-10 Hadoop安裝目錄詳解及hadoop-env配置 3-11 HDFS格式化以及啟動(dòng)詳解 3-12 HDFS常見文件之防火墻干擾 3-13 Hadoop停止集群以及如何單個(gè)進(jìn)程啟動(dòng) 3-14 Hadoop命令行操作詳解 3-15 深度剖析Hadoop文件的存儲機(jī)制 3-16 HDFS API編程之開發(fā)環(huán)境搭建 3-17 HDFS API編程之第一個(gè)應(yīng)用程序的開發(fā) 3-18 HDFS API編程之jUnit封裝 3-19 HDFS API編程之查看HDFS文件內(nèi)容 3-20 HDFS API編程之創(chuàng)建文件并寫入內(nèi)容 3-21 HDFS API編程之副本系數(shù)深度剖析 3-22 HDFS API編程之重命名 3-23 HDFS API編程之copyFromLocalFile 3-24 HDFS API編程之帶進(jìn)度的上傳大文件 3-25 HDFS API編程之下載文件 3-26 HDFS API編程之列出文件夾下的所有內(nèi)容 3-27 HDFS API編程之遞歸列出文件夾下的所有文件 3-28 HDFS API編程之查看文件塊信息 3-29 HDFS API編程之刪除文件 3-30 HDFS項(xiàng)目實(shí)戰(zhàn)之需求分析 3-31 HDFS項(xiàng)目實(shí)戰(zhàn)之代碼框架編寫 3-32 HDFS項(xiàng)目實(shí)戰(zhàn)之自定義上下文 3-33 HDFS項(xiàng)目實(shí)戰(zhàn)之自定義處理類實(shí)現(xiàn) 3-34 HDFS項(xiàng)目實(shí)戰(zhàn)之功能實(shí)現(xiàn) 3-35 HDFS項(xiàng)目實(shí)戰(zhàn)之使用自定義配置文件重構(gòu)代碼 3-36 HDFS項(xiàng)目實(shí)戰(zhàn)之使用反射創(chuàng)建自定義Mapper對象 3-37 HDFS項(xiàng)目實(shí)戰(zhàn)之可插拔的業(yè)務(wù)邏輯處理 3-38 HDFS Replica Placement Policy 3-39 HDFS寫數(shù)據(jù)流程圖解 3-40 HDFS讀數(shù)據(jù)流程圖解 3-41 HDFS Checkpoint詳解 3-42 HDFS SaveMode 第4章 分布式計(jì)算框架MapReduce 本章將從架構(gòu)、編程模型等角度帶大家認(rèn)識Hadoop的分布式計(jì)算框架MapReduce,掌握MapReduce各個(gè)核心組件編程,并通過兩個(gè)案例讓大家深入掌握MapReduce編程的方方面面。 4-1 課程目錄 4-2 MapReduce概述 4-3 MapReduce編程模型詳解 4-4 MapReduce編程模型核心概念詳解 4-5 詞頻統(tǒng)計(jì)之自定義Mapper實(shí)現(xiàn) 4-6 詞頻統(tǒng)計(jì)之自定義Reducer實(shí)現(xiàn) 4-7 詞頻統(tǒng)計(jì)之自定義Driver類實(shí)現(xiàn) 4-8 詞頻統(tǒng)計(jì)之本地方式運(yùn)行 4-9 詞頻統(tǒng)計(jì)之通過Debug方式進(jìn)一步了解偏移量以及重構(gòu)代碼 4-10 詞頻統(tǒng)計(jì)升級之Combiner操作 4-11 流量統(tǒng)計(jì)實(shí)戰(zhàn)之需求 4-12 流量統(tǒng)計(jì)實(shí)戰(zhàn)之自定義復(fù)雜數(shù)據(jù)類型 4-13 流量統(tǒng)計(jì)實(shí)戰(zhàn)之自定義Mapper類 4-14 流量統(tǒng)計(jì)實(shí)戰(zhàn)之自定義Reducer實(shí)現(xiàn) 4-15 流量統(tǒng)計(jì)實(shí)戰(zhàn)之Driver開發(fā) 4-16 流量統(tǒng)計(jì)實(shí)戰(zhàn)之代碼重構(gòu)及NullWritable的使用 4-17 流量統(tǒng)計(jì)實(shí)戰(zhàn)升級之自定義Partitioner 第5章 資源調(diào)度框架YARN 本章將從YARN的產(chǎn)生背景、YARN的架構(gòu)及執(zhí)行流程的角度帶大家認(rèn)知Hadoop的資源調(diào)度框架YARN,快速搭建單節(jié)點(diǎn)偽分布式Y(jié)ARN的實(shí)驗(yàn)環(huán)境并掌握如何提交MapReduce作業(yè)提交到Y(jié)ARN上運(yùn)行。 5-1 課程目錄 5-2 YARN產(chǎn)生背景 5-3 YARN概述 5-4 YARN架構(gòu)詳解 5-5 YARN執(zhí)行流程 5-6 YARN環(huán)境部署 5-7 提交example案例到Y(jié)ARN上運(yùn)行 5-8 提交流量統(tǒng)計(jì)案例到Y(jié)ARN上運(yùn)行 第6章 電商項(xiàng)目實(shí)戰(zhàn)Hadoop實(shí)現(xiàn) 本章將通過電商用戶行為日志分析的項(xiàng)目實(shí)戰(zhàn),來將前面幾個(gè)章節(jié)講解的知識點(diǎn)串聯(lián)起來,綜合使用Hadoop的技術(shù)進(jìn)行離線統(tǒng)計(jì)分析。 6-1 課程目錄 6-2 用戶行為日志概述 6-3 為什么要記錄用戶行為日志 6-4 日志內(nèi)容介紹 6-5 用戶行為日志分析的意義所在 6-6 電商常用術(shù)語 6-7 項(xiàng)目需求描述 6-8 數(shù)據(jù)處理流程及技術(shù)架構(gòu) 6-9 瀏覽量統(tǒng)計(jì)功能實(shí)現(xiàn) 6-10 省份瀏覽量統(tǒng)計(jì)之IP庫解析 6-11 省份瀏覽量統(tǒng)計(jì)之日志解析 6-12 省份瀏覽量統(tǒng)計(jì)之功能實(shí)現(xiàn) 6-13 頁面瀏覽量統(tǒng)計(jì)之頁面編號獲取 6-14 頁面瀏覽量統(tǒng)計(jì)之功能實(shí)現(xiàn) 6-15 數(shù)據(jù)處理過程中ETL的重要性 6-16 原始日志ETL操作 6-17 瀏覽量統(tǒng)計(jì)功能升級 6-18 省份瀏覽量統(tǒng)計(jì)功能升級 6-19 頁面瀏覽量統(tǒng)計(jì)功能升級思路 6-20 打包到服務(wù)器上運(yùn)行 6-21 項(xiàng)目擴(kuò)展 第7章 數(shù)據(jù)倉庫Hive 本章將從Hive的產(chǎn)生背景、體系架構(gòu)、Hive部署、DDL以及DML來掌握Hive使用的方方面面。 7-1 課程目錄 7-2 Hive產(chǎn)生背景 7-3 Hive是什么 7-4 為什么要使用Hive 7-5 Hive在Hadoop生態(tài)圈中的位置 7-6 Hive體系架構(gòu) 7-7 Hive部署架構(gòu) 7-8 Hive與RDBMS的區(qū)別 7-9 Hive部署 7-10 Hive快速入門 7-11 Hive DDL之?dāng)?shù)據(jù)庫操作 7-12 Hive DDL之表操作 7-13 Hive DML之加載和導(dǎo)出數(shù)據(jù) 7-14 Hive QL基本統(tǒng)計(jì) 7-15 Hive QL之聚合函數(shù) 7-16 Hive QL之分組函數(shù) 7-17 Hive QL之join的使用 7-18 Hive QL執(zhí)行計(jì)劃 第8章 電商項(xiàng)目實(shí)戰(zhàn)Hive實(shí)現(xiàn) 本章將使用Hive對電商用戶行為日志分析進(jìn)行重新實(shí)現(xiàn),讓大家對MapReduce編程和Hive實(shí)現(xiàn)的方式進(jìn)行對比,體會Hive在生產(chǎn)上使用的便捷性。 8-1 課程目錄 8-2 外部表在Hive中的使用 8-3 track_info分區(qū)表的創(chuàng)建 8-4 將ETL的數(shù)據(jù)加載到Hive表 8-5 使用Hive完成統(tǒng)計(jì)分析功能 8-6 Hive實(shí)現(xiàn)項(xiàng)目的方便性體現(xiàn) 第9章 Hadoop分布式集群搭建 本章將帶領(lǐng)大家搭建一個(gè)三個(gè)節(jié)點(diǎn)的分布式Hadoop集群環(huán)境,讓大家對于Hadoop集群的安裝有更深入的認(rèn)識,并將項(xiàng)目實(shí)戰(zhàn)案例運(yùn)行在分布式集群環(huán)境中。 9-1 課程目錄 9-2 Hadoop集群規(guī)劃 9-3 前置條件安裝 9-4 JDK安裝 9-5 Hadoop集群部署 9-6 提交作業(yè)到Hadoop集群上運(yùn)行 9-7 課程總結(jié)
購買主題
本主題需向作者支付 666 資源幣 才能瀏覽
| |
| ||
| ||
| ||
| ||
| ||
| ||
| ||
| ||
| ||
小黑屋|資源共享吧 ( 瓊ICP備2023000410號-1 )
GMT+8, 2024-12-22 02:11 , Processed in 0.074759 second(s), 22 queries , MemCached On.