Big Data Hadoop og Spark udvikler - eLearning

3.900,00 DKK

  • 50 hours
eLearning

Kurset 'Big Data Hadoop og Spark Developer' er designet til at give dig en dybdegående forståelse af Apache Spark fundamentet og Hadoop-frameworket, og udstyre dig med de færdigheder, der er nødvendige for at udmærke sig som en Big Data-udvikler. Gennem dette program vil du opnå praktisk viden om Hadoop-økosystemet og dets integration med Spark, hvilket gør dig i stand til at behandle og analysere massive datasæt effektivt. Lær hvordan de forskellige komponenter i Hadoop, såsom HDFS og MapReduce, passer problemfrit ind i cyklussen for behandling af store data, og forbereder dig til succes i dagens datadrevne verden.

Vigtigste funktioner

Sprog

Kurset og materialet er på engelsk

Niveau

Mellemniveau for håbefulde dataingeniører

Adgang

1 års adgang til den selvstyrende e-læringsplatform 24/7

11 timers videomateriale

med anbefalet studietid på 50 timer

Praksisser

Simulationstest, Virtuelt laboratorium og Afsluttende kursusprojekt

Ingen eksamen

Ingen eksamen for kurset, men studerende vil få et bevis for gennemført uddannelse

Hero

Læringsresultater

På dette Big Data Hadoop og Spark Developer kursus vil du lære at:

Hadoop-økosystemet

Lær hvordan man navigerer i Hadoop-økosystemet og forstår at optimere dets brug

Indlæs data

Indlæs data ved hjælp af Sqoop, Flume og Kafka.

Hive

Implementer partitionering, bucketing og indeksering i Hive

Apache Spark

Arbejd med RDD i Apache Spark

Datastreaming

Behandl realtids streamingdata og udfør DataFrame-operationer i Spark ved hjælp af SQL-forespørgsler

Implementering

Implementer brugerdefinerede funktioner (UDF) og brugerdefinerede attributfunktioner (UDAF) i Spark

Kursus tidsplan

Hero
  1. Introduktion til Big Data og Hadoop

    Lektion 01

    - Introduction to Big Data and Hadoop
    - Introduction to Big Data
    - Big Data Analytics
    - What is Big Data?
    - Four vs of Big Data
    - Case Study Royal Bank of Scotland
    - Challenges of Traditional System
    - Distributed Systems
    - Introduction to Hadoop
    - Components of Hadoop Ecosystem Part One
    - Components of Hadoop Ecosystem Part Two
    - Components of Hadoop Ecosystem Part Three
    - Commercial Hadoop Distributions
    - Demo: Walkthrough of Simplilearn Cloudlab
    - Key Takeaways
    - Knowledge Check

  2. Hadoop-arkitektur Distribueret Lager (HDFS) og YARN

    Lektion 02

    - Hadoop-arkitektur Distribueret lagring (HDFS) og YARN
    - Hvad er HDFS
    - Behovet for HDFS
    - Almindeligt filsystem vs. HDFS
    - Karakteristika for HDFS
    - HDFS-arkitektur og komponenter
    - Implementeringer af høj tilgængelighedsklynge
    - HDFS-komponent Filsystemnavneområde
    - Opdeling af datablok
    - Topologi for datareplikering
    - HDFS kommandolinje
    - Demo: Almindelige HDFS-kommandoer
    - Praksisprojekt: HDFS kommandolinje
    - Yarn introduktion
    - Anvendelseseksempel for Yarn
    - Yarn og dets arkitektur
    - Ressourcestyring
    - Hvordan ressourcestyringen fungerer
    - Application Master
    - Hvordan Yarn kører en applikation
    - Værktøjer for Yarn-udviklere
    - Demo: Gennemgang af klynge del et
    - Demo: Gennemgang af klynge del to
    - Vigtige pointer videnstjek
    - Praksisprojekt: Hadoop-arkitektur, distribueret lagring (HDFS) og Yarn

  3. Dataindlæsning i Big Data-systemer og ETL

    Lektion 03

    - Data Ingestion Into Big Data Systems and Etl
    - Data Ingestion Overview Part One
    - Data Ingestion Overview Part Two
    - Apache Sqoop
    - Sqoop and Its Uses
    - Sqoop Processing
    - Sqoop Import Process
    - Sqoop Connectors
    - Demo: Importing and Exporting Data from MySQL to HDFS
    - Practice Project: Apache Sqoop
    - Apache Flume
    - Flume Model
    - Scalability in Flume
    - Components in Flume’s Architecture
    - Configuring Flume Components
    - Demo: Ingest Twitter Data
    - Apache Kafka Aggregating User Activity Using Kafka
    - Kafka Data Model
    - Partitions
    - Apache Kafka Architecture
    - Demo: Setup Kafka Cluster
    - Producer Side API Example
    - Consumer Side API
    - Consumer Side API Example
    - Kafka Connect
    - Demo: Creating Sample Kafka Data Pipeline Using Producer and Consumer
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Data Ingestion Into Big Data Systems and ETL

  4. Distribueret behandling MapReduce-framework og Pig

    Lektion 04

    - Distributed Processing Mapreduce Framework and Pig
    - Distributed Processing in Mapreduce
    - Word Count Example
    - Map Execution Phases
    - Map Execution Distributed Two Node Environment
    - Mapreduce Jobs
    - Hadoop Mapreduce Job Work Interaction
    - Setting Up the Environment for Mapreduce Development
    - Set of Classes
    - Creating a New Project
    - Advanced Mapreduce
    - Data Types in Hadoop
    - Output formats in Mapreduce
    - Using Distributed Cache
    - Joins in MapReduce
    - Replicated Join
    - Introduction to Pig
    - Components of Pig
    - Pig Data Model
    - Pig Interactive Modes
    - Pig Operations
    - Various Relations Performed by Developers
    - Demo: Analyzing Web Log Data Using Mapreduce
    - Demo: Analyzing Sales Data and Solving Kpis Using Pig Practice Project: Apache Pig

    - Demo: Wordcount
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Distributed Processing - Mapreduce Framework and Pig

  5. Apache Hive

    Lektion 05

    - Apache Hive
    - Hive SQL over Hadoop MapReduce
    - Hive Architecture
    - Interfaces to Run Hive Queries
    - Running Beeline from Command Line
    - Hive Metastore
    - Hive DDL and DML
    - Creating New Table
    - Data Types Validation of Data
    - File Format Types
    - Data Serialization
    - Hive Table and Avro Schema
    - Hive Optimization Partitioning Bucketing and Sampling
    - Non-Partitioned Table
    - Data Insertion
    - Dynamic Partitioning in Hive
    - Bucketing
    - What Do Buckets Do?
    - Hive Analytics UDF and UDAF
    - Other Functions of Hive
    - Demo: Real-time Analysis and Data Filtration
    - Demo: Real-World Problem
    - Demo: Data Representation and Import Using Hive
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Apache Hive

  6. NoSQL-databaser HBase

    Lektion 06

    - NoSQL Databases HBase
    - NoSQL Introduction
    - Demo: Yarn Tuning
    - Hbase Overview
    - Hbase Architecture
    - Data Model
    - Connecting to HBase
    - Practice Project: HBase Shell
    - Key Takeaways
    - Knowledge Check
    - Practice Project: NoSQL Databases - HBase

  7. Grundlæggende om funktionel programmering og Scala

    Lektion 07

    - Grundlæggende om funktionel programmering og Scala
    - Introduktion til Scala
    - Demo: Installation af Scala
    - Funktionel programmering
    - Programmering med Scala
    - Demo: Grundlæggende literaler og aritmetisk programmering
    - Demo: Logiske operatorer
    - Typeinferens, klasser, objekter og funktioner i Scala
    - Demo: Typeinferens, funktioner, anonym funktion og klasse
    - Samlinger
    - Typer af samlinger
    - Demo: Fem typer af samlinger
    - Demo: Operationer på liste Scala REPL
    - Demo: Funktioner i Scala REPL
    - Vigtige pointer
    - Videnstjek
    - Praktikprojekt: Apache Hive

  8. Apache Spark næste generations Big Data-framework

    Lektion 08

    - Apache Spark Next-Generation Big Data Framework
    - History of Spark
    - Limitations of Mapreduce in Hadoop
    - Introduction to Apache Spark
    - Components of Spark
    - Application of In-memory Processing
    - Hadoop Ecosystem vs Spark
    - Advantages of Spark
    - Spark Architecture
    - Spark Cluster in Real World
    - Demo: Running a Scala Programs in Spark Shell
    - Demo: Setting Up Execution Environment in IDE
    - Demo: Spark Web UI
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Apache Spark Next-Generation Big Data Framework

  9. Spark Core-forarbejdning af RDD

    Lektion 09

    - Introduction to Spark RDD
    - RDD in Spark
    - Creating Spark RDD
    - Pair RDD
    - RDD Operations
    - Demo: Spark Transformation Detailed Exploration Using Scala Examples
    - Demo: Spark Action Detailed Exploration Using Scala
    - Caching and Persistence
    - Storage Levels
    - Lineage and DAG
    - Need for DAG
    - Debugging in Spark
    - Partitioning in Spark
    - Scheduling in Spark
    - Shuffling in Spark
    - Sort Shuffle Aggregating Data With Paired RDD
    - Demo: Spark Application With Data Written Back to HDFS and Spark UI
    - Demo: Changing Spark Application Parameters
    - Demo: Handling Different File Formats
    - Demo: Spark RDD With Real-world Application
    - Demo: Optimizing Spark Jobs
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Spark Core Processing RDD

  10. Spark SQL Behandling af DataFrames

    Lektion 10

    - Spark SQL Processing DataFrames
    - Spark SQL Introduction
    - Spark SQL Architecture
    - Dataframes
    - Demo: Handling Various Data Formats
    - Demo: Implement Various Dataframe Operations
    - Demo: UDF and UDAF
    - Interoperating With RDDs
    - Demo: Process Dataframe Using SQL Query
    - RDD vs Dataframe vs Dataset
    - Practice Project: Processing Dataframes
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Spark SQL - Processing Dataframes

  11. Modellering af BigData med Spark MLib

    Lektion 11

    - Spark Mlib Modellering af Big Data med Spark
    - Dataforskerens og dataanalytikerens rolle i Big Data
    - Analytik i Spark
    - Maskinlæring
    - Overvåget læring
    - Demo: Klassifikation af lineær SVM
    - Demo: Lineær regression med virkelige case-studier
    - Uovervåget læring
    - Demo: Uovervåget klyngeanalyse K-means
    - Forstærket læring
    - Semiovervåget læring
    - Oversigt over Mlib
    - Mlib pipelines
    - Vigtige pointer
    - Videnstjek
    - Praksisprojekt: Spark Mlib - Modellering af Big Data med Spark

  12. Streambehandlingsframeworks og Spark Streaming

    Lektion 12

    - Oversigt over streaming
    - Real-time behandling af store datamængder
    - Arkitekturer til databehandling
    - Demo: Real-time databehandling med Spark Streaming
    - Demo: Skrivning af Spark Streaming-applikation
    - Introduktion til DStreams
    - Transformationer på DStreams
    - Designmønstre til brug af Foreachrdd
    - Statstilstandsfunktioner
    - Vinduesoperationer
    - Sammenkædningsoperationer Stream-dataset-sammenkædning
    - Demo: Vinduesoperationer i real-time databehandling af streamingkilder
    - Demo: Behandling af Twitter streamingdata
    - Struktureret Spark Streaming-
    - Anvendelsescase: Banktransaktioner
    - Model for struktureret streamingarkitektur og dens komponenter
    - Output-sinks
    - API'er til struktureret streaming
    - Konstruktion af kolonner i struktureret streaming
    - Vinduesbaserede operationer på event-tid
    - Anvendelsescases
    - Demo: Streamingpipeline
    - Praksisprojekt: Spark Streaming
    - Vigtige pointer
    - Videnstjek
    - Praksisprojekt: Streambehandlingsrammer og Spark Streaming

  13. Spark GraphX

    Lektion 13

    - Spark GraphX
    - Introduction to Graph
    - GraphX in Spark
    - GraphX Operators
    - Join Operators
    - GraphX Parallel System
    - Algorithms in Spark
    - Pregel API
    - Use Case of GraphX
    - Demo: GraphX Vertex Predicate
    - Demo: Page Rank Algorithm
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Spark GraphX Project Assistance

Big data hadoop-kursus

Målgruppe

Ideel for et bredt udvalg af fagfolk og personer, der ønsker at fremme deres karriere inden for stordataanalyse, dataingeniørarbejde og datalogi.

Forudsætninger: Det anbefales, at du har kendskab til Core Java og SQL

Analytikere

Erfarne IT-professionelle

Test- og mainframe-specialister

Datastyringsprofessionelle

Forretningsintelligens specialister

Projektledere

Kandidater, der ønsker at starte en karriere inden for stor dataanalyse

Start nu

Ofte stillede spørgsmål

Har du brug for virksomhedsløsninger eller LMS-integration?

Fandt du ikke kurset eller programmet, der ville være til gavn for din virksomhed? Har du brug for LMS-integration? Skriv til os, vi løser alt!