Big Data Hadoop og Spark-udvikler - Online

3.900,00 DKK

  • 30 hours
eLearning

Dette Big Data Hadoop certificeringskursus er designet til at give dig en dybdegående forståelse af Big Data-frameworket ved hjælp af Hadoop og Spark. I dette praktiske Big Data-kursus vil du udføre virkelige projekter baseret på industrien ved hjælp af Simplilearns integrerede laboratorier. Forudsætninger: Det anbefales, at du har kendskab til: - Core - Java SQL

Kursuskalender

Hero
  1. Introduktion til Big Data og Hadoop

    Lektion 01

    - Introduction au Big Data et Hadoop
    - Introduction au Big Data
    - Analytique du Big Data
    - Qu'est-ce que le Big Data ?
    - Les quatre V du Big Data
    - Étude de cas : Royal Bank of Scotland
    - Défis des systèmes traditionnels
    - Systèmes distribués
    - Introduction à Hadoop
    - Composants de l'écosystème Hadoop Partie Un
    - Composants de l'écosystème Hadoop Partie Deux
    - Composants de l'écosystème Hadoop Partie Trois
    - Distributions commerciales de Hadoop
    - Démonstration : Présentation de Simplilearn Cloudlab
    - Points clés
    - Vérification des connaissances

  2. Hadoop-arkitektur Distribueret Lager (HDFS) og YARN

    Lektion 02

    - Arkitektur Hadoop Distribueret Lagring (HDFS) og YARN
    - Hvad er HDFS
    - Behovet for HDFS
    - Traditionelt filsystem vs HDFS
    - Egenskaber ved HDFS
    - Arkitektur og komponenter i HDFS
    - Implementering af høj tilgængelighedsklynger
    - HDFS-komponent Filsystemets navnerum
    - Opdeling af datablokke
    - Topologi for datareplikation
    - HDFS kommandolinje
    - Demonstration: Almindelige HDFS-kommandoer
    - Praktisk projekt: HDFS kommandolinje
    - Introduktion til Yarn
    - Anvendelseseksempler på Yarn
    - Yarn og dets arkitektur
    - Ressource Manager
    - Funktion af Ressource Manager
    - Application Master
    - Hvordan Yarn eksekverer en applikation
    - Værktøjer for Yarn-udviklere
    - Demonstration: Guidet tur af første del af klyngen
    - Demonstration: Guidet tur af anden del af klyngen
    - Nøglepunkter Videnstjek
    - Praktisk projekt: Hadoop-arkitektur, distribueret lagring (HDFS) og Yarn

  3. Integration af data i Big Data- og ETL-systemer

    Lektion 03

    - Integration af data i Big Data-systemer og ETL
    - Oversigt over dataintegration Del Et
    - Oversigt over dataintegration Del To
    - Apache Sqoop
    - Sqoop og dets anvendelser
    - Sqoop-behandling
    - Sqoop-importproces
    - Sqoop-konnektorer
    - Demonstration: Import og eksport af data fra MySQL til HDFS
    - Praktisk projekt: Apache Sqoop
    - Apache Flume
    - Flume-model
    - Skalerbarhed i Flume
    - Komponenter i Flumes arkitektur
    - Konfiguration af Flume-komponenter
    - Demonstration: Indtagelse af Twitter-data
    - Apache Kafka Sammenlægning af brugeraktivitet med Kafka
    - Kafka datamodel
    - Partitioner
    - Apache Kafka-arkitektur
    - Demonstration: Konfiguration af en Kafka-kluster
    - Eksempel på producent-side API
    - Konsument-side API
    - Eksempel på konsument-side API
    - Kafka Connect
    - Demonstration: Oprettelse af et eksempel på en Kafka data pipeline ved hjælp af producent og konsument
    - Nøglepunkter
    - Videnstjek
    - Praktisk projekt: Integration af data i Big Data-systemer og ETL

  4. MapReduce og Pig distribueret behandlingsramme

    Lektion 04

    - Traitement distribué Mapreduce Framework et Pig
    - Traitement distribué dans Mapreduce
    - Exemple de comptage de mots
    - Phases d'exécution de la carte
    - Exécution de la carte dans un environnement distribué à deux nœuds
    - Jobs Mapreduce
    - Interaction des tâches Mapreduce dans Hadoop
    - Configuration de l'environnement pour le développement de Mapreduce
    - Ensemble de classes
    - Création d'un nouveau projet
    - Mapreduce avancé
    - Types de données dans Hadoop
    - Formats de sortie dans Mapreduce
    - Utilisation du cache distribué
    - Joints dans MapReduce
    - Jointure répliquée
    - Introduction à Pig
    - Composants de Pig
    - Modèle de données Pig
    - Modes interactifs de Pig
    - Opérations Pig
    - Diverses relations effectuées par les développeurs
    - Démonstration : Analyse de données de logs Web avec Mapreduce
    - Démo : Analyse de données de ventes et résolution de Kpis avec Pig Projet pratique : Apache Pig

    - Démonstration : Comptage de mots
    - Principaux enseignements
    - Vérification des connaissances
    - Projet pratique : Traitement distribué - Mapreduce Framework et Pig

  5. Apache Hive

    Lektion 05

    - Apache Hive
    - Hive SQL sur Hadoop MapReduce
    - Architecture Hive
    - Interfaces pour exécuter des requêtes Hive
    - Exécution de Beeline à partir de la ligne de commande
    - Métastore Hive
    - DDL et DML Hive
    - Création d'une nouvelle table
    - Types de données Validation des données
    - Types de formats de fichiers
    - Sérialisation des données
    - Table Hive et schéma Avro
    - Optimisation de Hive Partitionnement Bucketing et Sampling
    - Table non partitionnée
    - Insertion de données
    - Partitionnement dynamique dans Hive
    - Le partitionnement
    - Que font les buckets ?
    - Hive Analytics UDF et UDAF
    - Autres fonctions de Hive
    - Démonstration : Analyse en temps réel et filtrage des données
    - Démonstration : Problème réel
    - Démonstration : Représentation et importation de données à l'aide de Hive
    - Principaux enseignements
    - Contrôle des connaissances
    - Projet pratique : Apache Hive

  6. NoSQL-databaser HBase

    Lektion 06

    - NoSQL-databaser HBase
    - Introduktion til NoSQL
    - Demonstration: Yarn Tuning
    - Oversigt over Hbase
    - Arkitektur af Hbase
    - Data model
    - Forbindelse til HBase
    - Praktisk projekt: HBase Shell
    - Vigtigste læringspunkter
    - Videnstjek
    - Praktisk projekt: NoSQL-databaser - HBase

  7. Grundlæggende begreber inden for funktionel programmering og Scala

    Lektion 07

    - Grundlæggende om funktionel programmering og Scala
    - Introduktion til Scala
    - Demonstration: Installation af Scala
    - Funktionel programmering
    - At programmere med Scala
    - Demonstration: Grundlæggende begreber for literals og aritmetisk programmering
    - Demonstration: Logiske operatorer
    - Typeinferens, klasser, objekter og funktioner i Scala
    - Demonstration: Typeinferens, anonyme funktioner og klasse
    - Samlinger
    - Samlingstyper
    - Demonstration: Fem typer af samlinger
    - Demonstration: Operationer på Scala REPL lister
    - Demonstration: Funktioner i Scala REPL
    - Nøglepunkter
    - Videnstjek
    - Praktisk projekt: Apache Hive

  8. Apache Spark, den nye generations framework til behandling af store datamængder

    Lektion 08

    - Apache Spark - Næste generations framework for behandling af store datamængder (Big Data)
    - Historien om Spark
    - Begrænsninger i Mapreduce i Hadoop
    - Introduktion til Apache Spark
    - Komponenter i Spark
    - Anvendelse af in-memory databehandling
    - Hadoop vs Spark økosystem
    - Fordele ved Spark
    - Arkitektur i Spark
    - Spark klynger i den virkelige verden
    - Demonstration: Udførelse af et Scala-program i Spark Shell
    - Demo: Konfigurering af kørselsmiljøet i IDE
    - Demo: Spark Web UI
    - Hovedlæringspunkter
    - Videnstjek
    - Praktisk projekt: Apache Spark Next-Generation Big Data Framework (på engelsk)

  9. Behandling af Spark RDD-kerne

    Lektion 09

    - Introduktion til Spark RDD
    - RDD i Spark
    - Oprettelse af en Spark RDD
    - Par RDD
    - RDD-operationer
    - Demonstration: Detaljeret udforskning af Spark-transformation ved hjælp af eksempler i Scala
    - Demo: Detaljeret udforskning af Spark Action ved hjælp af Scala
    - Caching og persistens
    - Lagerlag
    - Lineage og DAG
    - Nødvendigheden af en DAG
    - Fejlfinding i Spark
    - Partitionering i Spark
    - Planlægning i Spark
    - Data shuffling i Spark
    - Sort Shuffle Aggregering af data med parrede RDD'er
    - Demo: Spark-applikation med data skrevet til HDFS og Spark-brugergrænseflade
    - Demo: Ændring af indstillinger for Spark-applikation
    - Demo: Håndtering af forskellige filformater
    - Demo: Spark RDD med en reel applikation
    - Demo: Optimering af Spark Jobs
    - Hovedpointer
    - Videnstjek
    - Praktisk projekt: Spark Core RDD-behandling

  10. Behandling af DataFrames med Spark SQL

    Lektion 10

    - Spark SQL Behandling af DataFrames
    - Introduktion til Spark SQL
    - Spark SQL Arkitektur
    - DataFrames
    - Demonstration: Håndtering af forskellige dataformater
    - Demonstration: Implementering af forskellige operationer på dataframes
    - Demonstration: UDF og UDAF
    - Interoperabilitet med RDD'er
    - Demonstration: Behandling af en DataFrame med en SQL-forespørgsel
    - RDD vs Dataframe vs Dataset
    - Praktisk projekt: Behandling af databilleder
    - Vigtigste læringspunkter
    - Videnstjek
    - Praktisk projekt: Spark SQL - Behandling af databilleder

  11. Spark MLib-modellering for store datamængder med Spark

    Lektion 11

    - Spark Mlib Modellering af Big Data med Spark
    - Data Scientist og Data Analysts rolle i Big Data
    - Analyse med Spark
    - Maskinlæring
    - Overvåget læring
    - Demonstration: Lineær SVM-klassificering
    - Demo: Lineær regression med virkelige case-studier
    - Uovervåget læring
    - Demonstration: Uovervåget K-means clustering
    - Forstærkningslæring
    - Semi-overvåget læring
    - Oversigt over Mlib
    - Mlib pipelines
    - Hovedpointer
    - Videnstjek
    - Praktisk projekt: Spark Mlib - Modellering af Big Data med Spark

  12. Streambehandlingsrammer og Spark Streaming

    Lektion 12

    - Oversigt over streaming
    - Real-time behandling af big data
    - Arkitekturer for databehandling
    - Demonstration: Real-time databehandling med Spark Streaming
    - Demonstration: Skrivning af en Spark Streaming-applikation
    - Introduktion til DStreams
    - Transformationer på DStreams
    - Designmønstre for brug af Foreachrdd
    - Statshåndteringsoperationer
    - Vinduesbaserede operationer
    - Sammenkædningsoperationer Stream-dataset Join
    - Demonstration: Vinduesbaseret real-time databehandling fra streamingkilder
    - Demonstration: Behandling af Twitter streamingdata
    - Struktureret Spark Streaming
    - Anvendelsescase: Banktransaktioner
    - Model for struktureret streamingarkitektur og dens komponenter
    - Udgangssynke
    - API for struktureret streaming
    - Opbygning af kolonner i struktureret streaming
    - Vinduesbaserede operationer på eventtid
    - Anvendelsescases
    - Demonstration: Streamingpipeline
    - Praktisk projekt: Spark Streaming
    - Nøglepunkter
    - Videnstjek
    - Praktisk projekt: Behandlingsrammer for strømme og Spark Streaming

  13. Spark GraphX

    Lektion 13

    - Spark GraphX
    - Introduction aux graphes
    - GraphX dans Spark
    - Opérateurs GraphX
    - Opérateurs de jointure
    - Système parallèle GraphX
    - Algorithmes dans Spark
    - API Pregel
    - Cas d'utilisation de GraphX
    - Démonstration : Prédicat de sommet GraphX
    - Démonstration : Algorithme de PageRank
    - Points clés
    - Vérification des connaissances
    - Projet pratique : Assistance pour le projet Spark GraphX

Læringsresultater

I dette Hadoop og Spark udviklerkursus for big data vil du lære at:

Hadoop-økosystemet

Lær at navigere i Hadoop-økosystemet og forstå, hvordan man optimerer dets anvendelse

Indtaste data

Importér data ved hjælp af Sqoop, Flume og Kafka.

Bikube

Implementer partitionering, bucketing og indeksering i Hive

Apache Spark

Arbejd med RDD i Apache Spark

Datastrøm

Behandl streamingdata i realtid og udfør operationer på DataFrames i Spark ved hjælp af SQL-forespørgsler

Implementering

Implementere brugerdefinerede funktioner (UDF) og brugerdefinerede attributfunktioner (UDAF) i Spark

Afsluttende kursusprojekter

Projekt 1: Analyse af historiske forsikringsanmodninger

Brug Hadoops funktioner til at forudsige tendenser og dele brugbar information for et bilforsikringsselskab. Dette projekt bruger data fra New York Stock Exchange fra 2010 til 2016, indsamlet fra over 500 børsnoterede virksomheder. Datasættet inkluderer intradagspriser og handelsvolumen for hver børsnoteret virksomhed. Dataene anvendes i maskinlæringsprojekter og eksplorativ analyse med det formål at automatisere handelsprocessen og forudsige næste handelsdags vindere eller tabere. Projektets omfang er begrænset til den eksplorative dataanalyse.

Projekt 2: Analyse af medarbejderevalueringens kommentarer

HR-teamet undersøger sociale medier for at indsamle feedback og holdninger fra nuværende og tidligere ansatte. Disse oplysninger vil blive brugt til at få handlingsorienterede perspektiver og iværksætte korrigerende foranstaltninger for at forbedre forholdet mellem arbejdsgiver og ansat. Dataene er hentet fra nettet fra Glassdoor og indeholder detaljerede anmeldelser fra 67.000 ansatte hos Google, Amazon, Facebook, Apple, Microsoft og Netflix.

Projekt 3: K-Means klyngeanalyse inden for telekommunikationsområdet

LoudAcre Mobile er en udbyder af mobiltelefontjenester, som har lanceret en ny åben netværkskampagne. Som en del af denne kampagne har virksomheden opfordret brugerne til at klage over mobilnetværkstårne i deres område, hvis de oplever forbindelsesproblemer med deres nuværende mobilnetværk. LoudAcre har indsamlet en database over brugere, der har klaget.

Projekt 4: Markedsanalyse inden for banksektoren

Vores kunde, en portugisisk bankinstitution, har gennemført en marketingkampagne for at overbevise potentielle kunder om at investere i en bankindskudsforfremmelse. Salgsargumenterne fra marketingkampagnen blev leveret via telefonopkald. Ofte blev den samme kunde dog kontaktet mere end én gang. Du skal udføre en marketinganalyse af de data, der er genereret af denne kampagne, under hensyntagen til de gentagne opkald.

Hero

Big Hadoop og Spark-udvikler - eLearning

Målgruppe og forudsætninger

Målgruppe

  • Analytikprofessionelle
  • Øverste ledere inden for it
  • Professionelle inden for test og mainframes
  • Datastyringsprofessionelle
  • Forretningsintelligens professionelle
  • Projektledere
  • Kandidater der ønsker at starte en karriere inden for big data-analyse

Forudsætning:

Det anbefales, at du har kendskab til:

  • Kerne
  • Java SQL

Har du brug for virksomhedsløsninger eller LMS-integration?

Fandt du ikke kurset eller programmet, der ville være til gavn for din virksomhed? Har du brug for LMS-integration? Skriv til os, vi løser alt!

;