Big Data with Hadoop/Sparkspecial

Klassikaal + virtueel = hybride

Staat de klassikale cursus tegelijkertijd gepland met de virtuele cursus? Dan kun je ervan uitgaan dat wij deze training hybride geven. Dit betekent dat je tussentijds kunt switchen van klassikaal naar virtueel en andersom.

Lees meer.

Algemeen

Manipulating big data over a distributed cluster for processing and analysis is rampant in industry and one of the most sought after skills. This course is an a 3 day intensive introduction to big data with Apache Hadoop and Spark. Participants gain an understanding of what insights big data can deliver through hands-on experience with tools and systems used by big data and machine learning engineers. At the end of the course, participants will be able to build a complete end
to end data pipeline starting from data ingestion and storage to data processing and analysis. Topics covered include HDFS, Hive, Impala, Sqoop, MapReduce, HBase, Spark and SparkML. All hands on exercises are conducted on in Python and Shell, therefore some prior experience is advised. Participants will have an opportunity to
run code on a real Hadoop/Spark cluster.

Doel

  • This course gives an introduction to big data technologies using the Cloudera stack (Cloud/On-Prem). The use of the Cloudera stack (Cloud/On-Prem) is chosen because of the ease of usage and development it provides. Since infrastructure is already arranged for in this way, students can focus on concepts and applying them in lab exercises.

Doelgroep

The intended audience is beginning professionals in Big Data and Business Analytics.

Voorkennis

Onderstaande voorkennis is vereist:

Introductie in Python – Mogelijkheden en Code Begrijpen of vergelijkbare kennis.
Prior experience in programming is not needed but Python basics are recommended. Instructions and code samples will be arranged by the instructor.

Bijzonderheden

  • Het cursusmateriaal van deze cursus is veelal digitaal. Om optimaal gebruik te kunnen maken van het cursusmateriaal adviseren we je om een eigen device (laptop, tablet) mee te nemen. Dit is echter alleen een advies, geen noodzaak.
Persoonlijk advies?

Onderwerpen

  • Day 1: Big Data Fundamentals
  • Understanding Big Data:
    • Definitions
    • The V’s of Big Data
    • Sources of Big Data
    • Types of Big Data: Structured / Unstructured / Semi structured
  • Applications: Examples from Retail / Financial Services / Healthcare / Manufacturing
  • Overview of (Big) Data Technologies (storage models)
    • relational e.g. mysql
    • key value e.g. redis, dynamodb
    • columnar e.g, hbase
    • document e.g. mongodb
    • graph e.g. Neo4J.
    • timeseries e.g. InfluxDB
    • factors to consider when selecting a (big) data storage
  • Introduction to Hadoop
    • Scaling: Vertical vs Horizontal
    • Start of Hadoop with Google File System and Map Reduce
    • Hadoop Landscape and Components
    • Hadoop Distributions
    • Hadoop in the Cloud
  • HDFS:
    • Design of HDFS
    • Storing and Reading Files in HDFS
    • Fault Tolerance and Replication
    • HDFS Storage Options: File Formats (CSV/TXT/Parquets/Avro) / Row vs Columnar / Compression and Serialization: What is it? And how it works?
  • HDFS Schema Design:
    • Location
    • Partitioning
    • Bucketing
  • Lab: Working with HDFS: Technical Commands
  • AWS S3 (Object store)
    • Genealogy and Design
    • Design considerations
  • Lab interacting with S3 on AWS
    • Comparison between S3 and HDFS
  • Day 2: Big Data Fundamentals
  • Map Reduce (Quick Conceptual Overview)
    • What is it?
    • Processing Data with Map Reduce (The Algorithm)
    • A Word Count Example (in Python and not JAVA)
    • Explain briefly of YARN here
    • Introduction to Spark
  • Hive (Detailed Overview)
    • Introduction
    • Architecture
    • Different Hive Query Engines (MR/Tez/Spark)
    • Data Flow in Hive
  • Lab: Load Data on HDFS. Create Tables on HDFS. Querying SQL (Joins etc)
    • Map Reduce flow in Hive
  • Pig (Quick Mention/Overview)
    • Introduction
    • Architecture
    • Data Flow in PIG
    • Map Reduce flow in PIG
  • Impala (Detailed Overview)
    • Introduction
    • Architecture
    • Data Flow in Impala
  • Lab: Load Data on HDFS. Create Tables on Impala. Querying SQL (Joins etc)
  • Hbase (Detailed overview)
    • Genealogy (that its built on HDFS) and Architecture
    • Schema design of Hbase
    • Illustrate difference between Hbase and MySQL
    • Interacting with Hbase using shell
    • Retrieving data using Hbase Shell and REST API (explain briefly an API)
  • Lab: Setting up an Hbase Table, loading data, retrieving data
  • Summary:
    • Comparison of Hive / Pig / Impala / Hbase
    • When to use which?
  • Day 3: Big Data Fundamentals
  • Spark:
    • Overview
    • Key concepts and ideas
    • Difference between Hadoop Map Reduce and Spark
    • SparkSQL
  • Lab: PySpark exercise using DataFrames and SparkSQL
  • SparkML:
    • Quick overview
    • Running cluster analysis on PySpark
    • Other components within a Cluster: Sqoop / Tour of Ambari or Cloudera Manager / Oozie / SOLR
  • Lab: Moving Data into and out of HDFS
  • Real Life Case Application Architecture (End to End Pipeline)
  • Wrap Up

Planning & Prijs

Pageloader
Alle prijzen zijn excl. BTW.
Meer informatie over incompany of maatwerk
Cursus: Big Data with Hadoop/Spark

Vul onderstaand formulier in en je ontvangt meer informatie over de incompany- en maatwerkmogelijkheden van deze cursus.

[contact-form-7 404 "Niet gevonden"]

Wil je meer informatie ontvangen, een vrijblijvende offerte ontvangen of een brochure van deze cursus downloaden? Vul onderstaande gegevens in en je ontvangt de brochure of informatie binnen één werkdag.


Akkoord met opvolging en privacyvoorwaardenIk ga akkoord met de privacy voorwaarden

Akkoord met opvolging en privacyvoorwaardenIk ga akkoord met de privacy voorwaarden

Akkoord met opvolging en privacyvoorwaardenIk ga akkoord met de privacy voorwaarden

Ervaringen

ervaringen verzameld via Logo Springtest

Lucienne Groenendaal

Secretarieel medewerkster

"Training was prima, goede tips gekregen met af en toe een grap en grol. Locatie was prima, goed verzogd vwb koffie/thee, fruit en koekje. Mensen ook zeer vriendelijk. Lunch was perfect en zeer uitgebreid."

9

Ariana Scheepers

"De cursus was goed, en de verzorging ook!Ik heb er veel van opgestoken! De lokatie in Nieuwegein is goed te bereiken met het openbaar vervoer, dus dat is prettig. Tot een volgenden keer."

10

Eric Pos

Procesbeheerder bij Gemeente Amersfoort

"Ik vond de training erg leerzaam. De inhoud was van een hoog niveau en de docent was goed thuis in de materie. Ik stel het vooral op prijs dat er diep op de concepten werd ingegaan."

9
Betalen op later moment
Schrijf je eerst in en betaal later op rekening of met de Groeikaart.
8,3 gemiddeld op Springest
Meer dan 450 cursisten deelden hun ervaring.
Pageloader
De cursus is toegevoegd aan jouw favorieten.

Jouw favorieten kun je bekijken via je profiel (deze vind je in het menu bovenaan de website).

Kunnen wij je helpen?

Laat jouw telefoonnummer of e-mailadres achter en wij nemen binnen 24 uur contact met je op.


Cursus: Big Data with Hadoop/Spark


E-mailadres

Telefoonnummer

Opmerking of vraag


Meer weten

Vul onderstaand formulier in en je ontvangt meer informatie over deze cursus.


Cursus: Big Data with Hadoop/Spark

Wij helpen je graag

Geen tijd om ons gehele aanbod aan cursussen te bekijken? Of heb je een andere vraag? Wij helpen je graag. Vul onderstaande vragen in en we nemen binnen 24 uur contact met je op.

Big Data with Hadoop/Spark







Lesmethoden
JIJ BENT ONS UITGANGSPUNT

Jouw wensen en behoeften staan voor ons centraal. Iedereen leert op zijn eigen manier. Daarom hebben we zes specifieke lesmethoden ontwikkeld.

KLASSIKALE CURSUS

Bij de klassikale cursussen speelt de interactie met trainer en medecursisten een belangrijke rol in het leerproces. Samen behandelen we de theorie en daarna maak je zelf opdrachten. De antwoorden bespreken we klassikaal. Zo sla je de lesstof beter op en leer je van situaties en vraagstukken in andere bedrijven. Die ervaringen kun je weer doorvertalen naar je eigen organisatie.

VIRTUEEL

Een virtuele training is een reguliere klassikale training die je digitaal bijwoont. Je hebt hierbij de ondersteuning van een ervaren docent, krijgt alle praktijkervaring mee, alleen zit je niet in één van onze klaslokalen. Ook kan je chatten met medecursisten tijdens de training.

Wat heb je nodig om virtueel training te kunnen volgen?

  • Een internetverbinding (voorkeur >10mbps)
  • Een actuele internetbrowser (liefst met HTML5 ondersteuning, voorkeur voor Chrome of Firefox)
  • Optioneel: een camera en/of microfoon
  • De oplossing is geschikt voor zowel Windows, MacOS als Linux
  • Het is niet nodig om een applicatie of client te installeren op jouw PC

Hybride
Veel van onze trainingen organiseren wij ‘hybride’. Hierbij is een deel van de cursisten fysiek in het klaslokaal aanwezig en een ander deel van de cursisten virtueel.

PERSOONLIJK BEGELEID

Alleen de onderdelen leren die jij wilt leren en dat in je eigen tempo. Dit omschrijft persoonlijk begeleid leren het beste. In overleg met jouw opleidingsadviseur plan je de eerste dag persoonlijke begeleiding op één van onze locaties in. Afhankelijk van jouw training krijg je geprint cursusmateriaal of toegang tot mijn.vijfhart.nl waar je theorie leest, video’s bekijkt, oefeningen, meerkeuze- en openvragen maakt die je daarna één-op-één met de trainer behandelt. Hierdoor zorgen we ervoor dat je de lesstof aan het einde van de training echt beheerst.

VIRTUEEL PERSOONLIJK BEGELEID

Virtueel Persoonlijk begeleid is de virtuele variant van Persoonlijk begeleid leren.

E-LEARNING

Je krijgt toegang tot een persoonlijke online leeromgeving met daarin al het benodigde cursusmateriaal. Een e-learning volg je waar en wanneer jij wilt én in jouw eigen tempo. Bij een deel van ons opleidingsportfolio heb je de mogelijkheid om de training in de lesmethode E-learning te volgen.

BLENDED

Met de juiste mix van online en offline leren is blended de lesmethode van Vijfhart. Naast de ondersteuning van een gecertificeerde en ervaren trainer, krijg je praktijkdagen op één van onze locaties en kun je met een online leeromgeving overal 24/7 leren. Aan de hand van een op maat gemaakt opleidingsplan, volg je de leerroute die past bij jouw kennisniveau en wensen. Wat, waar en wanneer leren…. jij bepaalt!

Meer informatie
Onderwerpen
Actieve filters: Wis alle filters
Pageloader
PRIVACY VOORWAARDEN

Jouw persoonsgegevens worden opgenomen in onze beschermde database en worden niet aan derden verstrekt. Je stemt hiermee in dat wij jou van onze aanbiedingen op de hoogte houden. In al onze correspondentie zit een afmeldmogelijkheid