Spark Training Repository

This repository contains many different examples, exercises and tutorials for Spark and Hadoop trainings performed by dimajix. You can always find the latest version on GitHub at

https://github.com/dimajix/spark-training

External Dependencies

Some notebooks require some test data provided by dimajix on S3 at s3://dimajix-training/data/.

Building Executables

The source code can be built using Maven, simply by running

mvn install

from the root directory.

Running Examples

Most code is either provided as interactive Notebooks (Jupyter and/or Zeppelin) or as compilable programs. Programs which create jar files always contain start scripts, which take care of setting any environment variables and Spark configuration properties.

Name		Name	Last commit message	Last commit date
Latest commit History 323 Commits
data		data
deployment		deployment
hadoop		hadoop
hive		hive
kafka		kafka
pig		pig
scala		scala
spark-python		spark-python
spark-scala		spark-scala
sqoop		sqoop
utils		utils
.gitignore		.gitignore
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Spark Training Repository

Contents

External Dependencies

Building Executables

Running Examples

About

Releases

Packages

Languages

trivenigk/spark-training

Folders and files

Latest commit

History

Repository files navigation

Spark Training Repository

Contents

External Dependencies

Building Executables

Running Examples

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages