GitHub - nboro/data_engineering_case: Data engineering: Apache Kafka, Apache Spark, MongoDB, ELK Stack

Stream and batch processing implementation.
This was created as part of an assignment for the Data Engineering course of the MSc Data Science and Entrepreneurship program.
Tools used: Apache Spark, Apache Kafka, MongoDB and ELK Stack.

Content FILES:

backend.py: simulator for backend as a data source
config.yaml: contains all the configuration accessed by batch and real-time service
consumer.py: anomaly detection implementation
email_sender.py: SMTP function for daily report
report.py: batch implementation to generate daily report
util.py: contains read_config utility function

FOLDERS:

data: contains 2 files as input for the backend.py
logstash: all necessary bash and config file to run logstash
mongo: contains data and bash file to populate designated mongo collection for daily report

Required library: 1. spark-mongo connector (.jar)

Required services: 1. Run mongod 2. Run zookeeper 3. Run kafka 4. Run elasticsearch 5. Run kibana 6. Run logstash for search_events 7. Run logstash for search_anomalies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
data		data
logstash		logstash
mongo		mongo
README.md		README.md
backend.py		backend.py
config.yaml		config.yaml
consumer.py		consumer.py
email_sender.py		email_sender.py
report.py		report.py
util.py		util.py

nboro/data_engineering_case

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages