0% found this document useful (0 votes)

74 views48 pages

Putting Apache Kafka To Use!: Building A Real-Time Data Platform For Event Streams!

The document discusses the rise of event-driven architectures and immutable data. It describes the problems with having data siloed in different systems and formats. The author then introduces the idea of a stream data platform using Apache Kafka as a solution. Kafka provides a commit log abstraction that can be used for messaging, streaming data between systems, and building real-time analytics applications. It offers scalability, fault tolerance, and guarantees of ordering and persistence for building a unified stream data infrastructure.

Uploaded by

Bernd Sandmann

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

74 views48 pages

Putting Apache Kafka To Use!: Building A Real-Time Data Platform For Event Streams!

Uploaded by

Bernd Sandmann

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 48

Putting Apache Kafka

Building a Real-time Data Platform for Event Streams!

to Use!
JAY KREPS, CONFLUENT!
A Couple of Themes!
Theme 1: Rise of Events!
Theme 2: Immutability Everywhere!
Level! Example! Immutable Alternative!

Mutable local state! Counter in a for loop! Functional Programming!

Mutable process-wide state! ConcurrentHashMap! Functional Programming!

Mutable on disk structures! B-Tree! LSM!

Distributed systems! Dynamo-like key-value store! State machine replication!

Mutability in databases! RDBMS! Event Sourcing!

Company-wide data flow! Double write! Kafka!

Theme 3: Datacenter-Level Thinking!
Experience at LinkedIn!
2009: We want all our data in Hadoop!!
What is all our data?!
Initial approach: “gut it out”!
Problems!
•  Data coverage!
•  Many source systems!
•  Relational DBs!
•  Log files!
•  Metrics!
•  Messaging systems!
•  Many data formats!
•  Constant change!
•  New schemas!
•  New data sources!
Needed: organizational scalability!

Θ(N) => Θ(1)!

How does everything else work?!

?!
Relational database changes!
Apps and Services

OLTP Queries

Relational
Databases

Data Guard CSV Dump

Cache

ODS Hadoop
Poll For Changes

App App App

Relational Transforms
Data
Caches & Warehouse
Derived Stores

Transforms
NoSQL!

App App App

Key-value
Store

ETL Load

Hadoop
User events!
Apps and Apps and Apps and
Services Services Services

HTTP

Log Aggregation

NFS

rsync

NFS

Load Transform & Load

Relational
Hadoop Data
Warehouse

Transform
Application Logs!

Apps and Apps and Apps and

Services Services Services

Splunk
Messaging!
App App App App App

Broker Broker

Processor Processor Processor Processor

App App App

Broker

Processor Processor Processor Processor

Metrics and operational data!

App App App

Monitoring
This is a giant mess!
Apps and Services Apps and Services Apps and Services

OLTP Queries
HTTP
ActiveMQ HTTP

Monitoring
Relational Apps Apps Log Aggregation
Databases
Splunk
Key-value
Store
Data Guard NFS
CSV Dump
ActiveMQ Cache
rsync

Poll For Changes ODS Hadoop Load NFS

Apps Apps
App App App

Relational Transforms
Data
Transform & Load
Caches & Warehouse
Derived Stores

Transforms
Impossible ideas!
•  Publish data from Hadoop to a search index!
•  Run a SQL query to find the biggest latency
bottleneck!
•  Run a SQL query to find common error patterns!
•  Low latency monitoring of database changes or user
activity!
•  Incorporate popularity in real-time display and
relevance algorithms!
•  Products that incorporate user activity!
An infrastructure solution?!
Idea: Stream Data Platform!

Search Impala

Apps Hive
Monitoring

Stream
Data HADOOP:
DWH
RDBMS Platform: Offline
? Data

Stream Map-
NoSQL Processing
Reduce
Real-time
Analytics Spark

Synchronous
Req/Response Near real time
Offline batch
0 - 100s ms > 100s ms > 1 hour
First Attempt: Messaging systems!!
Problems!
•  Throughput!
•  Batch systems!
•  Persistence!
•  Stream Processing!
•  Ordering
guarantees!
•  Partitioning!
Second Attempt: Build Kafka!!
What does it do?!

Producer Producer Producer Producer Producer

Kafka Cluster

Consumer Consumer Consumer Consumer Consumer

Commit Log Abstraction!
Reader 1 Reader 2

1 1 1 Writes
0 1 2 3 4 5 6 7 8 9
0 1 2

Old New
Logs & Publish-Subscribe Messaging!

Source
System

writes

1 1 1
Log 0 1 2 3 4 5 6 7 8 9 0 1 2

reads reads

Destination Destination
System A System B
A Kafka Topic!

Partition 1 1 1
0 0 1 2 3 4 5 6 7 8 9
0 1 2

Partition Writes
0 1 2 3 4 5 6 7 8 9
1

Partition 1 1 1
0 1 2 3 4 5 6 7 8 9
2 0 1 2

Old New
Replication!
Server 1 Server 2 Server 3

A:0 A:0 A:0

A:1 A:1 A:1

B:0 B:0 Controller

Scaling Consumers!
Kafka Cluster

Server 1 Server 2

P0 P3 P1 P2

C1 C2 C3 C4 C5 C6

Consumer Group A Consumer Group B

Kafka: A Modern Distributed System for Streams!

 Scalability of a filesystem!
◦ Hundreds of MB/sec/server throughput!
◦ Many TB per server!
 Guarantees of a database!
◦ Messages strictly ordered!
◦ All data persistent!
 Distributed by default!
◦ Replication!
◦ Partitioning model!
 Producers, Consumers, and Brokers all fault tolerant and horizontally
scalable!
Stream Data Platform!

Search Impala

Apps Hive
Monitoring

KAFKA:
Stream HADOOP:
DWH
RDBMS Data Offline
Platform Data

Stream Map-
NoSQL Processing
Reduce
Real-time
Analytics Spark

Synchronous
Req/Response Near real time
Offline batch
0 - 100s ms > 100s ms > 1 hour
Batch Data => Batch Processing!
Stream processing is a!
generalization!
of batch processing !
and request/response processing!
Request/Response processing: !
One input => One output!
Batch processing: !
All inputs => All outputs!
Stream Processing: !
Some inputs => some outputs!
(you choose how much “some” is)!
Stream Processing a la carte!
Input Kafka Topic

Transform Transform Transform

Intermediate Your code

Kafka Topic
cat input | grep “foo” | wc -l
Transform Transform Transform

Output Kafka
Topic

Hadoop Live
Data Store
Stream Processing with Frameworks!

+! =! Stream
Processing!
Unix Pipes, Modernized!

cat /usr/share/dict/words | wc -l
On Schemas!

Bad Schemas < No Schemas < Good Schemas!

Put it all together!
Apps Apps Apps Apps

Social Key-Value
Search Oracle Newsfeed OLAP
Graph Storage

Apps
Log
Search Apps

Monitoring
Kafka
Security &
Fraud Samza

Real-time
Analytics

Hadoop Teradata
At LinkedIn!
•  Everything in the company is a real-time stream!
•  > 800 billion messages written per day!
•  > 2.9 trillion messages read per day!
•  ~ 1 PB of stream data!
•  Tens of thousands of producer processes!
•  Backbone for data stores!
•  Search!
•  Social Graph!
•  Newsfeed!
•  Primary storage (in progress)!
•  Basis for stream processing!
Elsewhere!
Why this is the future!

1. System diversity is increasing!

2. Data diversity and volume is
increasing!
3. The world is getting faster!
4. The technology exists!
•  Mission: Make this a practical reality
everywhere!
•  Product!
•  Apache Kafka!
•  Schemas and metadata management!
•  Connectors for common systems!
•  Monitor data flow end-to-end!
•  Stream processing integration!
Questions?!
•  Confluent!
•  @confluentinc!
•  http://confluent.io !
•  http://blog.confluent.io/2015/02/25/
stream-data-platform-1 !
•  Apache Kafka!
•  @apachekafka!
•  http://kafka.apache.org!
•  http://linkd.in/199iMwY !
•  Me!
•  @jaykreps!

3CX Basic Exam Questions
100% (1)
3CX Basic Exam Questions
8 pages
Software Quality Operational Readiness Review (ORR) Checklist
100% (1)
Software Quality Operational Readiness Review (ORR) Checklist
5 pages
Integrating Microsoft Access With Autocad Vba
No ratings yet
Integrating Microsoft Access With Autocad Vba
19 pages
Operating Systems: Lecture Notes
No ratings yet
Operating Systems: Lecture Notes
222 pages
Stack Overflow - Learning Lua
No ratings yet
Stack Overflow - Learning Lua
89 pages
Real-Time Streaming in Big Data: Kafka and Spark With Singlestore
100% (1)
Real-Time Streaming in Big Data: Kafka and Spark With Singlestore
23 pages
5a - Streaming Data Analytics PDF
No ratings yet
5a - Streaming Data Analytics PDF
37 pages
TRabl StreamProcessing
No ratings yet
TRabl StreamProcessing
79 pages
Stream Processing and Analytics Handout
No ratings yet
Stream Processing and Analytics Handout
8 pages
Streaming Data and Stream Processing With Apache Kafka ™: David Tucker, Director of Partner Engineering
No ratings yet
Streaming Data and Stream Processing With Apache Kafka ™: David Tucker, Director of Partner Engineering
44 pages
Data Steaming Sylll
No ratings yet
Data Steaming Sylll
12 pages
LTM Fundamentals ExGuide - v12.0.0.08
No ratings yet
LTM Fundamentals ExGuide - v12.0.0.08
191 pages
Analytics On Big Fast Data Using A Realtime Stream Data Processing Architecture
No ratings yet
Analytics On Big Fast Data Using A Realtime Stream Data Processing Architecture
34 pages
Spark Streaming: Tathagata "TD" Das
No ratings yet
Spark Streaming: Tathagata "TD" Das
28 pages
Udacity Enterprise Syllabus Data Streaming nd029
No ratings yet
Udacity Enterprise Syllabus Data Streaming nd029
12 pages
Stream Processing With: Tamás István Ujj
No ratings yet
Stream Processing With: Tamás István Ujj
27 pages
Kafka
No ratings yet
Kafka
50 pages
Stream Processing and Analytics - Regular-HO
No ratings yet
Stream Processing and Analytics - Regular-HO
7 pages
Kafka Fund
100% (1)
Kafka Fund
160 pages
BDA UNIT-2 (Final)
No ratings yet
BDA UNIT-2 (Final)
27 pages
Apache Kafka for Stream Processing
No ratings yet
Apache Kafka for Stream Processing
26 pages
StreamProcessingAndAnalytics Handout
No ratings yet
StreamProcessingAndAnalytics Handout
7 pages
STEP 7 Basic V13 2 enUS
No ratings yet
STEP 7 Basic V13 2 enUS
130 pages
Scalable Time Series Database
No ratings yet
Scalable Time Series Database
28 pages
Apache Kafka for Tech Students
No ratings yet
Apache Kafka for Tech Students
21 pages
Lab Manual: Database and Information Retrieval System
No ratings yet
Lab Manual: Database and Information Retrieval System
70 pages
Creating Data Pipe Lines With Kafka
No ratings yet
Creating Data Pipe Lines With Kafka
144 pages
Spark Streaming for Developers
100% (1)
Spark Streaming for Developers
28 pages
Project - Traffic Data Analysis
No ratings yet
Project - Traffic Data Analysis
20 pages
Stream Processing Using Kafka
No ratings yet
Stream Processing Using Kafka
46 pages
Lec 02
No ratings yet
Lec 02
13 pages
Flexfield in Report
No ratings yet
Flexfield in Report
4 pages
4 Building Blocks of A Streaming Data Architecture
No ratings yet
4 Building Blocks of A Streaming Data Architecture
11 pages
Big Data Concepts - Spark & Streaming
No ratings yet
Big Data Concepts - Spark & Streaming
35 pages
T09 Data Streaming
No ratings yet
T09 Data Streaming
52 pages
Top 100 Tips On Filing Ectd
No ratings yet
Top 100 Tips On Filing Ectd
8 pages
Large Scale Data Pipelines
No ratings yet
Large Scale Data Pipelines
91 pages
Test Case Preparation Guide
No ratings yet
Test Case Preparation Guide
19 pages
Stream Processing in Big Data
No ratings yet
Stream Processing in Big Data
39 pages
Appliance Management Console-2.5
No ratings yet
Appliance Management Console-2.5
38 pages
Dell™ Multifunction Laser Printer 1815dn
No ratings yet
Dell™ Multifunction Laser Printer 1815dn
2 pages
HD Mod011 Kafka
No ratings yet
HD Mod011 Kafka
29 pages
Kafka Presentation
No ratings yet
Kafka Presentation
16 pages
Assignment No. 3 For Business Data Analytics
No ratings yet
Assignment No. 3 For Business Data Analytics
16 pages
Library Management System: A Project Report On
No ratings yet
Library Management System: A Project Report On
27 pages
How To Use Gnome Shell Extensions (Complete Guide) - It's Foss PDF
No ratings yet
How To Use Gnome Shell Extensions (Complete Guide) - It's Foss PDF
11 pages
Bigdata
No ratings yet
Bigdata
3 pages
Intro to MS Word: User Interface Basics
No ratings yet
Intro to MS Word: User Interface Basics
28 pages
Cisco Finesse Administration Guide 116 - Chapter - 01101
No ratings yet
Cisco Finesse Administration Guide 116 - Chapter - 01101
8 pages
Student Handbook Version 5.5.0-V1.1.0
No ratings yet
Student Handbook Version 5.5.0-V1.1.0
160 pages
MERN Stack Web Development Course
No ratings yet
MERN Stack Web Development Course
12 pages
Kafka
No ratings yet
Kafka
43 pages
Blace Plugin Setup for AE & PP Users
No ratings yet
Blace Plugin Setup for AE & PP Users
2 pages
BDA Lec10
No ratings yet
BDA Lec10
33 pages
Learning Apache Kafka - Second Edition - Sample Chapter
No ratings yet
Learning Apache Kafka - Second Edition - Sample Chapter
12 pages
Vineeth Mulesoft Admin
No ratings yet
Vineeth Mulesoft Admin
3 pages
Course Outline CMIS1150 - 2021
No ratings yet
Course Outline CMIS1150 - 2021
4 pages
Knowledge Environment For Web-Based Learning (KEWL) A Manual For Students
No ratings yet
Knowledge Environment For Web-Based Learning (KEWL) A Manual For Students
36 pages
Real-Time Streaming for Tech Pros
No ratings yet
Real-Time Streaming for Tech Pros
5 pages
QPM Instructions
No ratings yet
QPM Instructions
43 pages
6 - Streaming Part 1
No ratings yet
6 - Streaming Part 1
44 pages
BHEL
No ratings yet
BHEL
19 pages
Software Engineering - Module 5
No ratings yet
Software Engineering - Module 5
44 pages
Kafka Streams in Action Second Edition MEAP V13 Bill Bejeck
No ratings yet
Kafka Streams in Action Second Edition MEAP V13 Bill Bejeck
76 pages
Set Your Data in Motion
No ratings yet
Set Your Data in Motion
8 pages
2ND G10 Exam
No ratings yet
2ND G10 Exam
3 pages
Bda Assign2
No ratings yet
Bda Assign2
4 pages
Full Download Event Streams in Action Real Time Event Systems With Kafka and Kinesis 1st Edition Alexander Dean Valentin Crettaz PDF
100% (10)
Full Download Event Streams in Action Real Time Event Systems With Kafka and Kinesis 1st Edition Alexander Dean Valentin Crettaz PDF
49 pages
20250129-EB-Ultimate Data Streaming Guide
No ratings yet
20250129-EB-Ultimate Data Streaming Guide
103 pages
Big Data Analytics - Unit 2 Notes
No ratings yet
Big Data Analytics - Unit 2 Notes
44 pages
Introduction To Data Ingestion and Processing
No ratings yet
Introduction To Data Ingestion and Processing
28 pages
Iwt Unit 5
No ratings yet
Iwt Unit 5
14 pages
SAP ECC6 Integration with EEZEE API
No ratings yet
SAP ECC6 Integration with EEZEE API
1 page
Big Data 3rd Assignment Answers
No ratings yet
Big Data 3rd Assignment Answers
8 pages
Streaming Graph Processing Unit5
No ratings yet
Streaming Graph Processing Unit5
7 pages
Create A Macro in Excel - Step by Step Tutorial
No ratings yet
Create A Macro in Excel - Step by Step Tutorial
8 pages
BDA Unit 3
No ratings yet
BDA Unit 3
42 pages
Chapter 1-1
No ratings yet
Chapter 1-1
34 pages
BDA Unit V
No ratings yet
BDA Unit V
21 pages
Handbook Version Confluent Exercise
No ratings yet
Handbook Version Confluent Exercise
160 pages
Stream Processing
No ratings yet
Stream Processing
33 pages
Kafka
No ratings yet
Kafka
21 pages
Confluent Developer Skills For Building Apache Kafka
No ratings yet
Confluent Developer Skills For Building Apache Kafka
3 pages
Kafka
No ratings yet
Kafka
28 pages
Building Data Streaming Applications With Apache Kafka
No ratings yet
Building Data Streaming Applications With Apache Kafka
4 pages
SPA Session 10 Stream Platforms
No ratings yet
SPA Session 10 Stream Platforms
26 pages
Mining Data Streams in Data Analytics Refers To The Process of Extracting Useful Patterns
No ratings yet
Mining Data Streams in Data Analytics Refers To The Process of Extracting Useful Patterns
30 pages
Streaming Data Ingestion v1 181001151203
No ratings yet
Streaming Data Ingestion v1 181001151203
59 pages

Putting Apache Kafka To Use!: Building A Real-Time Data Platform For Event Streams!

Uploaded by

Putting Apache Kafka To Use!: Building A Real-Time Data Platform For Event Streams!

Uploaded by

Putting Apache Kafka

Building a Real-time Data Platform for Event Streams!

Mutable local state! Counter in a for loop! Functional Programming!

Mutable process-wide state! ConcurrentHashMap! Functional Programming!

Mutable on disk structures! B-Tree! LSM!

Distributed systems! Dynamo-like key-value store! State machine replication!

Mutability in databases! RDBMS! Event Sourcing!

Company-wide data flow! Double write! Kafka!

Θ(N) => Θ(1)!

Data Guard CSV Dump

App App App

App App App

Load Transform & Load

Apps and Apps and Apps and

Processor Processor Processor Processor

App App App

Processor Processor Processor Processor

App App App

Poll For Changes ODS Hadoop Load NFS

Producer Producer Producer Producer Producer

Consumer Consumer Consumer Consumer Consumer

A:0 A:0 A:0

A:1 A:1 A:1

B:0 B:0 Controller

Consumer Group A Consumer Group B

Transform Transform Transform

Intermediate Your code

Bad Schemas < No Schemas < Good Schemas!

1. System diversity is increasing!

You might also like

1. System diversity is increasing!