0% found this document useful (0 votes)

440 views6 pages

Data Report Martin Inline Graphics R7 PDF

The document describes a unified data architecture that includes components for ingesting data from various sources, storing the data in warehouses and lakes, and performing queries, analytics, and modeling on the historical and current data to generate business insights and predictive outcomes. The architecture supports ingesting, transforming, storing large volumes of structured and unstructured data, as well as querying, analyzing, and visualizing the data using various tools.

Uploaded by

Soumya Ranjan

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

440 views6 pages

Data Report Martin Inline Graphics R7 PDF

Uploaded by

Soumya Ranjan

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

A Unified Data Infrastructure Architecture

Query and Processing

Ingestion and
Sources Transformation Storage Historical Predictive Output

Connectors Data Warehouse Dashboards

OLTP Databases (Looker, Superset,
(Fivetran, Stitch, (Snowflake, BigQuery, Redshift)
via CDC Matillion) Mode, Tableau)

Applications/ERP Embedded
(Oracle, Salesforce,
Data Modeling Analytics
Netsuite, ...) (dbt, LookML)
(Sisense, Looker,
cube.js)
Event Collectors Workflow Data Science Platform
(Segment, Snowplow) Manager (Databricks, Domino, Sagemaker, Dataiku, Augmented
(Airflow, Dagster, DataRobot, Anaconda, ...) Analytics
Prefect)
(Thoughtspot, Outlier,
Anodot, Sisu)
Logs
Data Science and ML Libraries
(Pandas, Numpy, R, Dask, Ray, Spark, ...
Spark Platform Data Lake Scikit-learn, Pytorch, TensorFlow, Spark ML, XGBoost, ...) App Frameworks
3rd Party APIs (Databricks, EMR) (Plotly Dash, Streamlit)
(e.g., Stripe) Databricks/
Delta Lake, Iceberg, Ad Hoc Query
Python Libs Hudi, Hive Acid
(Pandas, Boto,
Engine
File and Object Dask, Ray, ...) (Presto, Dremio/ Custom Apps
Storage Drill, Impala)
Parquet,
Batch Query ORC, Avro
Engine Real-time
(Hive) Analytics
(Imply/Druid, Altinity/
S3, GCS, Clickhouse, Rockset)
ABS, HDFS

Event Streaming
(Confluent/Kafka,
Pulsar, AWS Kinesis)

Stream
Processing
(Databricks/Spark,
Confluent/Kafka, Flink)

Metadata
Management Quality and Testing Entitlements Observability
and Security (Unravel, Accel Data,
(Collibra, Alation, Hive, (Great Expectations)
(Privacera, Immuta) Fiddler)
Metastore, DataHub, ...)
Interpreting the Architecture
Query and Processing
Ingestion and
Sources Transformation Storage Historical Predictive Output

Generate relevant Extract data from Store data in a Present results of

Provide an interface for analysts and data scientists
business and operational systems format accessible to data analysis to
to derive insights (query)
operational data (E) query & processing internal and
systems external users
Execute queries and data models against stored
Deliver to storage,
data, often using distributed compute (processing)
aligning schemas Optimize for low Embed data models
between source cost, scalability, and into operational
and destination (L) analytic workloads systems and
(e.g., column store) applications
Transform data to a
structure ready for In some cases,
analysis (T) provide additional
data structures or
guarantees Describe what Predict what will
happened in the happen in the future
past (including very
recent past) Build data-driven/
ML applications

Coordinate the flow of data and the execution of computations across the full lifecycle

Ensure proper data quality, performance, and governance of all systems and datasets
Three Common Blueprints

Analytic
1 Modern Business Intelligence
Systems

2 Multimodal Data Processing

Operational
3 AI and ML
Systems
1. Modern Business Intelligence Blueprint
Query and Processing
Ingestion and
Sources Transformation Storage Historical Predictive Output

Connectors Data Warehouse Dashboards

OLTP Databases (Looker, Superset,
(Fivetran, Stitch, (Snowflake, BigQuery, Redshift)
via CDC Matillion) Mode, Tableau)

Event Streaming
(Confluent/Kafka,
Pulsar, AWS Kinesis)

Stream
Processing
(Databricks/Spark,
Confluent/Kafka, Flink)

Metadata
Management Quality and Testing Entitlements Observability
and Security (Unravel, Accel Data,
(Collibra, Alation, Hive, (Great Expectations)
(Privacera, Immuta) Fiddler)
Metastore, DataHub, ...)
2. Multimodal Data Processing Blueprint
Query and Processing
Ingestion and
Sources Transformation Storage Historical Predictive Output

Connectors Data Warehouse Dashboards

OLTP Databases (Looker, Superset,
(Fivetran, Stitch, (Snowflake, BigQuery, Redshift)
via CDC Matillion) Mode, Tableau)

Event Streaming
(Confluent/Kafka,
Pulsar, AWS Kinesis)

Stream
Processing
(Databricks/Spark,
Confluent/Kafka, Flink)

Data Transformation Model Training and Development Model Inference

Data Labeling
(Labelbox, Snorkel,
Scale, Sagemaker)

Data Sources
(Data lake + Dataflow Automation
data warehouse + (Airflow, Pachyderm, Elementl, Prefect, Tecton, Kubeflow)
streaming engine)

Query Engines Feature Store Feature Server

(Presto, Hive) (Tecton) (Tecton, Cassandra)

Data Science
Libraries
(Spark, Pandas,
NumPy, Dask)

Data Science Platform Model Batch Predictor

(Jupyter, Databricks, Domino, Sagemaker, DataRobot, Registry (Spark)
H2O, Colab, Deepnote, Noteable) (Algorithmia,
MLflow,
Sagemaker) Online Model Clients
Server
Experiment ML (TF Serving, Ray
Tracking Framework Compiler Serve, Seldon)
(Weights and (Scikit-learn, (TVM)
Biases, Comet, XGBoost, MLlib)
MLflow)
Model
DL Monitoring
Visualization Framework (Fiddler, Arthur,
(Tensorboard, (TensorFlow, Keras, Arize)
Fiddler) PyTorch, H2O)

Model Tuning RL Libraries

(Sigopt, hyperopt, (Gym, Dopamine,
Ray Tune) RLlib, Coach)

Distributed
Processing
(Spark, Ray, Dask,
Distributed TF,
Kubeflow,
Horovod)

Discovery 26: Configure Control Plane Policing: Task 1: Configure and Verify Copp On R1
No ratings yet
Discovery 26: Configure Control Plane Policing: Task 1: Configure and Verify Copp On R1
2 pages
DP 900 Day 4
No ratings yet
DP 900 Day 4
40 pages
Fortigate With Cisco Equivalent Commands
No ratings yet
Fortigate With Cisco Equivalent Commands
3 pages
Harteg Notes
No ratings yet
Harteg Notes
4 pages
Operations Strategy of Apple Inc
33% (3)
Operations Strategy of Apple Inc
6 pages
Batch Analysis Records
No ratings yet
Batch Analysis Records
29 pages
Azure Databricks
No ratings yet
Azure Databricks
5 pages
CS wk2
No ratings yet
CS wk2
6 pages
Data Warehousing With Greenplum
0% (1)
Data Warehousing With Greenplum
95 pages
Data Quality Talend
No ratings yet
Data Quality Talend
346 pages
Top 50 Data Warehousing Interview Questions & Answers
No ratings yet
Top 50 Data Warehousing Interview Questions & Answers
8 pages
Sr. Data Engineer with Azure Expertise
No ratings yet
Sr. Data Engineer with Azure Expertise
6 pages
3 Lecture 3-ETL
100% (1)
3 Lecture 3-ETL
42 pages
ChemSpider The Free Chemistry Database F PDF
No ratings yet
ChemSpider The Free Chemistry Database F PDF
42 pages
Network Infrastructure Management
100% (1)
Network Infrastructure Management
21 pages
Robot Controller Safety Guide
No ratings yet
Robot Controller Safety Guide
55 pages
EM Part-I
No ratings yet
EM Part-I
12 pages
Database Management Systems 2-Mark Questions and Answers
No ratings yet
Database Management Systems 2-Mark Questions and Answers
11 pages
De Mod 5 Deploy Workloads With Databricks Workflows
No ratings yet
De Mod 5 Deploy Workloads With Databricks Workflows
19 pages
Naresh DE
No ratings yet
Naresh DE
5 pages
Talend Data Integration Guide
No ratings yet
Talend Data Integration Guide
64 pages
CCNAv7 - Enterprise Networking, Security, and Automation Final Exam
No ratings yet
CCNAv7 - Enterprise Networking, Security, and Automation Final Exam
66 pages
IT Database Fundamentals Guide
No ratings yet
IT Database Fundamentals Guide
5 pages
Big Data Engineer Interview Questions
No ratings yet
Big Data Engineer Interview Questions
1 page
Dice Resume CV PAVAN SRI HARSHA LAGHUVARAPU
No ratings yet
Dice Resume CV PAVAN SRI HARSHA LAGHUVARAPU
4 pages
Resume - Tanmoy Munshi PDF
No ratings yet
Resume - Tanmoy Munshi PDF
2 pages
CH 2 Introduction To Data Warehousing
No ratings yet
CH 2 Introduction To Data Warehousing
31 pages
FFRTC Log
No ratings yet
FFRTC Log
207 pages
Strings: Built-In Functions
No ratings yet
Strings: Built-In Functions
6 pages
Data Report Martin Inline Graphics R8 1
No ratings yet
Data Report Martin Inline Graphics R8 1
6 pages
ComProg1 Lesson 2 - Introduction To Programming
No ratings yet
ComProg1 Lesson 2 - Introduction To Programming
2 pages
PHP and Mysql Exam
No ratings yet
PHP and Mysql Exam
18 pages
Methodology For Data Validation v1.0 Rev-2016-06 Final
No ratings yet
Methodology For Data Validation v1.0 Rev-2016-06 Final
76 pages
Tech Arkit Topic List: Interview Questions and Answers
No ratings yet
Tech Arkit Topic List: Interview Questions and Answers
8 pages
Data Warehouses and Data Cubes
No ratings yet
Data Warehouses and Data Cubes
21 pages
Computer Architecture Basics
No ratings yet
Computer Architecture Basics
42 pages
DBMS A6 Project Report
No ratings yet
DBMS A6 Project Report
9 pages
Stack Implementation via Linked List
No ratings yet
Stack Implementation via Linked List
11 pages
Database/ETL Architect Expertise
100% (1)
Database/ETL Architect Expertise
4 pages
Data Stage Architecture
No ratings yet
Data Stage Architecture
4 pages
Green University of Bangladesh: Assignment of Final Examination
No ratings yet
Green University of Bangladesh: Assignment of Final Examination
8 pages
Snowflake Ques
No ratings yet
Snowflake Ques
1 page
C++ Programming: From Problem Analysis To Program Design: Chapter 2: Basic Elements of C++
No ratings yet
C++ Programming: From Problem Analysis To Program Design: Chapter 2: Basic Elements of C++
81 pages
FINAL Revised Mapping - Unified Patents - Winning Submission For US7885981 - MPK - 12.01.2020
No ratings yet
FINAL Revised Mapping - Unified Patents - Winning Submission For US7885981 - MPK - 12.01.2020
47 pages
Lead Data Engineer with AWS Expertise
No ratings yet
Lead Data Engineer with AWS Expertise
2 pages
Azure Data Factory Monitoring Best Practices
No ratings yet
Azure Data Factory Monitoring Best Practices
9 pages
DataStage Migration Webinar - v3FINAL
No ratings yet
DataStage Migration Webinar - v3FINAL
28 pages
Spark Use Cases
No ratings yet
Spark Use Cases
2 pages
Big Data Answers
No ratings yet
Big Data Answers
14 pages
Tuning SQL Queries - Oracle
100% (1)
Tuning SQL Queries - Oracle
27 pages
Vaswani Exquisite E Brochure - March 2020 PDF
No ratings yet
Vaswani Exquisite E Brochure - March 2020 PDF
5 pages
Talend MDM Starter Guide
No ratings yet
Talend MDM Starter Guide
100 pages
ML Primer PDF
No ratings yet
ML Primer PDF
122 pages
ML Primer PDF
No ratings yet
ML Primer PDF
122 pages
Advanced Edge UAF Exploitation
No ratings yet
Advanced Edge UAF Exploitation
84 pages
Fagerfjall Final PDF
No ratings yet
Fagerfjall Final PDF
111 pages
Book
No ratings yet
Book
109 pages
X-Fast and Y-Fast Tries
No ratings yet
X-Fast and Y-Fast Tries
66 pages
Decentralized Election Voting System Using Blockchain
100% (1)
Decentralized Election Voting System Using Blockchain
1 page
F14Lec12graphs PDF
No ratings yet
F14Lec12graphs PDF
85 pages
PayU Careers: Analyst, Data Scientist, DevOps
No ratings yet
PayU Careers: Analyst, Data Scientist, DevOps
10 pages
FSLDM Data Modeller
No ratings yet
FSLDM Data Modeller
1 page
DATA WAREHOUSE - Imp
No ratings yet
DATA WAREHOUSE - Imp
76 pages
Case Studies of Open Source Data Quality Management
100% (1)
Case Studies of Open Source Data Quality Management
64 pages
Unstructured Dataload Into Hive Database Through PySpark
No ratings yet
Unstructured Dataload Into Hive Database Through PySpark
9 pages
Neel Mehta IITB Resume
No ratings yet
Neel Mehta IITB Resume
2 pages
Snowflake Cloud Data Platform Careers - Join The Snowflake Team
No ratings yet
Snowflake Cloud Data Platform Careers - Join The Snowflake Team
9 pages
B2MML V0600 Common PDF
No ratings yet
B2MML V0600 Common PDF
60 pages
Astrology Insights for Beginners
100% (4)
Astrology Insights for Beginners
42 pages
Data Science Interview Questions: Answer Here
No ratings yet
Data Science Interview Questions: Answer Here
54 pages
DBMS Notes
No ratings yet
DBMS Notes
108 pages
Cubrick A Scalable Distributed Molap Database For Fast Analytics
No ratings yet
Cubrick A Scalable Distributed Molap Database For Fast Analytics
4 pages
Top 10 ETL Design Tips
No ratings yet
Top 10 ETL Design Tips
37 pages
Cheet Sheet
No ratings yet
Cheet Sheet
47 pages
SQL Replication Setup Guide
No ratings yet
SQL Replication Setup Guide
22 pages
SAP Business Objects - Sample Universe On Microsoft SQL Server
No ratings yet
SAP Business Objects - Sample Universe On Microsoft SQL Server
18 pages
Modbus Over Serial Line V1 01
No ratings yet
Modbus Over Serial Line V1 01
44 pages
DS and Algorithm Session 14
No ratings yet
DS and Algorithm Session 14
107 pages
IR ISO - Intercompany Pricing PDF
No ratings yet
IR ISO - Intercompany Pricing PDF
6 pages
Big Data and Data Science
No ratings yet
Big Data and Data Science
31 pages
Azuredatabricks New
No ratings yet
Azuredatabricks New
22 pages
Informatica BDM Training Agenda
100% (2)
Informatica BDM Training Agenda
4 pages
MIE1628 Big Data Analytics Lecture8
No ratings yet
MIE1628 Big Data Analytics Lecture8
82 pages
09.azure Synapse Analytics Services
No ratings yet
09.azure Synapse Analytics Services
23 pages
Snowflake Data Prep Best Practices
No ratings yet
Snowflake Data Prep Best Practices
8 pages
DQ Architecture
0% (1)
DQ Architecture
3 pages
Oracle Data Integrator Overview
100% (1)
Oracle Data Integrator Overview
14 pages
ETL 2.0 Data Integration Comes of Age
No ratings yet
ETL 2.0 Data Integration Comes of Age
13 pages
Speed Your Data Lake ROI
100% (1)
Speed Your Data Lake ROI
16 pages
Designing Data Integration The ETL Pattern Approac
No ratings yet
Designing Data Integration The ETL Pattern Approac
9 pages
Data Vault for Data Architects
100% (1)
Data Vault for Data Architects
29 pages
Modul 9 - Data Warehousing and Business Intelligence - DMBOK2
No ratings yet
Modul 9 - Data Warehousing and Business Intelligence - DMBOK2
59 pages
Cloud Data Warehouse
No ratings yet
Cloud Data Warehouse
7 pages
LUF-MDM-002 Informatica MDM Hub Installation and Configuration Guide v01.1
100% (1)
LUF-MDM-002 Informatica MDM Hub Installation and Configuration Guide v01.1
50 pages
Data Warehousing and OLAP Basics
No ratings yet
Data Warehousing and OLAP Basics
50 pages
SSMA For Oracle
No ratings yet
SSMA For Oracle
15 pages
Data Vault & HQDM Insights
No ratings yet
Data Vault & HQDM Insights
8 pages
Data Warehouse Concepts
No ratings yet
Data Warehouse Concepts
68 pages
DWH & Datastage
No ratings yet
DWH & Datastage
5 pages
Optimizing Data Loading
No ratings yet
Optimizing Data Loading
26 pages
Documenting ETL Rules in CA ERwin
No ratings yet
Documenting ETL Rules in CA ERwin
25 pages
DataStage Faq S
No ratings yet
DataStage Faq S
57 pages
Database vs. Data Warehouse Testing
No ratings yet
Database vs. Data Warehouse Testing
17 pages
DW-BI Best Practices
100% (1)
DW-BI Best Practices
15 pages
Data Modeling Interviews
No ratings yet
Data Modeling Interviews
16 pages

Data Report Martin Inline Graphics R7 PDF

Uploaded by

Data Report Martin Inline Graphics R7 PDF

Uploaded by

A Unified Data Infrastructure Architecture

Query and Processing

Connectors Data Warehouse Dashboards

Generate relevant Extract data from Store data in a Present results of

2 Multimodal Data Processing

Connectors Data Warehouse Dashboards

Connectors Data Warehouse Dashboards

Data Transformation Model Training and Development Model Inference

Query Engines Feature Store Feature Server

Data Science Platform Model Batch Predictor

Model Tuning RL Libraries

You might also like