HW 5 Q 2

homework 5 q2 big data scaling

Uploaded by

Ali Yaqoob

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF or read online on Scribd

0% found this document useful (0 votes)

105 views5 pages

HW 5 Q 2

homework 5 q2 big data scaling

Uploaded by

Ali Yaqoob

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF or read online on Scribd

You are on page 1/ 5

~ DS5460 HomeworkS q2 (8pts) Your task: build a linear regression model from spark MLlib and print the RMSE/r2 for your model. How important are GRE scores? This dataset "Admission_Predict.csv’ is created for prediction of Graduate Admissions from an Indian perspective Content The dataset contains several parameters which are considered important during the application for Masters Programs. The parameters included are : + GRE Scores ( out of 340) + TOEFL Scores (out of 120) + University Rating ( out of 5) + Statement of Purpose and Letter of Recommendation Strength (out of 5) + Undergraduate GPA (out of 10) + Research Experience (either 0 or 1) * Chance of Admit ( ranging from 0 to 1) Referenc! for Prediction of Graduate Admissions, IEEE International Conference on Computational Intelligence in Data Science 2019 : Mohan S Acharya, Asfia Armaan, Aneeta S Antony : A Comparison of Regression Models Ipip install pyspark Ipip install -U -q PyDrive lapt install openjdk-8-jdk-headless -qq import os 0s environ["JAVA_HOME"] Jusr/1ib/jvm/java-8-openjdk-and64” Requirement already satisfied: pyspark in /usr/local/lib/python3.7/dist-packages (3.1.1) Requirement already satisfied: py4j==0.10.9 in /usr/local/lib/python3.7/dist-packages (1 openjdk-8~jdk-headless is already the newest version (8u282-b08-Qubuntul~18.04). @ upgraded, @ newly installed, @ to remove and 29 not upgraded. from google.colab import drive drive. mount ('/content/drive' ) Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mour %ed drive/MyDrive/Colab\ Notebooks /content/drive/MyDrive/Colab Notebooks%ed hwo5/ /content/drive/My Drive/Colab Notebooks/hweS from pyspark.sql import SparkSession spark = SparkSession. builder. appName(‘hw@5').getOrcreate() data = spark.read.csv(os.getcwd() + '/Admission_ Predict.csv',inferSchema=True,header=Tr data.printSchema() root |-- Serial No.: integer (nullable = true) = GRE Score: integer (nullable = true) - TOEFL Score: integer (nullable = true) - University Rating: integer (nullable = true) = SOP: double (nullable = true) - LOR : double (nullable = true) = CGPA: double (nullable = true) = Research: integer (nullable = true) - Chance of Admit : double (nullable = true) data. show(5) Iserial No. |GRE Score|TOEFL Score|University Rating|SOP|LOR |CGPA|Research|Chance of Adr only showing top 5 rows data = data.withColumnRenamed("GRE Score", "GRE")\ -withColumnRenamed("TOEFL Score", "TOEFL")\ -withColumnRenamed( "University Rating", "Rating")\ -withColumnRenamed("Chance of Admit ", “Target")\ -withColumnRenamed("LOR ", “LOR")\ -withColumnRenamed( "Serial No.", "Serial_No") data. show(5) [Serial_No|GRE |TOEFL |Rating] SOP| LOR| CGPA|Research| Target |1/337| 118] 4/4,5]4.5|9.65| 1] .92| ! I 2/324] 17] 4/4.0/4.5]8.87 1] 0.76] I 3/316] 104] -3]3.0|3.5] 8.0] a} 0.72 I 4|322| 116] —-3/3.5]2.5]8.67] a] 0.3] I 5[314| 103] -2/2.0|3.0/8.21] e| 0.65] only showing top 5 rows from pyspark.ml.feature import RFormula formula = RFormula( formula = "Target ~ Research + CGPA + LOR + SOP + Rating + TOEFL + GRE” output = formula. fit(data).transform(data) output.select("features", "label”).show(5) I features |label| only showing top 5 rows train,test = output.randomSplit([@.75, @.25]) rom pyspark.ml.regression import LinearRegression lin_reg = LinearRegression(featuresCol = ‘features’, labelCol='label') linear_model = lin_reg.fit(train) print ( "Coefficients: print("\nIntercept: + str(linear_model. coefficients) ) " + str(Linear_model.intercept)) Coefficients: [0.021867689937870024, 0.11454791057840752, 8.018225951061264446, 0.00381000: Intercept: -1.0836690504090625 trainSummary = print ("RMSE: % print("\nr2: % Linear_model. summary " % trainSummary.rootMeanSquaredError) " % trainSummary.r2)RMSE: 0.062458 72: 0.793621 from pyspark.sql.functions import abs from pyspark.ml.evaluation import RegressionEvaluator predictions = linear_model.transform(test) pred_evaluator = RegressionEvaluator(predictionCol="prediction”, \ labelCol="1abel” ,metricName="r2") print("R Squared (R2) on test = %g" % pred_evaluator.evaluate(predictions)) R Squared (R2) on test = 0.810537 # importance of GRE data.stat.corn( “target”, "GRE") @.8026104595903502 # this means it is highly correlated therefore highly important. d= {} for c in data.columns: if c not in [‘Serial_No', ‘Target’ ]: d[c] = data.stat.corr(c, Target’) (/CGPA': @.8732890993553003, "GRE": @,8026104595903504, "LOR": @.6698887920106943, "Rating’: @.7112502503917228, "Research': @.5532021370190406, "Sop": 0,6757318583886724, “TOEFL': @.7915939869351043} # CGPA is the most important but it seems that GRE is second most important variable.

DR T V V Pavan Kumar - Assign - 2
No ratings yet
DR T V V Pavan Kumar - Assign - 2
5 pages
Jamboree Linear Regression Version 2 Jupyter Notebook
No ratings yet
Jamboree Linear Regression Version 2 Jupyter Notebook
12 pages
Regression Model Usign Pyspark
No ratings yet
Regression Model Usign Pyspark
4 pages
Practice Question
No ratings yet
Practice Question
2 pages
Chapter 4 - Linear Regression
100% (2)
Chapter 4 - Linear Regression
25 pages
CEG Assessment II
No ratings yet
CEG Assessment II
4 pages
Statistical Modelling Assignment II
No ratings yet
Statistical Modelling Assignment II
3 pages
Jamboree
No ratings yet
Jamboree
56 pages
Notebook 4 - Machine Learning
No ratings yet
Notebook 4 - Machine Learning
17 pages
Jamboree
No ratings yet
Jamboree
10 pages
Code and Outputs
No ratings yet
Code and Outputs
25 pages
Machine Learning Training Using R AP Statistics
No ratings yet
Machine Learning Training Using R AP Statistics
12 pages
CSE AIML Flood Prediction Guide
No ratings yet
CSE AIML Flood Prediction Guide
5 pages
TYCS Practical
No ratings yet
TYCS Practical
26 pages
Pyspark Tutorial 3
No ratings yet
Pyspark Tutorial 3
5 pages
Machine Learning-SEAIML-241P (PR) Bharat
No ratings yet
Machine Learning-SEAIML-241P (PR) Bharat
42 pages
Logistic Regression for Students
No ratings yet
Logistic Regression for Students
10 pages
Revision - Data Frames
No ratings yet
Revision - Data Frames
6 pages
223a1131 ML Exp 1
No ratings yet
223a1131 ML Exp 1
8 pages
S24 - Bigdata Lab Final 005
No ratings yet
S24 - Bigdata Lab Final 005
9 pages
Assignment 01
No ratings yet
Assignment 01
3 pages
IP 12 PreBoardPracExam 2024
No ratings yet
IP 12 PreBoardPracExam 2024
1 page
Raj Practical File (ML)
No ratings yet
Raj Practical File (ML)
16 pages
Data Analytics Tools and Techniques: Post Graduate Diploma in Management (2019-2021)
No ratings yet
Data Analytics Tools and Techniques: Post Graduate Diploma in Management (2019-2021)
5 pages
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
Adi Dsbda2 Demo Final
No ratings yet
Adi Dsbda2 Demo Final
14 pages
Data-Analytics-Manual Lab G.anill Kumar
No ratings yet
Data-Analytics-Manual Lab G.anill Kumar
23 pages
4.3 Linear Regression Slides
No ratings yet
4.3 Linear Regression Slides
6 pages
University Admission Prediction
No ratings yet
University Admission Prediction
18 pages
Linear Programming & Regression Exercises
No ratings yet
Linear Programming & Regression Exercises
5 pages
DataScience Assignment4
No ratings yet
DataScience Assignment4
4 pages
Index: SR. NO. Practical Name Date of Perform NO. Sign
No ratings yet
Index: SR. NO. Practical Name Date of Perform NO. Sign
28 pages
CS3361 Set2
No ratings yet
CS3361 Set2
12 pages
Regression Prac 9
No ratings yet
Regression Prac 9
8 pages
Rakesh Kumar - 21554244 - Big Data - Assessment 2
No ratings yet
Rakesh Kumar - 21554244 - Big Data - Assessment 2
23 pages
Probability
No ratings yet
Probability
7 pages
Data Science: Regression Models
No ratings yet
Data Science: Regression Models
6 pages
Activities Super
No ratings yet
Activities Super
6 pages
Lab 2 Solved
No ratings yet
Lab 2 Solved
3 pages
Simple Linear Regression - Assignn5
No ratings yet
Simple Linear Regression - Assignn5
8 pages
Dataframe in Pandas
No ratings yet
Dataframe in Pandas
23 pages
CSE1703 - Fundamental of Data Science
No ratings yet
CSE1703 - Fundamental of Data Science
6 pages
AMLW Assignment 3
No ratings yet
AMLW Assignment 3
2 pages
College Predictor
No ratings yet
College Predictor
20 pages
Project Paarth
No ratings yet
Project Paarth
21 pages
Naïve Bayes Classifier Guide
No ratings yet
Naïve Bayes Classifier Guide
4 pages
Linear Regression Lab Guide
100% (1)
Linear Regression Lab Guide
8 pages
DS Question Bank Unit-1 Part-2
No ratings yet
DS Question Bank Unit-1 Part-2
3 pages
Resolución Caso 2 - Milagro
No ratings yet
Resolución Caso 2 - Milagro
12 pages
Ip 12 MT4 2024
No ratings yet
Ip 12 MT4 2024
1 page
Diploma in Information Technology: Centralized Question Bank
No ratings yet
Diploma in Information Technology: Centralized Question Bank
4 pages
Assigment Regression
No ratings yet
Assigment Regression
9 pages
Question Paper
No ratings yet
Question Paper
2 pages
Predictive Modelling Sweta Kumari
No ratings yet
Predictive Modelling Sweta Kumari
35 pages
DADV - Lab - Subject - 303105315
No ratings yet
DADV - Lab - Subject - 303105315
35 pages
Notebook 4 - Machine Learning
No ratings yet
Notebook 4 - Machine Learning
16 pages
Saurabh
No ratings yet
Saurabh
22 pages
hw2 Hdfs
No ratings yet
hw2 Hdfs
2 pages
Purposeful Sampling For Qualitative Data Collection and Analysis in Mixed Method Implementation Research
No ratings yet
Purposeful Sampling For Qualitative Data Collection and Analysis in Mixed Method Implementation Research
20 pages
HW 5 Q 1
No ratings yet
HW 5 Q 1
22 pages
Notes From The Underground
No ratings yet
Notes From The Underground
167 pages
Notes From The Underground PDF
No ratings yet
Notes From The Underground PDF
167 pages
Eradicate Procrastination Guide
No ratings yet
Eradicate Procrastination Guide
29 pages

HW 5 Q 2

Uploaded by

HW 5 Q 2

Uploaded by

You might also like