Class Assign

The document outlines a multi-part project focused on web scraping, including ethical considerations, HTML basics, and practical scraping techniques using Python. It covers tasks such as creating an HTML page, scraping static pages, integrating public APIs, and advanced scraping challenges. The project emphasizes responsible scraping practices, data handling, and visualization skills.

Uploaded by

caixuanhoa2004

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

13 views3 pages

Class Assign

Uploaded by

caixuanhoa2004

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Part 1: Foundations and Ethics

Task 1.1: Ethics and Legal Research

Write a 500-word report addressing:

• What is web scraping and when is it appropriate?

• Explain robots.txt files and how to check them
• Discuss the legal and ethical considerations
• Provide 3 real-world examples of responsible web scraping

Task 1.2: Basic HTML Understanding (15 points)

Create a simple HTML page with:

• A table containing at least 10 rows of sample data (books, movies, products, etc.)
• Use proper HTML tags: <table>, <tr>, <td>, <th>
• Include attributes like class and id
• Add some basic CSS styling
• Practice using browser developer tools to inspect elements

Deliverable: HTML file and screenshot of developer tools inspection

Part 2: Basic Scraping Techniques

Task 2.1: Static Page Scraping

Using Python and BeautifulSoup, scrape the HTML page you created in Task 1.2:

python
# Required libraries: requests, beautifulsoup4, pandas
# Your code should:
# 1. Load the HTML file
# 2. Parse it with BeautifulSoup
# 3. Extract all table data
# 4. Save to CSV format

Requirements:

• Proper error handling

• Clean, commented code
• Output data to CSV file
• Print summary statistics (number of rows extracted)

Task 2.2: Public API Integration (15 points)

Choose one of these free APIs and create a data collection script:

• JSONPlaceholder (fake data for testing)

• OpenWeatherMap (weather data)
• REST Countries (country information)
• Cat Facts API

Requirements:

• Make at least 10 API calls

• Handle API rate limits appropriately
• Save data in both JSON and CSV formats
• Include error handling for failed requests

Part 3: Intermediate Scraping

Task 3.1: Real Website Scraping

Choose ONE of these beginner-friendly websites:

• Books.toscrape.com (practice scraping site)

• Quotes.toscrape.com (quotes collection)
• Scrape.center (designed for learning)

Scraping Requirements:

• Extract at least 50 items

• Collect minimum 4 attributes per item
• Implement respectful delays (1-2 seconds between requests)
• Handle pagination if applicable
• Check and respect robots.txt

Data Processing:

• Clean and validate the extracted data

• Handle missing values appropriately
• Create basic visualizations using matplotlib or seaborn
• Generate a summary report of your findings
Task 3.2: Advanced Challenges

Implement TWO of the following features:

• User-Agent rotation: Use different user agents for requests

• Session handling: Maintain cookies across requests
• Data validation: Implement schema validation for scraped data
• Duplicate detection: Identify and handle duplicate entries
• Concurrent scraping: Use threading for faster collection (with care)

Business Intelligence Handbook
No ratings yet
Business Intelligence Handbook
33 pages
C1 Editable End-Of-Year Test
No ratings yet
C1 Editable End-Of-Year Test
9 pages
Web Scraping Using Python
No ratings yet
Web Scraping Using Python
18 pages
DAP Module4 1
No ratings yet
DAP Module4 1
110 pages
Python Selenium Web Scraping Guide
No ratings yet
Python Selenium Web Scraping Guide
14 pages
Web Scraping Course Notes
No ratings yet
Web Scraping Course Notes
89 pages
Web Scraping with Python Guide
No ratings yet
Web Scraping with Python Guide
5 pages
SCM - Modernizing Oracle Fusion Cloud SCM Applications With Redwood
No ratings yet
SCM - Modernizing Oracle Fusion Cloud SCM Applications With Redwood
41 pages
Internship Report
No ratings yet
Internship Report
19 pages
Unit I
No ratings yet
Unit I
12 pages
AIML Manual Lab-For Students
No ratings yet
AIML Manual Lab-For Students
45 pages
ZTE F832 User Manuel
No ratings yet
ZTE F832 User Manuel
65 pages
Web Scraping With Python - Sample Chapter
100% (3)
Web Scraping With Python - Sample Chapter
26 pages
Lecture 12 - Web Scrapping
No ratings yet
Lecture 12 - Web Scrapping
11 pages
WERC Warehouse Management Systems Pres1 - BH
No ratings yet
WERC Warehouse Management Systems Pres1 - BH
16 pages
Programming in Ds With Python
No ratings yet
Programming in Ds With Python
11 pages
DAP 4 Module
No ratings yet
DAP 4 Module
45 pages
WEB Scrap Report
No ratings yet
WEB Scrap Report
77 pages
Swiftscrape AI
No ratings yet
Swiftscrape AI
15 pages
Data Analysis by Web Scraping Using Python
No ratings yet
Data Analysis by Web Scraping Using Python
6 pages
Practical Web Scraping For Economists 1744341390
No ratings yet
Practical Web Scraping For Economists 1744341390
33 pages
Final Report
No ratings yet
Final Report
39 pages
Webscraping
No ratings yet
Webscraping
12 pages
Automated Web Scraping For Telecom Corpus Application
No ratings yet
Automated Web Scraping For Telecom Corpus Application
5 pages
Rohan Report
No ratings yet
Rohan Report
25 pages
Web Scraping CheatSheet Guide
No ratings yet
Web Scraping CheatSheet Guide
10 pages
Basic Scraping Techniques
No ratings yet
Basic Scraping Techniques
7 pages
Document 2
No ratings yet
Document 2
6 pages
4F IntroToWebScraping
No ratings yet
4F IntroToWebScraping
6 pages
Web Scraping
No ratings yet
Web Scraping
5 pages
Web Scraping for Developers
No ratings yet
Web Scraping for Developers
8 pages
Study Plan 2 Months
No ratings yet
Study Plan 2 Months
2 pages
Inspect S50: Easy To Use Mainstream SEM Enabling Quick, Accurate Answers
No ratings yet
Inspect S50: Easy To Use Mainstream SEM Enabling Quick, Accurate Answers
4 pages
Web Scrapping Final
No ratings yet
Web Scrapping Final
7 pages
Azhagi Keymapping
No ratings yet
Azhagi Keymapping
19 pages
RajSingh WIexp4
No ratings yet
RajSingh WIexp4
7 pages
Web Crawling - Python
No ratings yet
Web Crawling - Python
34 pages
Programming 2 Lectures
No ratings yet
Programming 2 Lectures
52 pages
Web Scraper Mini Project
No ratings yet
Web Scraper Mini Project
13 pages
Unit 11 Application Development Using Python
No ratings yet
Unit 11 Application Development Using Python
19 pages
Text Processing For NLP Web Scrapping
No ratings yet
Text Processing For NLP Web Scrapping
18 pages
UI Ex 6 (61) - 1
No ratings yet
UI Ex 6 (61) - 1
3 pages
Web Scraping For Data Analytics A BeatifulSoup Implementation
No ratings yet
Web Scraping For Data Analytics A BeatifulSoup Implementation
6 pages
Assignment
No ratings yet
Assignment
5 pages
6 Results and Discussions
No ratings yet
6 Results and Discussions
5 pages
BeautifulSoup Evaluation Assignment
No ratings yet
BeautifulSoup Evaluation Assignment
1 page
Seminar Completed
No ratings yet
Seminar Completed
22 pages
Utilizing Python For Web Scraping and Incremental Data Extraction
No ratings yet
Utilizing Python For Web Scraping and Incremental Data Extraction
6 pages
Web Scraping - Notes - 321
No ratings yet
Web Scraping - Notes - 321
3 pages
chp3A10.10072F978 3 319 32001 4 - 483 1
No ratings yet
chp3A10.10072F978 3 319 32001 4 - 483 1
4 pages
19-5E8 Tushara Priya
No ratings yet
19-5E8 Tushara Priya
23 pages
Upload PDF
No ratings yet
Upload PDF
11 pages
Experiment2 Web Scraping and Data Analysis
No ratings yet
Experiment2 Web Scraping and Data Analysis
5 pages
Template
No ratings yet
Template
21 pages
Summary Paper 1 2 3
No ratings yet
Summary Paper 1 2 3
2 pages
Data Collection
No ratings yet
Data Collection
14 pages
Web Scraping With Python and Selenium: Sarah Fatima, Shaik Luqmaan Nuha Abdul Rasheed
No ratings yet
Web Scraping With Python and Selenium: Sarah Fatima, Shaik Luqmaan Nuha Abdul Rasheed
5 pages
Software Engineering Project
No ratings yet
Software Engineering Project
55 pages
The Ultimate Web Scraping With Python Bootcamp 2023 - Coderprog
No ratings yet
The Ultimate Web Scraping With Python Bootcamp 2023 - Coderprog
3 pages
Industrial Training Presentation: Prepared By: Guided by
No ratings yet
Industrial Training Presentation: Prepared By: Guided by
26 pages
Synopsis WS
No ratings yet
Synopsis WS
11 pages
1 - Web Based Laboratory Information System LIMS - Edited
No ratings yet
1 - Web Based Laboratory Information System LIMS - Edited
63 pages
Workshop 2B: Web Scraping With Beautifulsoup 4: Comp20008 Elements of Data Processing
No ratings yet
Workshop 2B: Web Scraping With Beautifulsoup 4: Comp20008 Elements of Data Processing
5 pages
Web Scraping & API Guide
No ratings yet
Web Scraping & API Guide
24 pages
Resume Jan
No ratings yet
Resume Jan
1 page
Introduction To Embedded Systems - : Lesson 1: Definition, Classification, Skills Required, Application Examples, .
No ratings yet
Introduction To Embedded Systems - : Lesson 1: Definition, Classification, Skills Required, Application Examples, .
15 pages
5.1 Using Network Configuration Tools: Unit V:Networking and TCP/IP
No ratings yet
5.1 Using Network Configuration Tools: Unit V:Networking and TCP/IP
20 pages
E-commerce Review Scraper Project
No ratings yet
E-commerce Review Scraper Project
15 pages
Intro to Computer Basics for Students
No ratings yet
Intro to Computer Basics for Students
60 pages
ZEBRA XiII Xi2 Models 90XiII, 140XiII, 170XiII, 220XiII Parts, Service Manual
No ratings yet
ZEBRA XiII Xi2 Models 90XiII, 140XiII, 170XiII, 220XiII Parts, Service Manual
166 pages
Web Scraping
No ratings yet
Web Scraping
28 pages
Installation
No ratings yet
Installation
6 pages
7 I 76
No ratings yet
7 I 76
9 pages
F-Secure Admin Guide
No ratings yet
F-Secure Admin Guide
136 pages
Current Log
No ratings yet
Current Log
55 pages
Kwitansi Pengawas ANBK
No ratings yet
Kwitansi Pengawas ANBK
55 pages
Tej3m Network Design 2014 Final
No ratings yet
Tej3m Network Design 2014 Final
3 pages
Using The Fluke 5000A-RH/T With MET/CAL V6.11
No ratings yet
Using The Fluke 5000A-RH/T With MET/CAL V6.11
15 pages
Howto Logging
No ratings yet
Howto Logging
17 pages
896600
No ratings yet
896600
3 pages
Overflow Flag: Using Lookup Table. This Uses 7 Output Pins of Microcontroller
No ratings yet
Overflow Flag: Using Lookup Table. This Uses 7 Output Pins of Microcontroller
3 pages
EC8691 Lesson Plan Microprocessor and Micro COntroller
No ratings yet
EC8691 Lesson Plan Microprocessor and Micro COntroller
7 pages
Translam College Timetable
No ratings yet
Translam College Timetable
6 pages
BCA DBMS Exam June 2023
No ratings yet
BCA DBMS Exam June 2023
2 pages
TriBuild 1.41: Advanced Diagnostics
No ratings yet
TriBuild 1.41: Advanced Diagnostics
2 pages
Emo Aesthetic Computer Wallpapers
No ratings yet
Emo Aesthetic Computer Wallpapers
1 page
Python Notes
No ratings yet
Python Notes
2 pages
How To Setup Wireless of Edimax Camera
No ratings yet
How To Setup Wireless of Edimax Camera
5 pages