Dự án phân tích 284,807 giao dịch thẻ tín dụng thực tế nhằm tìm ra đặc điểm và hành vi của giao dịch gian lận, từ đó đề xuất chiến lược giám sát hiệu quả cho ngân hàng
- Tổng quan dataset trông như thế nào?
- Có bao nhiêu giao dịch gian lận vs bình thường?
- Số tiền giao dịch gian lận có khác bình thường không?
- Giao dịch $0 có đáng ngờ không?
- Phân loại giao dịch theo mức độ rủi ro như thế nào?
- Python — xử lý và phân tích data
- SQLite — truy vấn dữ liệu bằng SQL
- Pandas — làm sạch và thao tác data
- Matplotlib — visualize kết quả
Gian lận chỉ chiếm 0.17%, dataset mất cân bằng nghiêm trọng
Số tiền TB gian lận ($122.21) cao hơn bình thường ($88.29) khoảng 38%
Giao dịch $0 có tỷ lệ gian lận cao nhất (1.48%), dấu hiệu test thẻ
-
Gian lận chỉ chiếm 0.17% tổng giao dịch làm dataset mất cân bằng nghiêm trọng, không thể dùng accuracy đơn thuần để đánh giá
-
Số tiền trung bình giao dịch gian lận là 122.21 USD, cao hơn giao dịch bình thường 88.29 USD khoảng 38%, kẻ gian lận có xu hướng chọn số tiền vừa phải để tránh bị phát hiện
-
Có 27 giao dịch gian lận với số tiền 0 USD, đây là hành vi test thẻ trước khi thực hiện tấn công thật sự
-
Giao dịch gian lận tập trung chủ yếu ở mức 500 đến 2,000 USD, kẻ gian lận cố tình tránh số tiền quá lớn để không gây nghi ngờ
-
Cảnh báo ngay với giao dịch $0
- Tỷ lệ gian lận 1.48%, cao gấp 9 lần mức trung bình
- Đây là dấu hiệu test thẻ trước khi tấn công
-
Tăng cường giám sát nhóm $500 - $2,000
- Tỷ lệ gian lận 0.40%, cao thứ 2
- Đây là vùng kẻ gian lận tập trung thực hiện
-
Không chỉ chặn giao dịch lớn
- Giao dịch >$2,000 có tỷ lệ gian lận thấp nhất
- Kẻ gian lận thông minh hơn, tránh số tiền quá lớn
-
Theo dõi hành vi liên tiếp
- Pattern nguy hiểm: giao dịch $0 → giao dịch $500-$2,000
- Cần hệ thống cảnh báo theo chuỗi hành vi


