Metrics cho classification
Các Metrics Đánh Giá Mô Hình Phân Loại (Classification) Trong Machine Learning
Đánh giá hiệu suất của mô hình machine learning là một bước quan trọng trong quy trình triển khai ML. Bài viết này sẽ đi sâu vào các metrics phổ biến nhất để đánh giá mô hình phân loại (classification).
1. Hiểu về Ma Trận Nhầm Lẫn (Confusion Matrix)
Ma trận nhầm lẫn là nền tảng cho hầu hết các metrics đánh giá trong bài toán phân loại. Đây là bảng 2x2 (trong trường hợp phân loại nhị phân) thể hiện:
True Positives (TP): Dự đoán dương tính đúng
False Positives (FP): Dự đoán dương tính sai (Type I error)
True Negatives (TN): Dự đoán âm tính đúng
False Negatives (FN): Dự đoán âm tính sai (Type II error)

Từ ma trận nhầm lẫn, chúng ta có thể tính toán các metrics quan trọng khác:
2. Các Metrics Cơ Bản
Accuracy (Độ chính xác)
Accuracy là tỷ lệ các dự đoán đúng trên tổng số dự đoán.
Accuracy = (TP + TN) / (TP + TN + FP + FN)Khi nào sử dụng: Khi tập dữ liệu cân bằng và chi phí của false positives và false negatives tương đương nhau.
Hạn chế: Không phù hợp cho dữ liệu mất cân bằng. Ví dụ, trong một bài toán phát hiện gian lận thẻ tín dụng, nếu chỉ có 1% giao dịch là gian lận, một mô hình luôn dự đoán "không gian lận" sẽ đạt accuracy 99% nhưng hoàn toàn vô dụng.
Precision (Độ chính xác dương tính)
Precision là tỷ lệ dự đoán dương tính đúng trên tổng số dự đoán dương tính.
Precision = TP / (TP + FP)Khi nào sử dụng: Khi chi phí của false positives cao. Ví dụ, khi gửi email quảng cáo, việc phân loại sai một người không quan tâm thành người quan tâm (false positive) sẽ tạo ra trải nghiệm tiêu cực.
Recall (Độ nhạy)
Recall (còn gọi là Sensitivity hoặc True Positive Rate) là tỷ lệ dự đoán dương tính đúng trên tổng số thực tế dương tính.
Recall = TP / (TP + FN)Khi nào sử dụng: Khi chi phí của false negatives cao. Ví dụ, trong chẩn đoán y tế, việc bỏ sót một bệnh nhân mắc bệnh (false negative) có thể gây hậu quả nghiêm trọng.
F1 Score
F1 Score là trung bình điều hòa (harmonic mean) của Precision và Recall.
F1 Score = 2 * (Precision * Recall) / (Precision + Recall)Khi nào sử dụng: Khi cần cân bằng giữa Precision và Recall, đặc biệt trong các tập dữ liệu mất cân bằng.
3. Metrics Nâng Cao

ROC Curve và AUC-ROC
ROC (Receiver Operating Characteristic) là đồ thị biểu diễn mối quan hệ giữa True Positive Rate (TPR) và False Positive Rate (FPR) ở các ngưỡng phân loại khác nhau.
TPR = Recall = TP / (TP + FN)
FPR = FP / (FP + TN)AUC-ROC (Area Under the ROC Curve) là diện tích dưới đường cong ROC. Giá trị này nằm trong khoảng [0, 1], với:
AUC = 1: Mô hình hoàn hảo
AUC = 0.5: Mô hình phân loại ngẫu nhiên
AUC < 0.5: Mô hình tệ hơn phân loại ngẫu nhiên
Khi nào sử dụng: Khi cần đánh giá hiệu suất mô hình ở nhiều ngưỡng khác nhau và có cái nhìn tổng quan về khả năng phân biệt các lớp.

Precision-Recall Curve và PR-AUC
Precision-Recall Curve là đồ thị biểu diễn mối quan hệ giữa Precision và Recall ở các ngưỡng khác nhau. PR-AUC là diện tích dưới đường cong này.
Khi nào sử dụng: Đặc biệt hữu ích cho các tập dữ liệu mất cân bằng, khi Positive class là minority class (lớp thiểu số).
4. Mở Rộng cho Bài Toán Đa Lớp
Trong bài toán phân loại đa lớp, chúng ta thường sử dụng:
Macro-averaging: Tính toán metrics cho mỗi lớp và sau đó lấy trung bình.
Micro-averaging: Tổng hợp các TP, FP, TN, FN của tất cả các lớp rồi tính toán metrics.
Weighted-averaging: Tương tự macro, nhưng có trọng số theo số lượng mẫu của mỗi lớp.
5. Lựa Chọn Metrics Phù Hợp
Việc lựa chọn metrics phù hợp phụ thuộc vào:
Bản chất của bài toán: Chi phí của các loại lỗi khác nhau.
Phân bố dữ liệu: Cân bằng hay mất cân bằng.
Mục tiêu kinh doanh: Tối ưu hóa trải nghiệm người dùng hay giảm thiểu chi phí?
Kết luận
Đánh giá mô hình phân loại không chỉ dừng lại ở việc tính toán một vài con số. Đó là quá trình hiểu rõ về bản chất bài toán, chi phí của các loại lỗi và lựa chọn metrics phù hợp để đánh giá mô hình trong ngữ cảnh cụ thể.
Với hiểu biết đầy đủ về các metrics, các nhà khoa học dữ liệu và kỹ sư ML có thể ra quyết định tốt hơn trong việc lựa chọn và tinh chỉnh mô hình phù hợp với yêu cầu kinh doanh.
Last updated