🧠 Khám phá AI #3: Giải thích về Học có giám sát

Học có giám sát là loại học máy được sử dụng rộng rãi nhất - và có lý do chính đáng. Nó dạy máy móc cách đưa ra dự đoán bằng cách học từ dữ liệu có nhãn.

Trong bài viết này, chúng ta sẽ khám phá cách hoạt động của học có giám sát, các loại chính của nó, và đi qua một ví dụ thực tế dễ hiểu.

🎯 Học có giám sát là gì?

Học có giám sát là một loại học máy trong đó mô hình được huấn luyện trên một tập dữ liệu bao gồm cả dữ liệu đầu vào và đầu ra đúng (còn gọi là nhãn hoặc mục tiêu).

Mục tiêu là học một ánh xạ từ đầu vào ( X ) đến đầu ra ( Y ), để mô hình có thể đưa ra dự đoán chính xác trên dữ liệu chưa thấy.

📊 Ví dụ thực tế: Bộ lọc thư rác Email

Giả sử bạn đang xây dựng một bộ phát hiện thư rác.

Đầu vào (X): Nội dung email
Đầu ra (Y): Thư rác hoặc Không phải thư rác
Dữ liệu huấn luyện: Hàng nghìn email được gắn nhãn thủ công là thư rác hoặc không

Mô hình học các mẫu trong email thư rác - như từ khóa cụ thể, người gửi, hoặc định dạng - và sử dụng những mẫu đó để phân loại email mới.

🧠 Cách hoạt động

graph TD;
  A[Dữ liệu huấn luyện (Đầu vào + Nhãn)]
  B[Mô hình]
  C[Dự đoán]
  D[Hàm mất mát]
  E[Phản hồi / Cập nhật trọng số]

  A --> B --> C --> D --> E --> B

Cung cấp dữ liệu có nhãn cho mô hình
Mô hình đưa ra dự đoán
So sánh dự đoán với nhãn thực tế bằng hàm mất mát
Sử dụng phản hồi để cải thiện mô hình

Vòng lặp này tiếp tục cho đến khi mô hình đạt được hiệu suất chấp nhận được.

🔍 Hai loại chính của Học có giám sát

1️⃣ Phân loại

Đầu ra: Nhãn phân loại
Ví dụ:
- Phát hiện thư rác (Thư rác / Không phải thư rác)
- Chẩn đoán bệnh (Ung thư / Không ung thư)
- Nhận diện hình ảnh (Mèo, Chó, Chim)

2️⃣ Hồi quy

Đầu ra: Giá trị liên tục
Ví dụ:
- Dự đoán giá nhà
- Ước tính nhiệt độ
- Dự báo giá cổ phiếu

🛠️ Các thuật toán phổ biến

Thuật toán	Loại	Trường hợp sử dụng	Ghi chú
Hồi quy Logistic	Phân loại	Phát hiện thư rác email	Được thiết kế đặc biệt cho các vấn đề phân loại nhị phân và đa lớp
Cây quyết định	Phân loại / Hồi quy	Chẩn đoán y tế, định giá nhà	Chia dữ liệu dựa trên đặc trưng và có thể xuất ra nhãn lớp hoặc giá trị liên tục
k-Láng giềng gần nhất	Phân loại / Hồi quy	Nhận dạng mẫu, ước tính giá trị	Sử dụng biểu quyết đa số cho phân loại và trung bình cho hồi quy
Rừng ngẫu nhiên	Phân loại / Hồi quy	Chấm điểm tín dụng, dự đoán rủi ro	Một tập hợp các Cây quyết định; hỗ trợ cả hai tác vụ tùy thuộc vào cấu hình
Hồi quy tuyến tính	Hồi quy	Dự đoán lương từ kinh nghiệm	Mô hình hóa mối quan hệ tuyến tính giữa đặc trưng đầu vào và mục tiêu liên tục
Mạng nơ-ron	Phân loại / Hồi quy	Phân loại hình ảnh, tổng hợp giọng nói	Lớp cuối cùng xác định loại đầu ra (ví dụ: softmax cho phân loại, tuyến tính cho hồi quy)

✅ Ưu và nhược điểm

✅ Ưu điểm

Được hiểu rõ và đáng tin cậy
Hiệu suất tốt với đủ dữ liệu có nhãn
Dễ đánh giá (độ chính xác, độ chính xác, độ nhớ, v.v.)

❌ Nhược điểm

Cần lượng lớn dữ liệu có nhãn
Dễ bị overfitting nếu không được regularized
Có thể không tổng quát hóa tốt cho các trường hợp biên thực tế

🧪 Dự án ví dụ: Phân loại chữ số viết tay (MNIST)

Giả sử chúng ta muốn xây dựng một mô hình để nhận diện chữ số viết tay (0–9).

Đầu vào (X): Hình ảnh thang xám 28×28 pixel
Đầu ra (Y): Một trong 10 chữ số
Mô hình: Mạng nơ-ron tích chập (CNN)

Sau khi huấn luyện, mô hình học cách mỗi chữ số "trông như thế nào" và có thể tổng quát hóa để nhận diện chữ viết tay chưa thấy.

Đây là một tác vụ benchmark cổ điển và là một dự án đầu tiên tuyệt vời!

🔚 Tóm tắt

Học có giám sát giống như học với giáo viên - mô hình thấy các ví dụ và được cho biết câu trả lời đúng. Với đủ dữ liệu và mô hình thông minh, nó trở thành một công cụ mạnh mẽ để giải quyết các vấn đề thực tế trong thị giác, ngôn ngữ, tài chính, và chăm sóc sức khỏe.

🔜 Tiếp theo

Tiếp theo trong loạt bài Khám phá AI: Hồi quy - kỹ thuật học có giám sát để dự đoán giá trị liên tục. Chúng ta sẽ khám phá các hàm mất mát, số liệu đánh giá mô hình, trường hợp sử dụng thực tế, và thậm chí xây dựng một bộ hồi quy mẫu.

Hãy tò mò và tiếp tục khám phá 👇

🙏 Lời cảm ơn

Cảm ơn ChatGPT đã cải thiện bài viết này với các gợi ý, định dạng và biểu tượng cảm xúc.