Published on

🧠 Khám phá AI #3: Giải thích về Học có giám sát

Authors

🧠 Khám phá AI #3: Giải thích về Học có giám sát

Học có giám sát là loại học máy được sử dụng rộng rãi nhất - và có lý do chính đáng. Nó dạy máy móc cách đưa ra dự đoán bằng cách học từ dữ liệu có nhãn.

Trong bài viết này, chúng ta sẽ khám phá cách hoạt động của học có giám sát, các loại chính của nó, và đi qua một ví dụ thực tế dễ hiểu.

🎯 Học có giám sát là gì?

Học có giám sát là một loại học máy trong đó mô hình được huấn luyện trên một tập dữ liệu bao gồm cả dữ liệu đầu vào và đầu ra đúng (còn gọi là nhãn hoặc mục tiêu).

Mục tiêu là học một ánh xạ từ đầu vào ( X ) đến đầu ra ( Y ), để mô hình có thể đưa ra dự đoán chính xác trên dữ liệu chưa thấy.

📊 Ví dụ thực tế: Bộ lọc thư rác Email

Giả sử bạn đang xây dựng một bộ phát hiện thư rác.

  • Đầu vào (X): Nội dung email
  • Đầu ra (Y): Thư rác hoặc Không phải thư rác
  • Dữ liệu huấn luyện: Hàng nghìn email được gắn nhãn thủ công là thư rác hoặc không

Mô hình học các mẫu trong email thư rác - như từ khóa cụ thể, người gửi, hoặc định dạng - và sử dụng những mẫu đó để phân loại email mới.

🧠 Cách hoạt động

graph TD;
  A[Dữ liệu huấn luyện (Đầu vào + Nhãn)]
  B[Mô hình]
  C[Dự đoán]
  D[Hàm mất mát]
  E[Phản hồi / Cập nhật trọng số]

  A --> B --> C --> D --> E --> B
  1. Cung cấp dữ liệu có nhãn cho mô hình
  2. Mô hình đưa ra dự đoán
  3. So sánh dự đoán với nhãn thực tế bằng hàm mất mát
  4. Sử dụng phản hồi để cải thiện mô hình

Vòng lặp này tiếp tục cho đến khi mô hình đạt được hiệu suất chấp nhận được.

🔍 Hai loại chính của Học có giám sát

1️⃣ Phân loại

  • Đầu ra: Nhãn phân loại
  • Ví dụ:
    • Phát hiện thư rác (Thư rác / Không phải thư rác)
    • Chẩn đoán bệnh (Ung thư / Không ung thư)
    • Nhận diện hình ảnh (Mèo, Chó, Chim)

2️⃣ Hồi quy

  • Đầu ra: Giá trị liên tục
  • Ví dụ:
    • Dự đoán giá nhà
    • Ước tính nhiệt độ
    • Dự báo giá cổ phiếu

🛠️ Các thuật toán phổ biến

Thuật toánLoạiTrường hợp sử dụngGhi chú
Hồi quy LogisticPhân loạiPhát hiện thư rác emailĐược thiết kế đặc biệt cho các vấn đề phân loại nhị phân và đa lớp
Cây quyết địnhPhân loại / Hồi quyChẩn đoán y tế, định giá nhàChia dữ liệu dựa trên đặc trưng và có thể xuất ra nhãn lớp hoặc giá trị liên tục
k-Láng giềng gần nhấtPhân loại / Hồi quyNhận dạng mẫu, ước tính giá trịSử dụng biểu quyết đa số cho phân loại và trung bình cho hồi quy
Rừng ngẫu nhiênPhân loại / Hồi quyChấm điểm tín dụng, dự đoán rủi roMột tập hợp các Cây quyết định; hỗ trợ cả hai tác vụ tùy thuộc vào cấu hình
Hồi quy tuyến tínhHồi quyDự đoán lương từ kinh nghiệmMô hình hóa mối quan hệ tuyến tính giữa đặc trưng đầu vào và mục tiêu liên tục
Mạng nơ-ronPhân loại / Hồi quyPhân loại hình ảnh, tổng hợp giọng nóiLớp cuối cùng xác định loại đầu ra (ví dụ: softmax cho phân loại, tuyến tính cho hồi quy)

✅ Ưu và nhược điểm

✅ Ưu điểm

  • Được hiểu rõ và đáng tin cậy
  • Hiệu suất tốt với đủ dữ liệu có nhãn
  • Dễ đánh giá (độ chính xác, độ chính xác, độ nhớ, v.v.)

❌ Nhược điểm

  • Cần lượng lớn dữ liệu có nhãn
  • Dễ bị overfitting nếu không được regularized
  • Có thể không tổng quát hóa tốt cho các trường hợp biên thực tế

🧪 Dự án ví dụ: Phân loại chữ số viết tay (MNIST)

Giả sử chúng ta muốn xây dựng một mô hình để nhận diện chữ số viết tay (0–9).

  • Đầu vào (X): Hình ảnh thang xám 28×28 pixel
  • Đầu ra (Y): Một trong 10 chữ số
  • Mô hình: Mạng nơ-ron tích chập (CNN)

Sau khi huấn luyện, mô hình học cách mỗi chữ số "trông như thế nào" và có thể tổng quát hóa để nhận diện chữ viết tay chưa thấy.

Đây là một tác vụ benchmark cổ điển và là một dự án đầu tiên tuyệt vời!

🔚 Tóm tắt

Học có giám sát giống như học với giáo viên - mô hình thấy các ví dụ và được cho biết câu trả lời đúng. Với đủ dữ liệu và mô hình thông minh, nó trở thành một công cụ mạnh mẽ để giải quyết các vấn đề thực tế trong thị giác, ngôn ngữ, tài chính, và chăm sóc sức khỏe.

🔜 Tiếp theo

Tiếp theo trong loạt bài Khám phá AI: Hồi quy - kỹ thuật học có giám sát để dự đoán giá trị liên tục. Chúng ta sẽ khám phá các hàm mất mát, số liệu đánh giá mô hình, trường hợp sử dụng thực tế, và thậm chí xây dựng một bộ hồi quy mẫu.

Hãy tò mò và tiếp tục khám phá 👇

🙏 Lời cảm ơn

Cảm ơn ChatGPT đã cải thiện bài viết này với các gợi ý, định dạng và biểu tượng cảm xúc.