1. Hạn chế
Như bạn đã thấy từ ví dụ trên, áp dụng hồi quy logistic cho học máy không phải là một nhiệm vụ khó khăn. Tuy nhiên, nó đi kèm với những hạn chế của riêng nó. Hồi quy logistic sẽ không thể xử lý một số lượng lớn các tính năng phân loại. Trong ví dụ mà chúng ta đã thảo luận từ trước, ta đã giảm số lượng các tính năng xuống mức rất lớn.
Tuy nhiên, nếu các tính năng này quan trọng trong dự đoán, ta sẽ buộc phải đưa chúng vào, nhưng sau đó hồi quy logistic sẽ không cung cấp độ chính xác tốt. Hồi quy logistic cũng dễ bị overfitting. Nó không thể được áp dụng cho một bài toán phi tuyến tính, hoạt động kém với các biến độc lập không tương quan với mục tiêu và tương quan với nhau. Do đó, bạn sẽ phải đánh giá cẩn thận mức độ phù hợp của hồi quy logistic đối với vấn đề mà bạn đang cố gắng giải quyết.
Có rất nhiều lĩnh vực học máy nơi các kỹ thuật khác được chỉ định được phát minh ra. Để kể tên một số, tôi có các thuật toán như k-nearest neighbours (kNN), Linear Regression, Support Vector Machines (SVM), Decision Trees, Naive Bayes,, v.v. Trước khi hoàn thiện một mô hình cụ thể, bạn sẽ phải đánh giá khả năng áp dụng của các kỹ thuật khác nhau này cho vấn đề mà bạn đang gặp phải.
2. Tổng kết
Hồi quy logistic là một kỹ thuật thống kê của phân loại nhị phân. Trong serial này, bạn đã học cách huấn luyện máy sử dụng hồi quy logistic. Tạo mô hình học máy, yêu cầu quan trọng nhất là tính sẵn có của dữ liệu. Nếu không có dữ liệu phù hợp và đầy đủ, bạn không thể đơn giản làm cho máy học.
Khi bạn có dữ liệu, nhiệm vụ chính tiếp theo của bạn là làm sạch dữ liệu, loại bỏ các hàng, trường không mong muốn và chọn các trường thích hợp để phát triển mô hình. Sau khi thực hiện xong, bạn cần ánh xạ dữ liệu (mapping data) sang định dạng mà bộ phân loại yêu cầu để đào tạo. Vì vậy, chuẩn bị dữ liệu là một nhiệm vụ chính trong bất kỳ ứng dụng học máy nào. Khi bạn đã sẵn sàng với dữ liệu, bạn có thể chọn một loại bộ phân loại cụ thể.
Ở các bài trước, bạn đã biết cách sử dụng bộ phân loại hồi quy logistic được cung cấp trong thư viện sklearn. Để huấn luyện bộ phân loại, sử dụng khoảng 70% dữ liệu để huấn luyện mô hình, phần còn lại của dữ liệu để thử nghiệm. Tiến hành kiểm tra độ chính xác của mô hình. Nếu điều này không nằm trong giới hạn có thể chấp nhận được, ta quay lại chọn bộ tính năng mới.
Một lần nữa, hãy theo dõi toàn bộ quá trình chuẩn bị dữ liệu, đào tạo mô hình và kiểm tra nó, cho đến khi bạn hài lòng với độ chính xác của nó. Trước khi thực hiện bất kỳ dự án máy học nào, bạn phải học và tiếp xúc với nhiều kỹ thuật đã được phát triển cho đến nay và đã được áp dụng thành công trong ngành.