Toán học quan trọng trong bất kỳ thuật toán học máy nào và bao gồm các khái niệm cốt lõi khác nhau của toán học để có được thuật toán phù hợp được thiết kế theo một cách cụ thể.
Tầm quan trọng của các chủ đề toán học đối với học máy và khoa học dữ liệu như sau:
Bây giờ, ta sẽ tập trung vào các khái niệm toán học chính của học máy, điều quan trọng theo quan điểm Xử lý ngôn ngữ tự nhiên –
1. Vectors
Vectơ được coi là mảng số liên tục hoặc rời rạc và không gian bao gồm các vectơ được gọi là không gian vectơ. Kích thước không gian của vectơ có thể hữu hạn hoặc vô hạn nhưng người ta đã quan sát thấy rằng các vấn đề về học máy và khoa học dữ liệu giải quyết các vectơ có độ dài cố định.
Biểu diễn vector được hiển thị như sau:
temp = torch.FloatTensor([23,24,24.5,26,27.2,23.0])
temp.size()
Output - torch.Size([6])
Trong học máy, xử lý dữ liệu đa chiều. Vì vậy, vectơ trở nên rất quan trọng và được coi là đặc điểm đầu vào cho bất kỳ câu lệnh bài toán dự đoán nào.
2. Scalars
Vô hướng được gọi là không có thứ nguyên chỉ chứa một giá trị. Khi nói đến PyTorch, nó không bao gồm một tensor đặc biệt với kích thước bằng không; do đó khai báo sẽ được thực hiện như sau:
x = torch.rand(10)
x.size()
Output - torch.Size([10])
3. Matrices (Ma trận) :
Hầu hết dữ liệu có cấu trúc thường được biểu diễn dưới dạng bảng hoặc một ma trận cụ thể. Ta sẽ sử dụng một tập dữ liệu có tên là Giá Nhà ở Boston, có sẵn trong thư viện máy học Python scikit-learning.
boston_tensor = torch.from_numpy(boston.data)
boston_tensor.size()
Output: torch.Size([506, 13])
boston_tensor[:2]
Output:
Columns 0 to 7
0.0063 18.0000 2.3100 0.0000 0.5380 6.5750 65.2000 4.0900
0.0273 0.0000 7.0700 0.0000 0.4690 6.4210 78.9000 4.9671
Columns 8 to 12
1.0000 296.0000 15.3000 396.9000 4.9800
2.0000 242.0000 17.8000 396.9000 9.1400