Trong bài này, ta sẽ tập trung nhiều hơn vào torchvision.datasets và các loại khác nhau . PyTorch bao gồm các bộ tải tập dữ liệu sau:
- MNIST
- COCO (Captioning and Detection)
Tập dữ liệu bao gồm phần lớn hai loại hàm như sau :
- Transform − hàm nhận vào một hình ảnh và trả về một phiên bản đã sửa đổi của nội dung tiêu chuẩn. Chúng có thể được tạo cùng với các phép biến đổi.
- Target_transform − hàm lấy mục tiêu và biến đổi nó. Ví dụ: lấy chuỗi phụ đề và trả về hàng chục chỉ số thế giới.
MNIST :
Tạo tập dữ liệu MNIST mẫu :
dset.MNIST(root, train = TRUE, transform = NONE,
target_transform = None, download = FALSE)
Trong đó :
- root − thư mục gốc của tập dữ liệu nơi dữ liệu đã xử lý tồn tại.
- train − True = Tập huấn luyện, False = Tập kiểm tra
- download − True = tải xuống tập dữ liệu từ internet và đặt nó vào thư mục gốc.
COCO :
Yêu cầu API COCO phải được cài đặt. Ví dụ sau được sử dụng để chứng minh việc triển khai COCO của tập dữ liệu bằng PyTorch:
import torchvision.dataset as dset
import torchvision.transforms as transforms
cap = dset.CocoCaptions(root = ‘ dir where images are’,
annFile = ’json annotation file’,
transform = transforms.ToTensor())
print(‘Number of samples: ‘, len(cap))
print(target)
Kết quả như sau :
Number of samples: 82783
Image Size: (3L, 427L, 640L)