- Bài báo gần đây được chú ý trên Twitter, "Phân loại văn bản "không cần tác giả"": phương pháp phân loại không tham số sử dụng bộ nén
- Tác giả đã kiểm tra mã nguồn để tái tạo kết quả của bài báo và phát hiện lỗi hoặc các lựa chọn không lường trước trong mã
kNN.
- Do lỗi trong mã, các chỉ số độ chính xác của phương pháp này xuất hiện cao hơn dự kiến.
- Trong Table 5 của bài báo, phương pháp
gzip cho thấy hiệu năng vượt trội hơn các phương pháp dựa trên mạng nơ-ron khác.
- Tác giả đã tính lại các con số và phát hiện rằng kết quả đã chỉnh sửa làm thay đổi đáng kể kết luận của thí nghiệm.
- Bài báo sử dụng bộ phân loại
kNN với k=2, đây là một lựa chọn khá lạ đối với phân loại kNN.
- Mã nguồn có một chiến lược phân xử ưu tiên không lường trước, ảnh hưởng đến độ chính xác được báo cáo.
- Tác giả cung cấp phần hiện thực riêng để so sánh kết quả bằng các chiến lược phân xử ưu tiên khác.
- Kết quả tính lại cho thấy mã gốc và phần hiện thực của tác giả cho ra kết quả tương tự nhau.
- Vẫn còn những câu hỏi về độ chính xác cao của bộ dữ liệu Philippines và sự khác biệt nhỏ giữa kết quả "table5" và "code".
1 bình luận
Ý kiến trên Hacker News