1 điểm bởi GN⁺ 2023-07-18 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bài báo gần đây được chú ý trên Twitter, "Phân loại văn bản "không cần tác giả"": phương pháp phân loại không tham số sử dụng bộ nén
  • Tác giả đã kiểm tra mã nguồn để tái tạo kết quả của bài báo và phát hiện lỗi hoặc các lựa chọn không lường trước trong mã kNN.
  • Do lỗi trong mã, các chỉ số độ chính xác của phương pháp này xuất hiện cao hơn dự kiến.
  • Trong Table 5 của bài báo, phương pháp gzip cho thấy hiệu năng vượt trội hơn các phương pháp dựa trên mạng nơ-ron khác.
  • Tác giả đã tính lại các con số và phát hiện rằng kết quả đã chỉnh sửa làm thay đổi đáng kể kết luận của thí nghiệm.
  • Bài báo sử dụng bộ phân loại kNN với k=2, đây là một lựa chọn khá lạ đối với phân loại kNN.
  • Mã nguồn có một chiến lược phân xử ưu tiên không lường trước, ảnh hưởng đến độ chính xác được báo cáo.
  • Tác giả cung cấp phần hiện thực riêng để so sánh kết quả bằng các chiến lược phân xử ưu tiên khác.
  • Kết quả tính lại cho thấy mã gốc và phần hiện thực của tác giả cho ra kết quả tương tự nhau.
  • Vẫn còn những câu hỏi về độ chính xác cao của bộ dữ liệu Philippines và sự khác biệt nhỏ giữa kết quả "table5" và "code".

1 bình luận

 
GN⁺ 2023-07-18
Ý kiến trên Hacker News
  • Sai sót trong bài báo "gzip beats BERT" là một lỗi phương pháp luận tinh vi trong ML.
  • Việc áp dụng thuật toán nén vào ML không phải là "bữa trưa miễn phí" và có thể không tạo ra phép màu đặc biệt nào.
  • Tác giả bài viết trên blog đã gửi một GitHub issue liên quan đến bài báo.
  • Khoa học tốt cần kỹ thuật phần mềm tốt, và sai sót trong thí nghiệm là chuyện thường gặp.
  • Bài viết trên blog về vấn đề này được đón nhận như một sự soi sáng đáng quý cho vấn đề.
  • Việc chọn kNN làm bộ phân loại trong bài báo làm dấy lên nghi vấn và gợi ý các thuật toán thay thế.
  • Kết quả của bài báo đặt ra câu hỏi về cách thuật toán nén có thể đánh bại LLM.
  • Những người đã đưa ra các tuyên bố lớn lao về bài báo có thể cần xem xét lại nhận định của mình.
  • Bài viết trên blog đã khơi mào thêm các cuộc thảo luận và phân tích trên Twitter.
  • Đã có khả năng được nêu ra rằng cần tính đến các trường hợp hòa xảy ra ngẫu nhiên trong kết quả của bài báo.