- Các tác giả áp dụng kNN lên các tài liệu đã nén bằng cách sử dụng một hàm khoảng cách gọi là "khoảng cách nén chuẩn hóa" (NCD).
- Phương pháp này cho kết quả tốt hơn BERT trong các tác vụ phân loại zero-shot.
- Gzip rất mạnh khi có nhiều từ trùng lặp, nhưng DNN vượt trội hơn về độ tương đồng ngữ nghĩa.
- Kết quả thì thú vị, nhưng không thú vị đến mức như cách họ mô tả.
- Với dữ liệu nằm ngoài phân phối, BERT vẫn cho hiệu năng tốt hơn.
- Cả thuật toán nén và mô hình ML đều là những dạng nén, và có thể tồn tại những đặc tính nền tảng giải thích hiệu năng của ngôn ngữ và dữ liệu ở con người.
- Liên kết nên trỏ tới bài báo tại URL được cung cấp.
- Việc ghép các đoạn văn bản tương tự nhau sẽ nén tốt hơn so với các đoạn khác.
- Gzip có thể phù hợp hơn với việc nén vì nó biểu diễn đầu vào theo cách có thể nhận diện và gán nhãn.
- Gzip có thể gặp khó với những từ như "not" vốn đảo ngược ý nghĩa của câu.```
1 bình luận
Ý kiến trên Hacker News