Nén không mất dữ liệu cho các tin nhắn tiếng Anh ngắn

(textsynth.org)

3 điểm bởi lifthrasiir 2019-07-16 | 1 bình luận | Chia sẻ qua WhatsApp

Dạo gần đây cái tên Fabrice Bellard được nhắc đến khá thường xuyên; dự án trước đây của ông là một thuật toán nén không mất dữ liệu dùng mạng nơ-ron (xem https://bellard.org/nncp/). Đúng lúc GPT-2 (https://openai.com/blog/better-language-models/) vừa được công bố, nên đã nảy ra ý tưởng: nếu thay mạng nơ-ron đó bằng GPT-2 rồi chạy thuật toán nén thì sẽ thế nào? Đây chính là trang được tạo ra từ ý tưởng đó. Nó nén các đoạn tiếng Anh ngắn xuống khoảng 15%, tức chỉ dùng 1,2 bit cho mỗi ký tự; mức này đã tiệm cận entropy thông tin ước tính của một chữ cái tiếng Anh (0,6~1,3 bit). Như có thể thấy từ URL, có vẻ mục đích là để gửi qua SMS.

Đây không phải là lần đầu mạng nơ-ron được dùng trong thuật toán nén. Các thuật toán nén hàng đầu, tiêu biểu như PAQ, đều sử dụng các phương pháp thống kê, và mạng nơ-ron cũng không hiếm khi được dùng. Ngay cả nền tảng của chúng là context mixing (https://en.wikipedia.org/wiki/Context_mixing) cũng là một ứng dụng của mạng nơ-ron, và LSTM mà Bellard dùng cũng đã có tiền lệ (https://github.com/byronknoll/lstm-compress). Đóng góp của Bellard gần với việc tối ưu hiệu năng hơn.

1 bình luận

iolothebard 2019-07-16

Dùng vùng Unicode CJK và Hangul à...

Nhớ lại cơn ác mộng thời tổ hợp/đủ bộ 2 byte khi các ký tự ASCII mở rộng hiện ra như chữ Hàn/chữ Hán... (xác nhận già rồi)

Nén không mất dữ liệu cho các tin nhắn tiếng Anh ngắn

Bài viết liên quan

1 bình luận