Mô hình văn bản dự đoán mới dựa trên 'Transformer' của Apple

(jackcook.com)

15 điểm bởi GN⁺ 2023-09-18 | 1 bình luận | Chia sẻ qua WhatsApp

Apple công bố tính năng mới trên iOS và macOS sử dụng mô hình ngôn ngữ transformer: đưa ra gợi ý văn bản dự đoán khi người dùng đang gõ
Đây là một trong những mô hình dựa trên transformer đầu tiên được Apple công khai thừa nhận, và sẽ được tích hợp vào hệ điều hành
Tương tự tính năng tự động hoàn thành của Gmail, nó có thể hoàn thành từng từ riêng lẻ và đôi khi đề xuất hơn hai từ cùng lúc
Mô hình văn bản dự đoán được phát hiện trong AppleSpell, một ứng dụng nội bộ của macOS dùng để kiểm tra lỗi chính tả và ngữ pháp khi người dùng đang gõ
Mô hình nằm trong /System/Library/LinguisticData/RequiredAssets_en.bundle/AssetData/en.lm/unilm.bundle, nơi chứa nhiều tệp mô hình Espresso được sử dụng trong lúc gõ
Từ vựng của mô hình văn bản dự đoán gồm 15.000 token, bao gồm token đặc biệt, từ viết tắt và biểu tượng cảm xúc
Kiến trúc của mô hình văn bản dự đoán dường như dựa trên GPT-2, bao gồm embedding token, mã hóa vị trí, một chuỗi các khối decoder và tầng đầu ra
Mô hình văn bản dự đoán của Apple có khoảng 34 triệu tham số và 512 hidden unit, nhỏ hơn nhiều so với phiên bản nhỏ nhất của GPT-2
Nhờ kích thước nhỏ, mô hình có thể chạy nhanh và thường xuyên mà không tiêu tốn nhiều pin của thiết bị, từ đó cải thiện trải nghiệm người dùng
Do bị giới hạn về kích thước, mô hình chưa đủ khả năng viết cả câu hay đoạn văn hoàn chỉnh, nhưng vẫn đủ tốt để đưa ra gợi ý cho người dùng khi có độ tin cậy cao về từ tiếp theo hoặc hai từ tiếp theo
Tác giả cũng cung cấp một script trên GitHub cho những ai muốn tự mình thử trực tiếp tính năng văn bản dự đoán

1 bình luận

GN⁺ 2023-09-18

Ý kiến trên Hacker News

Tác giả bài viết cho biết họ ngạc nhiên khi bài của mình đang thu hút nhiều sự chú ý trên Hacker News và nói rằng sẽ trả lời các câu hỏi về chủ đề này.
Một số người dùng đặt câu hỏi liệu mô hình văn bản dự đoán mới của Apple có vượt trội hơn GPT2 hay không; mô hình sau có xu hướng tạo ra văn bản không liên quan dựa trên nội dung người dùng nhập.
Có tranh luận về việc liệu mô hình văn bản dự đoán có nên tạo ra cả câu hoàn chỉnh hay chỉ đơn giản dự đoán nội dung mà người dùng định nhập.
Trong các thử nghiệm không đề cập đến thiết lập nhiệt độ, tức tham số kiểm soát xác suất chọn token không phải dự đoán hàng đầu. Thiết lập này có thể ảnh hưởng đến mức độ sáng tạo và tính lặp lại trong đầu ra của mô hình.
Một số người dùng phát hiện rằng unilm.bundle là mô hình dự đoán văn bản mới bằng cách quan sát log console của trình mô phỏng iOS.
Có suy đoán về việc các phiên bản tương lai của mô hình Apple liệu có chuyển sang mô hình nhỏ hơn nhưng được huấn luyện trên dữ liệu chất lượng cao hơn hay không, và liệu Apple có phát triển phiên bản Copilot riêng cho Xcode hay không.
Một số người dùng cho rằng nếu mục tiêu của văn bản dự đoán là tăng tốc nhập liệu, thì giao diện nhập có thể là nút thắt cổ chai, từ đó cho thấy cần có những cách nhập văn bản nhanh hơn.
Việc triển khai AI đang được bàn luận, và một số người dùng đề xuất rằng AI nên được dùng để thực hiện các tác vụ nhỏ, đáng tin cậy thay vì được bán như một giải pháp end-to-end.
Có câu hỏi được đặt ra về việc liệu mô hình văn bản dự đoán mới có thể cải thiện dựa trên kinh nghiệm hoặc lịch sử iMessage hay không.
Có suy đoán rằng thuật ngữ UnilmCtrl ngụ ý một sự phụ thuộc nào đó vào mô hình CTRL của Socher, nhưng điều này chưa được xác nhận. Một số người dùng nói rằng họ sẽ tôn trọng Apple hơn nếu hãng đã làm việc lâu hơn trong lĩnh vực NLP.

Mô hình văn bản dự đoán mới dựa trên 'Transformer' của Apple

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News