Giới thiệu các foundation model mới của Apple trên thiết bị và nền tảng máy chủ
(machinelearning.apple.com)- Tại WWDC 2024, Apple đã công bố Apple Intelligence, một hệ thống trí tuệ cá nhân được tích hợp sâu vào iOS 18, iPadOS 18 và macOS Sequoia
- Apple Intelligence gồm nhiều mô hình sinh được tối ưu cho các tác vụ hằng ngày của người dùng và có thể thích ứng ngay lập tức với hoạt động hiện tại
- Foundation model tích hợp sẵn được tinh chỉnh để mang lại trải nghiệm người dùng như viết/cải thiện tài liệu, tóm tắt/ưu tiên thông báo, tạo hình ảnh vui nhộn cho hội thoại và đơn giản hóa tương tác giữa các ứng dụng
- 2 mô hình — mô hình ngôn ngữ trên thiết bị khoảng 3 tỷ tham số và mô hình ngôn ngữ lớn hơn chạy trên máy chủ được cung cấp qua Private Cloud Compute — được xây dựng/vận hành để thực hiện các tác vụ chuyên biệt một cách hiệu quả, chính xác và có trách nhiệm
- Đây là một phần của họ mô hình sinh lớn hơn do Apple phát triển, bao gồm mô hình lập trình để xây dựng intelligence trong Xcode và các mô hình diffusion hỗ trợ biểu đạt hình ảnh trong ứng dụng Messages
Tập trung vào phát triển AI có trách nhiệm
- Apple Intelligence được thiết kế phù hợp với các giá trị cốt lõi ở mọi giai đoạn và được xây dựng dựa trên những đổi mới đột phá về quyền riêng tư
- Apple đã thiết lập các nguyên tắc AI có trách nhiệm để định hướng cách phát triển các công cụ AI và các mô hình nền tảng phía sau chúng:
- Trao quyền cho người dùng bằng các công cụ thông minh
- Đại diện cho người dùng
- Thiết kế cẩn trọng
- Bảo vệ quyền riêng tư
- Các nguyên tắc này được phản ánh xuyên suốt kiến trúc làm nên Apple Intelligence
Pre-Training
- Foundation model được huấn luyện bằng framework AXLearn của Apple, được hãng công bố mã nguồn mở vào năm 2023
- Framework này được xây dựng trên JAX và XLA, cho phép huấn luyện hiệu quả và có khả năng mở rộng trên nhiều loại phần cứng và nền tảng đám mây
- Apple sử dụng kết hợp các kỹ thuật song song hóa có thể mở rộng huấn luyện theo nhiều chiều như dữ liệu, mô hình và độ dài chuỗi
- Mô hình được huấn luyện bằng dữ liệu có cấp phép và dữ liệu công khai. Các nhà xuất bản web có thể từ chối việc nội dung web của họ được dùng để huấn luyện Apple Intelligence thông qua cơ chế kiểm soát sử dụng dữ liệu
- Dữ liệu cá nhân hay tương tác của người dùng tuyệt đối không được sử dụng. Apple áp dụng lọc loại bỏ PII, lọc nội dung chất lượng thấp và các bộ phân loại dựa trên mô hình để nhận diện tài liệu chất lượng cao
Post-Training
- Apple xác nhận rằng chất lượng dữ liệu là yếu tố thiết yếu đối với thành công của mô hình, vì vậy hãng áp dụng chiến lược dữ liệu lai
- Apple phát triển thuật toán tinh chỉnh bằng rejection sampling với ủy ban giáo viên, cùng thuật toán RLHF sử dụng mirror descent policy optimization và leave-one-out advantage estimator
- Hai thuật toán này giúp cải thiện đáng kể chất lượng làm theo chỉ dẫn của mô hình
Optimization
- Ngoài việc phát triển các mô hình sinh hiệu năng cao, Apple còn áp dụng nhiều kỹ thuật đổi mới để tối ưu tốc độ và hiệu quả trên thiết bị cũng như trên private cloud
- Cả mô hình trên thiết bị và mô hình máy chủ đều sử dụng grouped-query attention
- Apple dùng bảng embedding từ vựng đầu vào và đầu ra dùng chung để giảm yêu cầu bộ nhớ và chi phí suy luận
- Mô hình trên thiết bị dùng kích thước từ vựng 49K, còn mô hình máy chủ dùng kích thước 100K bao gồm thêm ngôn ngữ và token kỹ thuật
- Để suy luận trên thiết bị, Apple sử dụng low-bit palettization — hãng phát triển framework adapter LoRA mới kết hợp chiến lược cấu hình hỗn hợp 2-bit và 4-bit (trung bình 3,5 bit cho mỗi trọng số) nhằm đạt độ chính xác tương đương mô hình chưa nén
- Công cụ Talaria được sử dụng để định hướng tốt hơn việc chọn bitrate cho từng tác vụ
- Apple tận dụng lượng tử hóa activation và embedding, đồng thời phát triển cách cập nhật KV cache hiệu quả
- Với bộ tối ưu hóa này, Apple đạt độ trễ time-to-first-token khoảng 0,6 ms cho mỗi prompt token và tốc độ sinh 30 token/giây trên iPhone 15 Pro
Model Adaptation
- Foundation model được tinh chỉnh cho các hoạt động hằng ngày của người dùng và có thể tự chuyên biệt hóa một cách động theo tác vụ đang thực hiện
- Để tinh chỉnh mô hình cho một tác vụ cụ thể, Apple dùng adapter, tức các mô-đun mạng nơ-ron nhỏ có thể được gắn vào nhiều lớp khác nhau của mô hình đã tiền huấn luyện
- Chỉ các lớp adapter được tinh chỉnh, nên các tham số gốc của mô hình tiền huấn luyện nền tảng không bị thay đổi, giúp giữ lại tri thức tổng quát trong khi các lớp adapter được tùy biến để hỗ trợ tác vụ cụ thể
Performance and Evaluation
- Apple tập trung cung cấp các mô hình sinh giúp người dùng giao tiếp, làm việc, thể hiện bản thân và xử lý công việc trên toàn bộ hệ sinh thái sản phẩm của hãng
- Khi benchmark mô hình, Apple tập trung vào đánh giá của con người vì điều này được chứng minh có tương quan cao với trải nghiệm người dùng
- Apple đánh giá hiệu năng cho cả foundation model lẫn các adapter theo từng tính năng
Ví dụ đánh giá adapter tóm tắt:
- Vì yêu cầu sản phẩm cho tóm tắt email và tóm tắt thông báo khác nhau theo những cách tinh tế nhưng quan trọng, Apple đã tinh chỉnh các adapter LoRA trên mô hình đã được palettization để đáp ứng các yêu cầu cụ thể đó
- Dữ liệu huấn luyện dựa trên các bản tóm tắt tổng hợp được tạo ra từ mô hình máy chủ lớn hơn, sau đó được lọc bằng chiến lược rejection sampling chỉ giữ lại các bản tóm tắt chất lượng cao
- Apple đánh giá phần tóm tắt theo từng sản phẩm bằng bộ 750 câu trả lời được lấy mẫu cẩn thận cho từng trường hợp sử dụng
- Bộ dữ liệu đánh giá nhấn mạnh vào nhiều loại đầu vào mà tính năng sản phẩm có khả năng gặp trong môi trường production, bao gồm hỗn hợp phân tầng của tài liệu đơn và tài liệu xếp chồng với nhiều loại nội dung và độ dài khác nhau
- Việc đánh giá hiệu năng trên bộ dữ liệu đại diện cho các trường hợp sử dụng thực tế của tính năng sản phẩm là rất quan trọng
- Apple nhận thấy mô hình có adapter tạo ra bản tóm tắt tốt hơn các mô hình tương đương
Human Satisfaction Score on Summarization Feature Benchmark
- Theo bảng dữ liệu, mô hình trên thiết bị + adapter của Apple cho tỷ lệ hài lòng tích cực cao hơn và tỷ lệ hài lòng tiêu cực thấp hơn so với mô hình Phi-3-mini trong bài toán tóm tắt email và thông báo. Mô hình có adapter tạo ra bản tóm tắt tốt hơn
- Apple đánh giá các năng lực tổng quát của mô hình trên thiết bị và mô hình máy chủ bằng bộ đánh giá toàn diện gồm các prompt thực tế với nhiều mức độ khó khác nhau. Khi so sánh với các mô hình mã nguồn mở và mô hình thương mại có kích cỡ tương tự, kết quả cho thấy:
- Mô hình trên thiết bị (~3 tỷ tham số) cho hiệu năng vượt trội hơn các mô hình lớn hơn như Phi-3-mini, Mistral-7B và Gemma-7B
- Mô hình máy chủ có thể sánh ngang DBRX-Instruct, Mixtral-8x22B và GPT-3.5-Turbo trong khi vẫn rất hiệu quả
- Apple sử dụng nhiều bộ prompt đối kháng để kiểm tra hiệu năng mô hình ở các khía cạnh như nội dung độc hại, chủ đề nhạy cảm và tính xác thực. Cả mô hình trên thiết bị lẫn mô hình máy chủ đều cho thấy độ vững vàng trước prompt đối kháng và đạt tỷ lệ vi phạm thấp hơn các mô hình mã nguồn mở lẫn thương mại
- Khi dùng benchmark IFEval để so sánh khả năng làm theo chỉ dẫn với các mô hình cùng kích cỡ, mô hình trên thiết bị và mô hình máy chủ của Apple cho thấy khả năng tuân thủ chỉ dẫn chi tiết tốt hơn các mô hình mã nguồn mở và thương mại cùng hạng
- Apple cũng đánh giá năng lực viết của mô hình trên benchmark nội bộ cho tóm tắt và viết, gồm nhiều chỉ dẫn viết khác nhau
Writing Benchmarks
- Theo bảng dữ liệu, trong các tác vụ tóm tắt và viết, mô hình trên thiết bị và mô hình máy chủ của Apple cho thấy hiệu năng tốt, có thể cạnh tranh với các mô hình đối chứng
Kết luận
- Các foundation model và adapter của Apple được giới thiệu tại WWDC24 là nền tảng cho Apple Intelligence, một hệ thống trí tuệ cá nhân mới được tích hợp sâu vào iPhone, iPad và Mac để cung cấp các năng lực mạnh mẽ trên ngôn ngữ, hình ảnh, hành động và ngữ cảnh cá nhân
- Hệ thống này được tạo ra với mục đích giúp người dùng thực hiện các hoạt động hằng ngày trên toàn bộ sản phẩm Apple, được phát triển có trách nhiệm ở mọi giai đoạn và được dẫn dắt bởi các giá trị cốt lõi của Apple
- Apple cho biết sẽ sớm chia sẻ thêm thông tin về họ mô hình sinh rộng hơn, bao gồm mô hình ngôn ngữ, diffusion và lập trình
1 bình luận
Ý kiến trên Hacker News
Tận dụng adapter: Tinh chỉnh mô hình cho các tác vụ cụ thể bằng cách dùng adapter, tức các mô-đun mạng nơ-ron nhỏ có thể cắm vào nhiều lớp khác nhau của mô hình đã được huấn luyện trước. Điều này cho phép nhà phát triển ứng dụng sử dụng các mô hình được tối ưu hóa cho từng phần cứng.
Kỳ vọng: Dù chưa có công bố về việc hỗ trợ huấn luyện từ bên thứ ba, vẫn kỳ vọng điều này đang nằm trong kế hoạch. Khó khăn của ML cục bộ + riêng tư là làm sao để mỗi ứng dụng không cần những bộ trọng số có dung lượng quá lớn.
Cơ hội của Apple: Apple có cơ hội cung cấp các mô hình được tối ưu hóa cho từng chip, đồng thời cung cấp adapter chỉ cần vài MB trọng số cho các trường hợp sử dụng mới. Điều này tương tự như việc làm gọn ứng dụng đối với mô hình.
Trải nghiệm nhà phát triển: Ngay cả khi mô hình nền tảng chưa phải mới nhất, trải nghiệm cho nhà phát triển vẫn rất tốt và có thể lặp lại. Phía máy chủ thì dễ hơn nhiều, và kỳ vọng local + private sẽ chiếm phần lớn các trường hợp sử dụng.
Vai trò của adapter: Dùng adapter để tinh chỉnh mô hình cho các tác vụ cụ thể, quản lý bộ nhớ hiệu quả và bảo đảm độ phản hồi của hệ điều hành. Các tham số adapter được biểu diễn ở 16-bit, và với một mô hình có khoảng 300 triệu tham số thì cần khoảng 10MB bộ nhớ.
Tương tự Lora: Cách tiếp cận này nghe khá giống Lora.
Biểu đồ so sánh: Ở giữa bài có biểu đồ so sánh với các mô hình liên quan khác. Mô hình phía máy chủ tốt hơn GPT-3.5 nhưng kém hơn GPT-4. Tuy nhiên, biểu đồ về "đánh giá của con người đối với mức độ độc hại của đầu ra" đặc biệt thú vị.
Sự thận trọng của mô hình: Làm cho mô hình thận trọng hơn theo cách đưa GPT lên "cấp 3", đồng thời làm rõ rằng "đây là điều ChatGPT đã nói" bằng cách sử dụng mô hình của OpenAI.
Kỳ vọng sử dụng mô hình máy chủ: Nội dung trong hai trang này rất xuất sắc và muốn thử dùng mô hình máy chủ để xây dựng một đám mây được tối ưu hóa cho hệ sinh thái Apple.
Kỳ vọng tăng bộ nhớ: Kỳ vọng Apple sẽ nâng bộ nhớ mặc định của mọi máy Mac lên trên 8GB. Mong 16GB M4 trở thành mặc định, nhưng Apple có thể sẽ cung cấp 12GB và tính thêm phí cho tùy chọn 16GB.
Quyền riêng tư dữ liệu: Apple cần làm rõ họ chuyển những gì cho dịch vụ bên thứ ba, và cung cấp khả năng opt-out nếu người dùng muốn. Việc chạy suy luận trên thiết bị khác với việc gửi dữ liệu qua API của OpenAI.
Sở thích về tên miền: Thích việc sử dụng machinelearning.apple.com.
Kết quả tối ưu hóa: Việc sử dụng 3.5B trọng số mà không mất chất lượng là một kết quả tối ưu hóa ở mức tiên tiến nhất.
Đánh giá độc hại đầu ra: Xác nhận rằng Mistral-7B là tốt nhất trong số các mô hình nhỏ về việc giảm thiểu từ chối dương tính giả.
Ảnh hưởng đến thời lượng pin: Tò mò những mô hình này ảnh hưởng đến thời lượng pin ra sao. Khi dùng thử ứng dụng PrivateLLM trên iPhone 15 Pro, pin giảm rất nhanh chỉ sau vài phút sử dụng.