Tích hợp Claude vào Apple Foundation Models
(platform.claude.com)- Đây là một gói Swift kết nối framework Foundation Models của Apple với Claude như một mô hình phía máy chủ, cho phép nhà phát triển gọi Claude qua cùng luồng mã như mô hình on-device của Apple
- Nhờ giao thức
LanguageModelmà Apple giới thiệu tại WWDC 2026, giờ đây có thể dùng kiến trúc lai với một API tiêu chuẩn duy nhất: tạo prototype bằng mô hình on-device rồi chỉ chuyển các tác vụ phức tạp sang mô hình đám mây - Điểm cốt lõi là khả năng hoán đổi nhà cung cấp - có thể chuyển giữa Apple, Claude và Gemini chỉ bằng cách thay dependency của Swift Package mà không cần đụng vào logic session
- Gói này do Anthropic phát hành theo Apache 2.0, là ví dụ đầu tiên hoạt động thực tế cho ý tưởng "có thể kết nối với bất kỳ backend nào"
- Yêu cầu đi trực tiếp từ ứng dụng tới Claude API và Apple không nằm trên đường đi, nên không thể thấy prompt hay phản hồi; chi phí cũng được tính trực tiếp vào tài khoản Anthropic
Vì sao điều này quan trọng
- Trước đây, để gắn mô hình ngôn ngữ vào ứng dụng iOS, nhà phát triển phải đăng ký API đám mây riêng, quản lý key, trả phí theo token và gửi mọi prompt ra ngoài thiết bị; tại WWDC 2026, Apple đã giải quyết sự bất tiện kéo dài này
- Framework Foundation Models được mở rộng để gọi toàn bộ mô hình on-device của Apple Intelligence, Private Cloud Compute và các đám mây bên thứ ba như Claude hay Gemini thông qua một API Swift native duy nhất
- Anthropic đã công bố một gói Swift triển khai giao thức mới này, dùng để nhận chuyển tiếp từ mô hình on-device của Apple và gọi Claude xử lý các workflow phức tạp hơn
Những gì thay đổi với nhà phát triển
-
Chuyển đổi nhà cung cấp mà không cần sửa mã
- Sau khi tạo prototype ứng dụng bằng mô hình on-device của Apple, nhà phát triển có thể định tuyến các truy vấn phức tạp sang Google Gemini hoặc Anthropic Claude, hoặc chuyển đổi giữa chúng, chỉ bằng cách cập nhật dependency trong Swift Package Manager mà không cần thay đổi logic session hay phần còn lại của ứng dụng
- Mô hình on-device phù hợp cho các tác vụ nhanh và cục bộ như tóm tắt, trích xuất; chỉ khi cần suy luận nhiều bước, sinh mã, tìm kiếm web, thực thi mã mới handoff sang Claude
- Trong cả hai trường hợp đều dùng cùng API
LanguageModelSession, nên chỉ cần thay đối sốmodel:là có thể chuyển đổi
-
Handoff dựa trên kiểu dữ liệu
- Sau khi thêm vào dự án và đăng nhập bằng API key của Anthropic, có thể chuyển đầu ra có kiểu từ mô hình on-device của Apple sang yêu cầu Claude; gói sẽ xử lý streaming, gọi công cụ và phản hồi có cấu trúc để đưa trở lại SwiftUI view
- Cách dùng đơn giản tới mức chỉ cần ba dòng mã để trả về giá trị Swift có kiểu thông qua việc tạo guide
Cấu trúc quyền riêng tư và chi phí
- Yêu cầu được gửi trực tiếp từ ứng dụng tới Claude API nên Apple không có mặt trên đường truyền và không thể thấy prompt hay phản hồi
- Mức sử dụng được tính trực tiếp vào tài khoản Anthropic theo giá API tiêu chuẩn
- Ứng dụng tự quyết định theo từng session xem sẽ dùng Claude hay mô hình on-device của Apple
Bức tranh lớn hơn
- Apple dự kiến mở nguồn framework Foundation Models vào mùa hè năm nay, đây là API Swift native cho các mô hình on-device ra mắt năm 2025; với giao thức LanguageModel mới, gần như mọi mô hình dù là của Apple hay nhà cung cấp từ xa đều có thể vận hành LanguageModelSession phía sau một API Swift duy nhất
- Như một minh họa cho ý tưởng "có thể kết nối với bất kỳ backend nào", ClaudeForFoundationModels của Anthropic đã cụ thể hóa mẫu adapter
- Với hệ thống Dynamic Profiles, Apple cho phép ứng dụng thay đổi mô hình, công cụ và chỉ dẫn ngay giữa một session, đồng thời định vị đây là nền tảng cho workflow đa tác tử
- Tuy vậy, tích hợp này hiện vẫn ở giai đoạn beta, yêu cầu iOS, iPadOS, macOS, visionOS, watchOS 27 và Xcode 27, nên API vẫn có thể thay đổi trước khi phát hành chính thức
1 bình luận
Ý kiến trên Hacker News
Apple đang kiểm soát trải nghiệm người dùng trong khi biến LLM thành hàng hóa phổ thông
Đúng kiểu một công ty phần cứng, chiến lược là tiếp tục bán những cỗ máy tốt nhất để dùng AI, và có vẻ đây là lựa chọn đúng đắn
Họ đổ hàng tỷ đô vào hạ tầng, nhưng giá trị lại rơi vào tay các công ty khác ở tầng phía trên
Công ty nào không thích nghi thì sẽ bị các web scraper DIY chạy bằng AI do người dùng tạo ra đập cho tơi tả rồi cuối cùng cũng phải khuất phục
Những cách nói như biến LLM thành hàng hóa phổ thông có thể đúng, nhưng đây vốn đã là tính năng hướng tới người dùng mà họ mài giũa suốt nhiều năm
Một gói Swift cho phép dùng Claude làm mô hình ngôn ngữ phía máy chủ trong
Apple's Foundation Models frameworkà, tôi đã mong điều ngược lại. Tôi đã hy vọng các khả năng sẵn có của Claude Code bằng cách nào đó sẽ chạy cục bộ trên Neural Engine của laptop của tôiM2 với 8GB RAM thì đúng là mơ mộng hão huyền, nhưng cũng khiến tôi lóe lên chút hy vọng
https://developer.apple.com/videos/play/wwdc2026/232/
https://www.youtube.com/watch?v=wykPErJ8M-8
Nhưng trên thực tế thứ bạn nhận được là Claude, thậm chí không biết được nó được host ở đâu. Có thể là trung tâm dữ liệu X-AI, có thể là ở đâu đó trên Amazon, không ai biết cả
Đây không chỉ dành riêng cho Claude. Các nhà phát triển cũng có thể làm ứng dụng gọi mô hình Gemini chạy trên máy chủ của Google
Tại WWDC, Apple công bố sẽ mở Foundation Models framework cho các nhà cung cấp mô hình cloud bên thứ ba. Bắt đầu từ iOS 27, macOS 27, iPadOS 27, visionOS 27 và watchOS 27, các nhà cung cấp mô hình có thể triển khai
LanguageModelprotocol công khai mới để cung cấp giao diện chung cho suy luận mô hình. Google đã cho phép dùng mô hình Gemini trong Foundation Models framework thông qua Firebase Apple SDKĐiều này cho phép trải nghiệm phát triển native hoàn chỉnh. Các mô hình Gemini được host trên cloud có thể kết nối trực tiếp vào Foundation Models framework qua cùng API, và vì mô hình Apple trên thiết bị lẫn mô hình Gemini trên cloud đều nằm sau cùng một bề mặt API chung, nên có thể dễ dàng chuyển giữa suy luận cục bộ và suy luận trên cloud tùy theo trường hợp sử dụng
https://blog.google/innovation-and-ai/technology/developers-...
language model protocol, và trước khi bị nguyền rủa bởi cụm từ dài khủng khiếp đó thì mọi người nên nhanh chóng tập hợp về phía nàyMừng vì Apple đã đưa vào kiểu trừu tượng hóa này, nhưng mối lo chính lại nằm ở phía mô hình cục bộ
Ví dụ, kể cả khi muốn dùng Gemma4, từ góc nhìn người dùng thì nếu 10 ứng dụng mỗi ứng dụng tự tải cùng một mô hình, điện thoại sẽ bị phình to không cần thiết
Tôi vẫn chưa hiểu liệu Apple có cung cấp cách để nhiều ứng dụng dùng chung cùng một mô hình trên thiết bị hay không. Việc này phải làm được mà không cần các mẹo namespace hay quyền hạn rắc rối
Tôi chưa thấy nội dung nào gợi ý điều đó
Khi các mô hình trên thiết bị còn tụt hậu khá xa thì quan điểm này là sai, nhưng về dài hạn thì có thể vẫn đúng
Nhiều ứng dụng tôi dùng có thể cùng cần Gemma 4 E4B, nhưng tôi dùng đến hàng chục ứng dụng và các nhà phát triển thì có thể chọn từ hàng trăm mô hình. Cache dùng chung có thể giúp giảm dung lượng đôi chút ở những chỗ bị chồng lặp, nhưng vấn đề cốt lõi vẫn còn. Nếu mỗi ứng dụng tự chọn mô hình thì đĩa và việc hoán đổi bộ nhớ sẽ bùng nổ
Có khả năng nhà sản xuất thiết bị nhúng sẵn một mặc định sẽ tốt hơn nhiều. Không phải là nên cấm dùng mô hình khác, nhưng một mặc định dùng chung có thể là phương án tốt nhất cho cả trải nghiệm nhà phát triển lẫn người dùng trong 99% ứng dụng
Trạng thái đã được nạp sẵn trong bộ nhớ vốn là cú tăng hiệu năng lớn nhất, và mô hình mặc định có khả năng được giữ ở trạng thái “ấm” cao hơn rất nhiều
“Mô hình tốt nhất” thường là “mô hình tốt nhất cho thiết bị này” khi tính đến RAM và năng lực tính toán. Nhà phát triển không thể kiểm thử mọi thiết bị, nhưng Apple thì có thể và sẽ làm
Mỗi mô hình đều phải được tối ưu cho phần cứng. Việc cái gì chạy trên ANE, Metal hay CPU rất quan trọng, và mô hình mặc định sẽ được tối ưu
Nếu cần mô hình tùy biến thì LoRA có lẽ là lựa chọn tốt nhất. Nó chỉ khoảng 30MB và vẫn hưởng được toàn bộ các lợi thế ở trên
Có thể nói nên cho phép thay thế mặc định, nhưng điều đó gần với lý tưởng kiểu Linux hơn là kiểu của Apple, nên khó biết liệu ta có thực sự thấy điều đó hay không. Hơn nữa còn có nhược điểm thực tế. Dù có chủ ý hay không, prompt thường được tối ưu cho mô hình mà nó được phát triển nhắm tới, nên nếu thay mô hình hệ thống mặc định thì chất lượng của mọi ứng dụng có thể giảm đi
https://developer.apple.com/videos/play/wwdc2026/339
Tôi tự hỏi có phải Apple đang khuyến khích các nhà phát triển dùng LLM thông qua lớp trừu tượng hóa API của riêng họ không. Có thể là để sau này khi họ tung ra LLM của chính mình thì nhà phát triển có thể chuyển đổi mượt mà
Hình như tôi từng nghe nói Apple đang chi rất nhiều tiền cho huấn luyện, và việc đó bằng cách nào đó có thể liên quan đến Siri hoặc Apple AI hiện tại. Hoặc cũng có thể đây chỉ là tính năng tiện lợi cho nhà phát triển, nhưng tôi tò mò liệu còn ý đồ nào khác không
Nếu coi trọng quyền riêng tư thì việc Apple đứng ở giữa có giá trị nhất định
Điểm cốt lõi của framework này là với cùng một API, bạn có thể nhắm đến mô hình tích hợp trên thiết bị, mô hình trực tuyến do Apple lưu trữ là Private Cloud Computer, hoặc một shim tự viết để gọi bất kỳ mô hình trực tuyến nào được host ở đâu đó
Nhờ vậy, thay vì phải tự tạo một lớp trừu tượng hóa kiểu “cái này dùng mô hình cục bộ, cái kia dùng Claude”, hay tự tích hợp trực tiếp API Anthropic/OpenAI, bạn có thể dùng API hệ thống để định tuyến động lời gọi sang các kiểu mô hình/nhà cung cấp khác nhau
Việc trừu tượng hóa những thứ như gọi công cụ vào một chỗ, rồi vẫn tiếp tục cùng một
transcriptngay cả khi đổi nhà cung cấp hay mô hình động trong suốt phiên, v.v. là những điểm tiện lợi và khác biệt khá thú vịAPI này chỉ dùng được trên thiết bị Apple, nên để làm cho nó hoạt động đúng trên iOS, nhà phát triển sẽ bị buộc phải chia nhỏ thị trường bằng cách không thể dùng cùng một hệ thống đó ở nơi khác, và người dùng cũng bị khóa chặt hơn vào hệ sinh thái
Có vẻ Apple đang chuẩn bị cho việc mô hình trên thiết bị của họ sẽ tốt hơn, và xét việc đã có thể truy cập Gemini thì điều này cũng hợp lý.
Nếu các nhà phát triển đều viết phần gọi LLM bên ngoài theo cách này, thì khi mô hình của Apple trở nên mạnh hơn và bao phủ nhiều trường hợp sử dụng hơn, họ có thể dễ dàng thay thế tại từng điểm gọi riêng lẻ. Khi đó trải nghiệm người dùng của ứng dụng sẽ tốt hơn, đồng thời giảm cả chi phí lập hóa đơn cho nhà phát triển mà Apple không thu được hoa hồng
Apple là một công ty, và ai cũng biết công ty quan tâm điều gì, nên viễn cảnh không tưởng nơi mô hình cục bộ chạy trên điện thoại có vẻ khó xảy ra
Đâu phải ngẫu nhiên mà Microsoft và Nvidia bắt tay với nhau
Tôi tò mò không biết trên thực tế người ta sẽ dùng cái này thế nào trong phần mềm triển khai cho người dùng. Bắt người dùng tự tạo rồi nhập khóa API trực tiếp là một rào cản quá lớn đối với trải nghiệm người dùng tốt
Cấu trúc kiểu “trả tiền cho thứ mà bạn không biết mỗi câu hỏi sẽ tốn bao nhiêu, có thể vẫn không nhận được câu trả lời mình muốn, và nếu muốn dùng thêm thì phải trả thêm tiền” không hấp dẫn với đa số mọi người trừ dân cờ bạc. Việc giải thích rằng một câu “cảm ơn” ở cuối đoạn hội thoại dài có thể tốn kém vì ngữ cảnh còn khó chấp nhận hơn với người dùng bình thường.
Chi phí token lúc tăng lúc giảm như yo-yo cũng chẳng giúp ích gì. Người dùng phổ thông cần chi phí cố định và không muốn tốn năng lượng để liên tục theo dõi diễn biến của AI. Những vấn đề kiểu “tháng trước gói đăng ký của tôi dùng được lâu hơn nhiều” cũng không phải hướng đi tốt.
Trong đa số trường hợp, tôi nghĩ nhận định của Apple rằng LLM cục bộ là tương lai là đúng
Tôi cũng vẫn chưa hiểu hoàn toàn điều khoản của Anthropic. Có thể nhập kiểu
setup-token Set up a long-lived authentication token (requires Claude subscription), nhưng trông như một cái bẫy. Tôi không biết ai dùng cái này, và có cảm giác cứ dùng ở đâu là vi phạm điều khoản ngay lập tức.Hiện tại trên allihat.com, nếu không muốn dùng khóa Claude thì người dùng có thể dùng mô hình Apple cục bộ, và tỷ lệ chuyển đổi sang người dùng trả phí đã tăng khoảng 3 lần. Nhưng dĩ nhiên nó không phải vật thay thế cho Claude. Tôi từng hy vọng Apple sẽ tạo ra một cơ chế nào đó để họ đứng ra làm proxy cho Claude thay. Như vậy tôi cũng không cần phải proxy qua máy chủ của mình chỉ để quản lý mức sử dụng API Claude
.proxiedApple đang cung cấp miễn phí các mô hình AI qua máy chủ của họ cho các nhà phát triển có dưới 2 triệu lượt tải https://techcrunch.com/2026/06/08/apple-bets-cheaper-ai-will...
Tôi hiểu câu “các yêu cầu đi trực tiếp từ ứng dụng tới Claude API, Apple không nằm trên đường đi và không nhìn thấy prompt hay phản hồi” là từ góc nhìn của nhà phát triển.
Nhưng từ góc nhìn người tiêu dùng thì đúng là buồn cười
Microsoft đã tự phá ván cờ từ trước khi đưa vào điều khoản Copilot rằng “Copilot chỉ được cung cấp cho mục đích giải trí”, rồi còn thêm cảnh báo cho Copilot trong Excel là “hãy tránh dùng COPILOT cho các tác vụ đòi hỏi độ chính xác hoặc khả năng tái lập, hoặc có tác động pháp lý, quy định hay tuân thủ”.
Sau đó Apple âm thầm từ chối tham gia bằng cách không đầu tư hàng tỷ đến hàng trăm tỷ đô để làm LLM cạnh tranh. Dĩ nhiên họ vẫn bán lại Claude hoặc tận dụng Gemini cho những người nhẹ dạ, nhưng Apple hiểu rõ tình hình.
https://www.microsoft.com/en-us/microsoft-copilot/for-indivi...
https://support.microsoft.com/en-US/Excel/copilot-function
Bản thân coding agent vốn đã là một lớp bị ép chồng lên, giờ lại định thêm một lớp nữa sao. Coding agent nhiều khi giống quản lý vendor của các công ty môi giới nhân sự thập niên 90.
Hứa với khách hàng mọi thứ trên đời, rồi thúc ép các contractor tội nghiệp giao hàng. Coding agent ngốn token gấp 10 lần, giống như khoản chênh lệch giữa số tiền công ty môi giới tính cho khách và số họ trả cho contractor. Một phép thử đơn giản là có những tác vụ vượt quá độ dài ngữ cảnh nếu đi qua coding agent, nhưng nếu prompt trực tiếp thì mô hình xử lý được bình thường.
Các lớp trung gian là thứ xa xỉ, và chúng làm mất kiểm soát cũng như tính minh bạch