1 điểm bởi GN⁺ 3 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Đây là một gói Swift kết nối framework Foundation Models của Apple với Claude như một mô hình phía máy chủ, cho phép nhà phát triển gọi Claude qua cùng luồng mã như mô hình on-device của Apple
  • Nhờ giao thức LanguageModel mà Apple giới thiệu tại WWDC 2026, giờ đây có thể dùng kiến trúc lai với một API tiêu chuẩn duy nhất: tạo prototype bằng mô hình on-device rồi chỉ chuyển các tác vụ phức tạp sang mô hình đám mây
  • Điểm cốt lõi là khả năng hoán đổi nhà cung cấp - có thể chuyển giữa Apple, Claude và Gemini chỉ bằng cách thay dependency của Swift Package mà không cần đụng vào logic session
  • Gói này do Anthropic phát hành theo Apache 2.0, là ví dụ đầu tiên hoạt động thực tế cho ý tưởng "có thể kết nối với bất kỳ backend nào"
  • Yêu cầu đi trực tiếp từ ứng dụng tới Claude API và Apple không nằm trên đường đi, nên không thể thấy prompt hay phản hồi; chi phí cũng được tính trực tiếp vào tài khoản Anthropic

Vì sao điều này quan trọng

  • Trước đây, để gắn mô hình ngôn ngữ vào ứng dụng iOS, nhà phát triển phải đăng ký API đám mây riêng, quản lý key, trả phí theo token và gửi mọi prompt ra ngoài thiết bị; tại WWDC 2026, Apple đã giải quyết sự bất tiện kéo dài này
  • Framework Foundation Models được mở rộng để gọi toàn bộ mô hình on-device của Apple Intelligence, Private Cloud Compute và các đám mây bên thứ ba như Claude hay Gemini thông qua một API Swift native duy nhất
  • Anthropic đã công bố một gói Swift triển khai giao thức mới này, dùng để nhận chuyển tiếp từ mô hình on-device của Apple và gọi Claude xử lý các workflow phức tạp hơn

Những gì thay đổi với nhà phát triển

  • Chuyển đổi nhà cung cấp mà không cần sửa mã

    • Sau khi tạo prototype ứng dụng bằng mô hình on-device của Apple, nhà phát triển có thể định tuyến các truy vấn phức tạp sang Google Gemini hoặc Anthropic Claude, hoặc chuyển đổi giữa chúng, chỉ bằng cách cập nhật dependency trong Swift Package Manager mà không cần thay đổi logic session hay phần còn lại của ứng dụng
    • Mô hình on-device phù hợp cho các tác vụ nhanh và cục bộ như tóm tắt, trích xuất; chỉ khi cần suy luận nhiều bước, sinh mã, tìm kiếm web, thực thi mã mới handoff sang Claude
    • Trong cả hai trường hợp đều dùng cùng API LanguageModelSession, nên chỉ cần thay đối số model: là có thể chuyển đổi
  • Handoff dựa trên kiểu dữ liệu

    • Sau khi thêm vào dự án và đăng nhập bằng API key của Anthropic, có thể chuyển đầu ra có kiểu từ mô hình on-device của Apple sang yêu cầu Claude; gói sẽ xử lý streaming, gọi công cụ và phản hồi có cấu trúc để đưa trở lại SwiftUI view
    • Cách dùng đơn giản tới mức chỉ cần ba dòng mã để trả về giá trị Swift có kiểu thông qua việc tạo guide

Cấu trúc quyền riêng tư và chi phí

  • Yêu cầu được gửi trực tiếp từ ứng dụng tới Claude API nên Apple không có mặt trên đường truyền và không thể thấy prompt hay phản hồi
  • Mức sử dụng được tính trực tiếp vào tài khoản Anthropic theo giá API tiêu chuẩn
  • Ứng dụng tự quyết định theo từng session xem sẽ dùng Claude hay mô hình on-device của Apple

Bức tranh lớn hơn

  • Apple dự kiến mở nguồn framework Foundation Models vào mùa hè năm nay, đây là API Swift native cho các mô hình on-device ra mắt năm 2025; với giao thức LanguageModel mới, gần như mọi mô hình dù là của Apple hay nhà cung cấp từ xa đều có thể vận hành LanguageModelSession phía sau một API Swift duy nhất
  • Như một minh họa cho ý tưởng "có thể kết nối với bất kỳ backend nào", ClaudeForFoundationModels của Anthropic đã cụ thể hóa mẫu adapter
  • Với hệ thống Dynamic Profiles, Apple cho phép ứng dụng thay đổi mô hình, công cụ và chỉ dẫn ngay giữa một session, đồng thời định vị đây là nền tảng cho workflow đa tác tử
  • Tuy vậy, tích hợp này hiện vẫn ở giai đoạn beta, yêu cầu iOS, iPadOS, macOS, visionOS, watchOS 27 và Xcode 27, nên API vẫn có thể thay đổi trước khi phát hành chính thức

1 bình luận

 
Ý kiến trên Hacker News
  • Apple đang kiểm soát trải nghiệm người dùng trong khi biến LLM thành hàng hóa phổ thông
    Đúng kiểu một công ty phần cứng, chiến lược là tiếp tục bán những cỗ máy tốt nhất để dùng AI, và có vẻ đây là lựa chọn đúng đắn

    • Có lẽ cuối cùng Benedict Evans đã đúng. Mô hình frontier ngày càng giống các nhà mạng viễn thông thập niên 90
      Họ đổ hàng tỷ đô vào hạ tầng, nhưng giá trị lại rơi vào tay các công ty khác ở tầng phía trên
    • Hơi tách khỏi ý kiểm soát trải nghiệm người dùng, nhưng đây là kết quả tôi thích nhất của AI. Suốt hàng chục năm, các công ty xây tường quanh dịch vụ của họ và ép người dùng dùng UI tệ hại, nhưng trong 12 tháng qua đột nhiên mọi thứ đều có MCP và có thể dùng qua giao diện chat dòng lệnh
      Công ty nào không thích nghi thì sẽ bị các web scraper DIY chạy bằng AI do người dùng tạo ra đập cho tơi tả rồi cuối cùng cũng phải khuất phục
    • Tôi không chắc cách nói cỗ máy tốt nhất để dùng AI ở đây có đúng không. Chẳng phải các mô hình này vẫn chạy ở phía máy chủ sao
    • Việc AI cuối cùng sẽ được nhúng ở cấp hệ điều hành đã là điều rõ ràng từ vài năm trước. Apple cũng đã nhận ra điều đó ngay từ khi lần đầu công bố Apple Intelligence
      Những cách nói như biến LLM thành hàng hóa phổ thông có thể đúng, nhưng đây vốn đã là tính năng hướng tới người dùng mà họ mài giũa suốt nhiều năm
    • Giờ chỉ còn phải biến phần cứng thành hàng hóa phổ thông nữa thôi
  • Một gói Swift cho phép dùng Claude làm mô hình ngôn ngữ phía máy chủ trong Apple's Foundation Models framework à, tôi đã mong điều ngược lại. Tôi đã hy vọng các khả năng sẵn có của Claude Code bằng cách nào đó sẽ chạy cục bộ trên Neural Engine của laptop của tôi
    M2 với 8GB RAM thì đúng là mơ mộng hão huyền, nhưng cũng khiến tôi lóe lên chút hy vọng

    • Hãy xem phiên WWDC này. Tất nhiên nó không thể cạnh tranh với các mô hình frontier và 8GB cũng quá ít, nhưng Apple thực sự đã trình diễn MLX + OpenCode
      https://developer.apple.com/videos/play/wwdc2026/232/
      https://www.youtube.com/watch?v=wykPErJ8M-8
    • Nếu dùng OpenCode hay Pi với SSD streaming thì về mặt kỹ thuật có thể có đủ mọi tính năng. Chỉ là nó sẽ chậm đến mức không chịu nổi
    • Phần lớn mô hình coding frontier có vẻ cần khoảng 300GB đến 1TB nếu muốn dùng trọn vẹn mọi khả năng của chúng
    • Claude Code có thể được cấu hình qua biến môi trường để truy vấn đúng nghĩa là bất kỳ endpoint nào miễn có API tương thích
    • Nếu cloud thực sự là iCloud riêng tư của người dùng thì nghe có vẻ ổn. Nếu người dùng trả tiền và nó chạy gần các máy chủ Apple vốn đã lưu iPhotos thì đó có thể là một lời giải rất thanh lịch
      Nhưng trên thực tế thứ bạn nhận được là Claude, thậm chí không biết được nó được host ở đâu. Có thể là trung tâm dữ liệu X-AI, có thể là ở đâu đó trên Amazon, không ai biết cả
  • Đây không chỉ dành riêng cho Claude. Các nhà phát triển cũng có thể làm ứng dụng gọi mô hình Gemini chạy trên máy chủ của Google
    Tại WWDC, Apple công bố sẽ mở Foundation Models framework cho các nhà cung cấp mô hình cloud bên thứ ba. Bắt đầu từ iOS 27, macOS 27, iPadOS 27, visionOS 27 và watchOS 27, các nhà cung cấp mô hình có thể triển khai LanguageModel protocol công khai mới để cung cấp giao diện chung cho suy luận mô hình. Google đã cho phép dùng mô hình Gemini trong Foundation Models framework thông qua Firebase Apple SDK
    Điều này cho phép trải nghiệm phát triển native hoàn chỉnh. Các mô hình Gemini được host trên cloud có thể kết nối trực tiếp vào Foundation Models framework qua cùng API, và vì mô hình Apple trên thiết bị lẫn mô hình Gemini trên cloud đều nằm sau cùng một bề mặt API chung, nên có thể dễ dàng chuyển giữa suy luận cục bộ và suy luận trên cloud tùy theo trường hợp sử dụng
    https://blog.google/innovation-and-ai/technology/developers-...

    • Điểm mấu chốt là Apple đã đổi tên API tương thích OpenAI thành language model protocol, và trước khi bị nguyền rủa bởi cụm từ dài khủng khiếp đó thì mọi người nên nhanh chóng tập hợp về phía này
  • Mừng vì Apple đã đưa vào kiểu trừu tượng hóa này, nhưng mối lo chính lại nằm ở phía mô hình cục bộ
    Ví dụ, kể cả khi muốn dùng Gemma4, từ góc nhìn người dùng thì nếu 10 ứng dụng mỗi ứng dụng tự tải cùng một mô hình, điện thoại sẽ bị phình to không cần thiết
    Tôi vẫn chưa hiểu liệu Apple có cung cấp cách để nhiều ứng dụng dùng chung cùng một mô hình trên thiết bị hay không. Việc này phải làm được mà không cần các mẹo namespace hay quyền hạn rắc rối
    Tôi chưa thấy nội dung nào gợi ý điều đó

    • Tôi nghĩ đó chính là điều Apple đang muốn tránh. Nếu cần trí tuệ trên thiết bị thì họ đang đề xuất kiểu “mô hình tốt nhất là mô hình đã có sẵn trên thiết bị”, còn nếu cần thứ gì cụ thể hơn thì adapter, tức fine-tuning/LoRA, là lựa chọn tối ưu
      Khi các mô hình trên thiết bị còn tụt hậu khá xa thì quan điểm này là sai, nhưng về dài hạn thì có thể vẫn đúng
      Nhiều ứng dụng tôi dùng có thể cùng cần Gemma 4 E4B, nhưng tôi dùng đến hàng chục ứng dụng và các nhà phát triển thì có thể chọn từ hàng trăm mô hình. Cache dùng chung có thể giúp giảm dung lượng đôi chút ở những chỗ bị chồng lặp, nhưng vấn đề cốt lõi vẫn còn. Nếu mỗi ứng dụng tự chọn mô hình thì đĩa và việc hoán đổi bộ nhớ sẽ bùng nổ
      Có khả năng nhà sản xuất thiết bị nhúng sẵn một mặc định sẽ tốt hơn nhiều. Không phải là nên cấm dùng mô hình khác, nhưng một mặc định dùng chung có thể là phương án tốt nhất cho cả trải nghiệm nhà phát triển lẫn người dùng trong 99% ứng dụng
      Trạng thái đã được nạp sẵn trong bộ nhớ vốn là cú tăng hiệu năng lớn nhất, và mô hình mặc định có khả năng được giữ ở trạng thái “ấm” cao hơn rất nhiều
      “Mô hình tốt nhất” thường là “mô hình tốt nhất cho thiết bị này” khi tính đến RAM và năng lực tính toán. Nhà phát triển không thể kiểm thử mọi thiết bị, nhưng Apple thì có thể và sẽ làm
      Mỗi mô hình đều phải được tối ưu cho phần cứng. Việc cái gì chạy trên ANE, Metal hay CPU rất quan trọng, và mô hình mặc định sẽ được tối ưu
      Nếu cần mô hình tùy biến thì LoRA có lẽ là lựa chọn tốt nhất. Nó chỉ khoảng 30MB và vẫn hưởng được toàn bộ các lợi thế ở trên
      Có thể nói nên cho phép thay thế mặc định, nhưng điều đó gần với lý tưởng kiểu Linux hơn là kiểu của Apple, nên khó biết liệu ta có thực sự thấy điều đó hay không. Hơn nữa còn có nhược điểm thực tế. Dù có chủ ý hay không, prompt thường được tối ưu cho mô hình mà nó được phát triển nhắm tới, nên nếu thay mô hình hệ thống mặc định thì chất lượng của mọi ứng dụng có thể giảm đi
    • Đây là cơ hội tốt để Apple cung cấp giao thức ID mô hình duy nhất dùng chung và không gian lưu trữ chia sẻ để các nhà phát triển đăng ký mô hình
    • Cứ xem “Bring an LLM provider to the Foundation Models framework” là rõ
      https://developer.apple.com/videos/play/wwdc2026/339
    • Các ứng dụng có thể dùng mô hình trên thiết bị do hệ thống cung cấp thông qua cùng một framework và API. Nhưng không có cơ chế loại bỏ trùng lặp giữa các mô hình tùy biến của các ứng dụng khác nhau
    • Đó chính là foundation models. AICore trên Android cũng tương tự, nội bộ dùng Gemma và để ứng dụng gửi truy vấn đến LLM rồi nhận phản hồi thay vì tự đóng gói mô hình riêng
  • Tôi tự hỏi có phải Apple đang khuyến khích các nhà phát triển dùng LLM thông qua lớp trừu tượng hóa API của riêng họ không. Có thể là để sau này khi họ tung ra LLM của chính mình thì nhà phát triển có thể chuyển đổi mượt mà
    Hình như tôi từng nghe nói Apple đang chi rất nhiều tiền cho huấn luyện, và việc đó bằng cách nào đó có thể liên quan đến Siri hoặc Apple AI hiện tại. Hoặc cũng có thể đây chỉ là tính năng tiện lợi cho nhà phát triển, nhưng tôi tò mò liệu còn ý đồ nào khác không

    • Apple có một số cơ chế khá thông minh để bảo vệ dữ liệu người dùng. Gần đây tôi phải làm việc liên quan đến theo dõi ứng dụng, và cách họ ẩn chi tiết người dùng trong các cohort đã được ẩn danh bằng SKAN và differential privacy trước khi báo cáo sự kiện theo dõi lên nền tảng bên thứ ba thực sự được thiết kế tốt hơn tôi tưởng
      Nếu coi trọng quyền riêng tư thì việc Apple đứng ở giữa có giá trị nhất định
    • Đây là hỗ trợ framework mới sẽ có trong reality/mac/iPad/watch/tv/iOS 27. Họ nói sẽ mã nguồn mở vào cuối năm nay, nên có vẻ cũng có thể tận dụng nếu triển khai Swift ở backend
      Điểm cốt lõi của framework này là với cùng một API, bạn có thể nhắm đến mô hình tích hợp trên thiết bị, mô hình trực tuyến do Apple lưu trữ là Private Cloud Computer, hoặc một shim tự viết để gọi bất kỳ mô hình trực tuyến nào được host ở đâu đó
      Nhờ vậy, thay vì phải tự tạo một lớp trừu tượng hóa kiểu “cái này dùng mô hình cục bộ, cái kia dùng Claude”, hay tự tích hợp trực tiếp API Anthropic/OpenAI, bạn có thể dùng API hệ thống để định tuyến động lời gọi sang các kiểu mô hình/nhà cung cấp khác nhau
      Việc trừu tượng hóa những thứ như gọi công cụ vào một chỗ, rồi vẫn tiếp tục cùng một transcript ngay cả khi đổi nhà cung cấp hay mô hình động trong suốt phiên, v.v. là những điểm tiện lợi và khác biệt khá thú vị
    • Nếu nhìn một cách hoài nghi, hoặc thực tế, thì lớp trừu tượng hóa này giống như cách Apple khiến người dùng ghi công tính năng đó cho Apple Intelligence, dù LLM thực tế có thể do công ty khác cung cấp
    • Đây là một cách diễn giải hơi u ám, nhưng cũng không hoàn toàn vô lý. Apple sẽ dễ thu tiền hơn từ các mô hình do công ty khác cung cấp, và nếu muốn thì họ cũng có thể thu thập dữ liệu về cách người dùng sử dụng mô hình bên thứ ba để tạo bộ dữ liệu huấn luyện cho mô hình của riêng mình
      API này chỉ dùng được trên thiết bị Apple, nên để làm cho nó hoạt động đúng trên iOS, nhà phát triển sẽ bị buộc phải chia nhỏ thị trường bằng cách không thể dùng cùng một hệ thống đó ở nơi khác, và người dùng cũng bị khóa chặt hơn vào hệ sinh thái
    • Thông qua framework này, đã có mô hình trên thiết bị mà nhà phát triển có thể dùng sẵn. Claude chỉ là một mô hình được bổ sung thêm vào đó
  • Có vẻ Apple đang chuẩn bị cho việc mô hình trên thiết bị của họ sẽ tốt hơn, và xét việc đã có thể truy cập Gemini thì điều này cũng hợp lý.
    Nếu các nhà phát triển đều viết phần gọi LLM bên ngoài theo cách này, thì khi mô hình của Apple trở nên mạnh hơn và bao phủ nhiều trường hợp sử dụng hơn, họ có thể dễ dàng thay thế tại từng điểm gọi riêng lẻ. Khi đó trải nghiệm người dùng của ứng dụng sẽ tốt hơn, đồng thời giảm cả chi phí lập hóa đơn cho nhà phát triển mà Apple không thu được hoa hồng

    • Nói cách khác là vì không kiếm ra tiền nên khả năng chuyện đó xảy ra là thấp. Apple có lẽ sẽ thích tạo ra các gói AIAI-lite mới để mọi người đăng ký hơn.
      Apple là một công ty, và ai cũng biết công ty quan tâm điều gì, nên viễn cảnh không tưởng nơi mô hình cục bộ chạy trên điện thoại có vẻ khó xảy ra
    • Tôi không hiểu dùng Gemini thì giúp mô hình trên thiết bị tốt hơn bằng cách nào
    • Trải nghiệm người dùng chỉ là cách nói khác của việc xây dựng hệ sinh thái, và đó là điều Apple làm giỏi hơn đối thủ nhất. Việc họ còn có cả phần cứng phù hợp với điều đó cũng không hề là bất lợi.
      Đâu phải ngẫu nhiên mà Microsoft và Nvidia bắt tay với nhau
  • Tôi tò mò không biết trên thực tế người ta sẽ dùng cái này thế nào trong phần mềm triển khai cho người dùng. Bắt người dùng tự tạo rồi nhập khóa API trực tiếp là một rào cản quá lớn đối với trải nghiệm người dùng tốt

    • Rào cản lớn hơn là khiến người dùng phổ thông, tức những người không phải nhà phát triển, chấp nhận được định giá theo token.
      Cấu trúc kiểu “trả tiền cho thứ mà bạn không biết mỗi câu hỏi sẽ tốn bao nhiêu, có thể vẫn không nhận được câu trả lời mình muốn, và nếu muốn dùng thêm thì phải trả thêm tiền” không hấp dẫn với đa số mọi người trừ dân cờ bạc. Việc giải thích rằng một câu “cảm ơn” ở cuối đoạn hội thoại dài có thể tốn kém vì ngữ cảnh còn khó chấp nhận hơn với người dùng bình thường.
      Chi phí token lúc tăng lúc giảm như yo-yo cũng chẳng giúp ích gì. Người dùng phổ thông cần chi phí cố định và không muốn tốn năng lượng để liên tục theo dõi diễn biến của AI. Những vấn đề kiểu “tháng trước gói đăng ký của tôi dùng được lâu hơn nhiều” cũng không phải hướng đi tốt.
      Trong đa số trường hợp, tôi nghĩ nhận định của Apple rằng LLM cục bộ là tương lai là đúng
    • Đúng là vậy. Tôi đang vận hành allihat.com, và có vẻ đó vẫn là tiện ích mở rộng Safari duy nhất giao tiếp với Claude, nhu cầu cũng khá ổn. Nhưng người dùng phải tự nhập cái khóa API Claude chết tiệt của họ.
      Tôi cũng vẫn chưa hiểu hoàn toàn điều khoản của Anthropic. Có thể nhập kiểu setup-token Set up a long-lived authentication token (requires Claude subscription), nhưng trông như một cái bẫy. Tôi không biết ai dùng cái này, và có cảm giác cứ dùng ở đâu là vi phạm điều khoản ngay lập tức.
      Hiện tại trên allihat.com, nếu không muốn dùng khóa Claude thì người dùng có thể dùng mô hình Apple cục bộ, và tỷ lệ chuyển đổi sang người dùng trả phí đã tăng khoảng 3 lần. Nhưng dĩ nhiên nó không phải vật thay thế cho Claude. Tôi từng hy vọng Apple sẽ tạo ra một cơ chế nào đó để họ đứng ra làm proxy cho Claude thay. Như vậy tôi cũng không cần phải proxy qua máy chủ của mình chỉ để quản lý mức sử dụng API Claude
    • Trong production thì có ghi là hãy định tuyến yêu cầu qua backend của bạn bằng .proxied
      Apple đang cung cấp miễn phí các mô hình AI qua máy chủ của họ cho các nhà phát triển có dưới 2 triệu lượt tải https://techcrunch.com/2026/06/08/apple-bets-cheaper-ai-will...
    • Vẫn là cách cũ thôi: proxy các yêu cầu qua backend riêng của bạn
    • Không phải người dùng đưa API key. Tài liệu có hướng dẫn cách thiết lập backend proxy
  • Tôi hiểu câu “các yêu cầu đi trực tiếp từ ứng dụng tới Claude API, Apple không nằm trên đường đi và không nhìn thấy prompt hay phản hồi” là từ góc nhìn của nhà phát triển.
    Nhưng từ góc nhìn người tiêu dùng thì đúng là buồn cười

    • Tại sao?
  • Microsoft đã tự phá ván cờ từ trước khi đưa vào điều khoản Copilot rằng “Copilot chỉ được cung cấp cho mục đích giải trí”, rồi còn thêm cảnh báo cho Copilot trong Excel là “hãy tránh dùng COPILOT cho các tác vụ đòi hỏi độ chính xác hoặc khả năng tái lập, hoặc có tác động pháp lý, quy định hay tuân thủ”.
    Sau đó Apple âm thầm từ chối tham gia bằng cách không đầu tư hàng tỷ đến hàng trăm tỷ đô để làm LLM cạnh tranh. Dĩ nhiên họ vẫn bán lại Claude hoặc tận dụng Gemini cho những người nhẹ dạ, nhưng Apple hiểu rõ tình hình.
    https://www.microsoft.com/en-us/microsoft-copilot/for-indivi...
    https://support.microsoft.com/en-US/Excel/copilot-function

  • Bản thân coding agent vốn đã là một lớp bị ép chồng lên, giờ lại định thêm một lớp nữa sao. Coding agent nhiều khi giống quản lý vendor của các công ty môi giới nhân sự thập niên 90.
    Hứa với khách hàng mọi thứ trên đời, rồi thúc ép các contractor tội nghiệp giao hàng. Coding agent ngốn token gấp 10 lần, giống như khoản chênh lệch giữa số tiền công ty môi giới tính cho khách và số họ trả cho contractor. Một phép thử đơn giản là có những tác vụ vượt quá độ dài ngữ cảnh nếu đi qua coding agent, nhưng nếu prompt trực tiếp thì mô hình xử lý được bình thường.
    Các lớp trung gian là thứ xa xỉ, và chúng làm mất kiểm soát cũng như tính minh bạch

    • Nếu làm coding agent thì tôi sẽ không dùng cái này