OpenAI Apps SDK

(developers.openai.com)

1 điểm bởi GN⁺ 2025-10-07 | 1 bình luận | Chia sẻ qua WhatsApp

OpenAI đã công bố Apps SDK, một framework hỗ trợ phát triển các ứng dụng hoạt động bên trong ChatGPT
SDK này cung cấp môi trường để các nhà phát triển tạo ứng dụng mới chạy trong ChatGPT và tự do thử nghiệm các tính năng mang tính thử nghiệm
Apps SDK hiện được cung cấp dưới dạng bản preview và việc gửi ứng dụng cũng như phát hành chính thức dự kiến sẽ diễn ra vào cuối năm nay
Framework này mở ra khả năng mở rộng của nền tảng ChatGPT và cơ hội phát triển ứng dụng tùy biến, qua đó cho phép tích hợp và tự động hóa với nhiều phần mềm và dịch vụ khác nhau
Việc mở rộng hệ sinh thái phát triển được kỳ vọng sẽ thúc đẩy nâng cao năng suất và tạo ra các dịch vụ đổi mới

1 bình luận

GN⁺ 2025-10-07

Ý kiến Hacker News

Thật thú vị khi ChatGPT đang dần trở thành điểm khởi đầu cho việc duyệt web; giờ đây thậm chí không cần phải tìm kiếm nữa, mà sẽ có sẵn các quy trình như bản đồ cơ bản, thanh toán Stripe, đặt vé máy bay, v.v., bao phủ phần lớn các tác vụ thường nhật mà mọi người làm hằng ngày
Trong 2 năm qua, nút thắt lớn nhất của tiến bộ này không phải là mô hình mà là kỹ thuật, hạ tầng, và ý chí của các công ty trong việc hợp tác trực tiếp với OpenAI
Giờ đây khi OpenAI phát triển và cơ sở người dùng ngày càng lớn, các công ty muốn đầu tư hoặc tham gia chủ động hơn rất nhiều
Sự thay đổi này không chỉ ảnh hưởng đến cách con người dùng internet theo hướng lấy người dùng làm trung tâm, mà còn có thể dẫn đến việc nếu xuất hiện thêm nhiều công cụ dựa trên SDK, quy trình làm việc của con người sẽ tách thành lưu lượng đi qua chatbot, và một web mới được tối ưu cho SEO cũng như cho chat/agent
- Có lẽ cũng sẽ có nhiều người như tôi không muốn dùng AI
  Đặc biệt trong việc mua vé máy bay, không phải vì tôi không tin AI sẽ không mắc lỗi, mà vì tôi muốn tự mình chủ động xử lý
  Có thể ví như việc dù biết lái xe nguy hiểm hơn đi máy bay, ta vẫn cảm thấy lái xe an toàn hơn
  Cuối cùng thì quyền kiểm soát của bản thân mới là điều quan trọng
- Tôi không hiểu vì sao lại phải cố nhét ứng dụng vào trong một khung chat, hiển thị theo một định dạng kỳ lạ, rồi cuối cùng vẫn dẫn link sang ứng dụng thật
  Thà đưa khung chat vào trong ứng dụng mới là cách làm tiêu chuẩn hơn
- Tôi nghĩ nếu có một công ty kiểm soát, lọc và quản lý toàn bộ việc sử dụng internet thì ý nghĩa của internet sẽ biến mất
  Dĩ nhiên tôi hiểu lập luận rằng Google cũng tương tự, nhưng ít nhất qua tìm kiếm Google người ta vẫn có thể đi tới website thật
  Cấu trúc trao đổi qua lại kiểu “trò chơi truyền tin” thông qua ChatGPT thật sự quá kinh khủng
- Cũng như tôi hoàn toàn không có ý định giao việc mua sắm cho trợ lý giọng nói, tôi tuyệt đối không thể giao các quyết định quan trọng cho LLM
  Tôi thậm chí không thể tưởng tượng nổi việc giao quyền thanh toán thẻ tín dụng hay đặt vé máy bay cho nó
- OpenAI đã có cơ hội này từ khi số người dùng bùng nổ, nhưng trên thực tế họ đã không tận dụng tốt bằng plugin và GPTs
  Trớ trêu thay, MCP của Anthropic có thể lại là game changer trong lĩnh vực này
Nếu tin rằng ChatGPT sẽ trở thành giao diện người dùng phổ dụng của tương lai thì ý tưởng này nghe có vẻ hợp lý
Nhưng trên thực tế, xu hướng agent gần đây lại cho thấy tốt hơn là nên giấu giao diện chat phía sau một mô hình UI chặt chẽ hơn
- Tôi nghĩ có rất nhiều lĩnh vực mà chat có thể là một giao diện tuyệt vời
  Nếu ChatGPT trở thành kênh phân phối của những lĩnh vực này thì nó có thể thay thế Google
  Dù vậy, với các miền chuyên biệt thì giao diện được tùy biến riêng mới là cách tiếp cận đúng, và nếu lĩnh vực đó đủ giá trị thì chắc chắn sẽ có người xây dựng giao diện chuyên dụng
- Trường hợp sử dụng chính của agent hiện nay là tạo mã, và người dùng mục tiêu vốn đã quen với IDE hoặc trình soạn thảo mã
  Dù chiếm tỷ trọng lớn trong mức tiêu thụ token, điều này không đại diện cho nhu cầu hay mong muốn của người dùng phổ thông
  Tôi tin chắc giao diện chat trở nên phổ biến đến vậy là vì bản thân nó có những ưu điểm riêng
  Ngay cả trong các trường hợp dùng agent nói chung, chat vẫn mang lại sự tiện lợi của nhập liệu bằng bàn phím hoặc giọng nói
  Việc dùng audio-to-audio hay video cũng có thể kết hợp dễ dàng
  Ngay cả khi sau này việc tạo video theo thời gian thực trở nên khả thi, phần lớn kết quả vẫn sẽ tiện để tiêu thụ dưới dạng văn bản hơn
- Tôi không nghĩ mọi người sẽ muốn bảo chatGPT liên hệ Zillow hay Canva thay mình
  Họ có thể nhờ tra giá nhà trên Zillow hoặc tạo đồ họa bằng Canva, nhưng không đến mức cảm thấy cần phải gọi đích danh ứng dụng đó
  Rốt cuộc nếu các ứng dụng cứ phụ thuộc vào ChatGPT để chuyển người dùng sang, thì ChatGPT sẽ buộc phải trực tiếp cung cấp chức năng và thay thế ứng dụng
  Nói cách khác, nếu phơi bày dịch vụ của mình cho ChatGPT với suy nghĩ chat là giao diện vạn năng, thì chẳng khác nào tự làm khó khả năng sinh tồn của chính mình
- Tôi nghĩ giao diện giọng nói và chat là một tổ hợp thực sự tốt, ví dụ khi đang đi bộ mà dùng giọng nói để học ngoại ngữ hoặc tìm kiếm trên web thì rất hữu ích
  Dạng ứng dụng ghi chú như NotebookLM tôi cũng dùng một hai lần mỗi tuần
  Có thể làm rất nhiều thử nghiệm như gắn một mô hình mở nhỏ vào một hệ thống lớn hơn để trích xuất dữ liệu có cấu trúc
  Tôi vẫn hoài nghi về tính hữu ích thực tế của các hệ thống agentic hiện nay (MCP, v.v.)
  Dù sao thì cũng may là hôm nay không ai nói đến AGI
  Nếu cứ bám vào ảo tưởng ASI, AGI vì FOMO thì có khi chỉ còn con đường phá sản
- Giao diện của tương lai là AI cục bộ được tích hợp trong phần cứng với các chức năng được học từ dataset
  Là một EE và làm trong lĩnh vực energy model, khi nghĩ đến các đặc tính hình học của oscilloscope, ta có thể thấy các phương trình có thể khôi phục cấu trúc đó
  Người dùng có thể dễ dàng đạt được kết quả mong muốn thông qua UI tham số
  OS thời nay là một máy ảo để xử lý chuỗi, nhưng tương lai sẽ là máy ảo vector thao tác trên tọa độ
  Bằng cách đơn giản hóa thành việc đồng bộ ma trận bộ nhớ và ma trận hiển thị, trong tương lai lập trình viên sẽ thoát khỏi kiểu xử lý chuỗi lỗi thời
Khi nhìn sản phẩm thực tế thì nó không cách mạng như tưởng tượng
Các “ứng dụng” thực chất chỉ là máy chủ MCP, khác mỗi ở tùy chọn có thể trả về HTML
Vấn đề gốc rễ của MCP là tính đơn người chơi, người dùng luôn phải “kéo về” (pull), và cấu trúc kết nối lại kém trực quan hơn mở ứng dụng
Lý tưởng thì mỗi ứng dụng nên có điểm vào riêng, có thể gửi thông báo đẩy cho người dùng, và có tính liên tục trong UI
Giao diện chính cũng nên là HTML chứ không phải chat
Tôi đoán lần này sẽ có kết cục giống GPTs
- MCP đã có sẵn một đặc tả gọi là “elicitation”, và nhờ tính năng này tôi nghĩ OpenAI đang đặt nền móng để sớm hỗ trợ tương tác kiểu push
  Nếu dịch vụ chủ động gắn kết người dùng với LLM một cách liên tục, máy chủ MCP sẽ có độ bám dính thực sự mạnh
  Quy trình cài đặt/xác thực cũng sẽ dần dễ hơn theo nhu cầu dành cho người không chuyên
Khi làm Phind 2, tôi nhớ đã từng trực tiếp chèn widget động vào câu trả lời nên thấy điều này khá thú vị
Điểm yếu của cách này là schema đầu vào và đầu ra của app/widget bị hardcode
Trong phạm vi của widget thì nó hoạt động rất tốt, nhưng nếu muốn dùng các bộ lọc nâng cao đặc thù của Zillow hoặc tích hợp với StreetEasy thì sẽ nhanh chóng cảm nhận được giới hạn
Lúc đó từ góc nhìn người dùng, nếu thiếu chức năng nâng cao thì đơn giản là không dùng được
Điều tôi cho là thực sự đột phá là “UI được tạo tức thời”
Sắp tới Phind sẽ có cập nhật về phần này (tôi là nhà sáng lập Phind)
- Phind thực sự rất tốt
  Ngày trước, khi đã chán các công cụ tìm kiếm truyền thống như Google chỉ ném ra kết quả lạc đề, tôi thường nhanh chóng tìm được thông tin mình muốn bằng Phind
  Nhưng gần đây thì bản thân LLM cũng tìm kiếm rất tốt nên dạo này tôi chỉ dùng LLM
- Việc đã có sẵn các dự án MCP-UI cho thấy khả năng này không có gì quá bất ngờ
  Nhưng vẫn cần cải thiện vì tốc độ hiện tại còn quá chậm để dùng thực tế
- Tôi cũng đang cân nhắc làm thứ tương tự cho sản phẩm của chúng tôi, và như một cách giải quyết ràng buộc schema, tôi đang nghĩ tới việc thiết kế widget thành các khối càng đa dụng càng tốt để tăng khả năng tái sử dụng
  Mới chỉ ở giai đoạn ý tưởng, nhưng tôi đang nghĩ liệu có thể để mô hình chọn và kết hợp giữa nhiều widget mô-đun theo từng tác vụ hay không
  Ví dụ chia kết quả tìm kiếm thành mục đơn lẻ, so sánh dạng ma trận, phần lọc, v.v., rồi nghiên cứu để có thể xử lý theo nhiều cách khác nhau trong cùng một phiên khi ngữ cảnh thay đổi
  Nếu Phind có bài viết nào về trải nghiệm thực tế kiểu này thì tôi rất muốn tham khảo
- Tôi nghĩ các giới hạn này sẽ được giải quyết khi chat kết hợp với widget dựng sẵn hoặc widget on-demand
  Trong demo keynote, giao diện chat đã có thể thực hiện lọc nâng cao như chỉ lọc những căn nhà trên Zillow gần công viên cho thú cưng bằng cách tổng hợp thông tin từ nhiều nguồn
- Có thể giải quyết vấn đề này bằng MCP
  Có thể cập nhật động schema của máy chủ MCP mà không cần đụng vào ứng dụng
  Ứng dụng sẽ tự động nhận diện schema mới
Lần công bố này của OpenAI lẽ ra là cơ hội để tạo ra thứ gì đó thực sự mới, nhưng tiếc là họ dường như chỉ dừng ở việc chèn cố định màn hình ứng dụng cũ vào chat
Thế mạnh thực sự là khi người dùng mô tả tác vụ, AI sẽ tự xác định cần công cụ nào rồi tự phối hợp, sau đó hiển thị kết quả dưới dạng workflow hoặc canvas mà người dùng có thể chỉnh sửa
Các framework như LlamaIndex Workflow hay LangGraph đã giúp triển khai thủ công các đồ thị này (workflow-DAG) bằng Python, nhưng nếu LLM có thể tạo những DAG như vậy theo thời gian thực thì sẽ thực sự rất mạnh
LLM vốn đã tạo mã UI tốt và tuân thủ tốt design system, nên không có lý do gì phải hardcode màn hình
Tôi hy vọng Google sẽ không đi theo con đường này
Gần đây có một bài viết nói về việc giao diện chat đã ăn sâu đến mức nào trong nội bộ OpenAI, và lần công bố này càng làm tôi cảm nhận rõ sự ám ảnh đó
Câu hỏi thực sự là “liệu đa số người dùng có thật sự thích chỉ giao tiếp bằng hội thoại hơn là bằng yếu tố trực quan không”
Đặc biệt việc phải nhớ tên nhiều ứng dụng (như Zillow, v.v.) để gõ vào chat, cùng khả năng xuất hiện chiến lược thu phí kiểu quảng cáo hay “ưu tiên hiển thị (app discovery)”, khiến tôi thấy rất khó chịu
Cá nhân tôi hy vọng tương lai như vậy sẽ không xảy ra
- Cảm giác như đang tranh luận lại xem GUI và terminal (hoặc CLI) cái nào mạnh hơn
  Với nhiều tác vụ phù hợp với luồng token, dòng lệnh hoặc chat có thể vượt trội hơn
  Cũng có thể sẽ xuất hiện những thứ như tính năng tự động hoàn thành bằng phím tab để gọi nhanh bot hay MCP…
  Ngược lại, với việc khám phá nội dung mới hoặc những trường hợp cần tương tác đồ họa, giao diện trực quan, chuyên dụng sẽ trực quan hơn rất nhiều
  Cuối cùng, tôi nghĩ một sự pha trộn và trừu tượng hóa phù hợp giữa nhiều kiểu UI sẽ trở thành chuẩn mực tùy theo tác vụ
- Tôi nghĩ việc quá tập trung vào giao diện chat thực chất làm giảm khả năng tận dụng LLM
  Ngay cả việc giải thích cho người không chuyên cách mà ảo giác về tính liên tục của cuộc trò chuyện được tạo ra như thế nào (quản lý ngữ cảnh, cấu trúc các prompt trước bị rơi khỏi bộ nhớ, v.v.) cũng đã rất khó
  Lời khuyên tôi thường đưa cho bạn bè không chuyên là “mỗi prompt thì bắt đầu một cuộc trò chuyện mới”
  Làm vậy mới dễ xác định rõ cái gì hiệu quả
  Tôi từng kỳ vọng Apple sẽ dẫn dắt đổi mới UX, nhưng có vẻ vẫn chưa làm được
- Nếu phản biện lại thì, tôi biết rất nhiều người chỉ đơn giản gõ “zillow” vào Google để vào Zillow, nên việc nhập tên ứng dụng vào chat có lẽ cũng không hẳn vô lý
Dù có nhiều phản ứng tiêu cực, cá nhân tôi thấy hướng đi của OpenAI là quá hiển nhiên
Cuối cùng, người dùng chỉ cần nói điều mình muốn và OAI sẽ tự kết nối với các ứng dụng (email, lịch, thanh toán, v.v.) để xử lý
Theo cách này, OAI chỉ cần chia sẻ doanh thu mà không cần quảng cáo
- Nếu tin rằng ứng dụng email và lịch sẽ tạo ra doanh thu lớn lao thì hẳn nhà đầu tư sẽ bị sốc
- Nói là sẽ không có quảng cáo thì sai rồi
  Quảng cáo sẽ được giấu cực kỳ khéo léo, dưới dạng các mẹo hữu ích hay tương tự như vậy
- Chắc chắn OpenAI sẽ nhắm cả hai thứ (chia sẻ doanh thu và quảng cáo)
  Họ đã có đội ngũ quảng cáo, lại có đủ vốn nên sẽ cố thử mọi mô hình kinh doanh có thể mở rộng
  App Store, feed thuật toán và mọi mô hình từng thành công trong lịch sử đều sẽ được đem ra thử
- Muốn trở thành nền tảng thì phải có lock-in người dùng hoặc lợi thế không công bằng
  Chỉ chất lượng mô hình vượt trội thôi là không đủ
Cho đến giờ tôi vẫn chưa thấy cách làm này thực sự cải thiện được điều gì
Có người nhắc đến tích hợp Spotify, nhưng đó là việc mà các trợ lý đời cũ cũng đã làm được
Trông giống như chỉ đang làm lại đúng việc cũ nhưng với chi phí đắt hơn rất nhiều
Cuối cùng mọi người rồi cũng sẽ đổ ứng dụng miễn phí vào hệ sinh thái công cụ của OpenAI
Xu hướng này củng cố khả năng phòng thủ của OpenAI và hy sinh những cơ hội khác
- Những ngày đầu iPhone chỉ có 6 ứng dụng, thậm chí còn chưa có App Store
  Tính đến năm 2024, App Store trên iOS đã tạo ra doanh thu 1,3 nghìn tỷ USD, trong đó 85% thuộc về nhà phát triển
- Tôi tò mò không biết “moat” của OpenAI là gì
- Thực ra luồng này không hề vô lý
  Không có lý do gì mà dữ liệu thời gian thực và hành động MCP lại mất đi khả năng giúp ích thực sự cho người dùng
  Việc kết nối ứng dụng có thể cần xác thực, nhưng nếu không có thanh toán thì đây là một kênh phân phối khổng lồ
Lần công bố này là một thử nghiệm thú vị về mặt branding
Gọi MCP là “ứng dụng” tạo cảm giác quen thuộc và dễ dùng hơn, còn gọi là tool/server/công cụ thì nghe quá kỹ thuật
Việc bổ sung demo với Expedia, Spotify cũng tạo cảm giác rằng MCP sắp có thể dùng ngay lập tức với người dùng
- Rốt cuộc thứ được công bố lần này là các máy chủ MCP mà ChatGPT có thể dùng

OpenAI Apps SDK

Bài viết liên quan

1 bình luận

Ý kiến Hacker News