4 điểm bởi kokogo 2026-02-19 | 5 bình luận | Chia sẻ qua WhatsApp

Hiện tại tôi đã phát triển một tính năng cung cấp bằng MCP (Model Context Protocol) dịch vụ thu thập tin tức/thông tin của 32 quốc gia cùng ảnh chụp nhanh hằng ngày của các thị trường chính (Mỹ, Nhật, Anh, Hàn Quốc) và thị trường coin/hợp đồng tương lai. Hiện tôi đang dựa trên đó để phát triển một chương trình đầu tư có khả năng hoạt động linh hoạt tương tự OpenClaw.

Có hai điểm mà tôi đang băn khoăn.

  1. Sự cùng tồn tại của 'mức độ tự do' của AI và UI frontend
    Tôi đang triển khai theo hướng vẫn cung cấp sẵn UI và các tính năng cố định như phần mềm truyền thống, nhưng đồng thời API hóa từng chức năng để IDE hoặc AI có thể hiểu và điều khiển chúng một cách hoàn toàn. Cuối cùng, tôi cho rằng phát triển phần mềm trong tương lai sẽ tập trung vào việc AI có thể mở rộng và thực thi chức năng một cách tự do đến mức nào, tức là vào 'mức độ tự do của AI'. Tôi rất muốn nghe ý kiến của mọi người về điều này.

  2. Sự thay đổi của trải nghiệm người dùng: thời đại của “làm cái này đi”
    Trong tương lai, người dùng sẽ muốn đạt được kết quả mong muốn chỉ bằng những mệnh lệnh đơn giản như “làm cái này đi”. Thậm chí ngay cả với những chức năng mà nhà phát triển chưa định nghĩa sẵn, tôi cho rằng AI cũng phải tự tìm kiếm trên internet hoặc viết mã để đáp ứng nhu cầu của người dùng. (Ví dụ: ngay cả là một chương trình pháp lý thì nếu người dùng muốn, nó cũng nên hỗ trợ đến mức giúp đặt vé máy bay.)

Nếu công nghệ phải mang lại cho người dùng mức tiện lợi tối đa, thì chúng ta — những nhà phát triển — nên cân nhắc 'khả năng mở rộng mở' thay vì 'tính năng đóng' đến mức nào? Sự xuất hiện của các agent như OpenClaw đang khiến tôi suy nghĩ rất nhiều dạo gần đây.

5 bình luận

 
pjoonmo79 2026-04-05

Tôi đang thử nghiệm trường hợp số 1
Kết quả là khi những trải nghiệm thất bại chồng chất lên, nó bắt đầu tự đặt ra các ràng buộc cho chính mình

 
pjoonmo79 2026-04-05

Tham khảo thêm thì hiện tại tôi đang ở giai đoạn tận dụng hiện tượng hallucination như một công cụ tìm kiếm kênh đi qua.

 
runableapp 2026-03-27
  1. Vì UI và API trong đa số trường hợp vốn đã được tách ra thành các cấu trúc riêng, nên tôi nghĩ ngay cả khi sau này chuyển sang lấy AI làm trung tâm thì cũng sẽ không có khó khăn gì quá lớn ở điểm này. Việc mở rộng chức năng thì tôi cho rằng còn tùy vào góc nhìn --
    (a) mở rộng thêm chức năng của ứng dụng hiện có
    (b) kết hợp API của nhiều dịch vụ vốn do 'con người' thực hiện để mở rộng chức năng

Với (a), hiện tại tôi vẫn chưa đủ tin tưởng để giao cho AI tự do mở rộng chức năng theo ý nó.
Với (b), vì đây là thứ có kiểm soát nên ít ra vẫn ổn hơn một chút.

  1. Bản thân kiểu "làm cái này cho tôi" thì, từ góc độ người tiêu dùng, về lâu dài tôi cũng mong cuối cùng nó sẽ thành như vậy (giống phim Her), nhưng nhìn vào nhiều trường hợp thì hiện giờ vẫn còn bất an nếu để nó tự do làm theo ý mình.

Tuy nhiên, tôi tuyệt đối không nghĩ chuyện 'một chương trình pháp lý đi đặt vé máy bay' là đúng. Khi đó nó không còn là chương trình pháp lý nữa, mà sẽ trở thành một Her OS đa dụng. Cũng giống như việc tổ chức và trách nhiệm của con người được phân chia đều có lý do, tôi nghĩ lập trình/kiến trúc cũng được phân chia như vậy vì có lý do tương tự. Ý tưởng là để hệ thống thực sự hiểu điều tôi muốn rồi tự xử lý mọi việc theo đúng sở thích của tôi, điều đó có vẻ khá giống câu chuyện về digital clone.

"Làm cái này cho tôi" là kiểu như một trợ lý cá nhân đã hiểu tôi trong thời gian dài, nên dù tôi không nói cụ thể chi tiết (như kiểu spec-driven đang được nhắc tới rất nhiều hiện nay) thì vẫn làm được. Nhưng để làm vậy, nó phải trải qua quá trình quét mọi thứ về tôi, tích lũy kiến thức và ghi nhớ, rồi cuối cùng vẫn sẽ phát sinh sai sót (trong Her cũng có cảnh lúc thiết lập ban đầu hệ thống kiểm tra email và toàn bộ dữ liệu của người dùng) -- vấn đề là nó phải nhận ra và lọc bỏ những sai sót đó tốt đến mức nào, hoặc phải biết cách sửa những sai sót ấy, mà hiện giờ thì có vẻ vẫn còn xa lắm. Nếu từng giao việc cho người khác, bạn sẽ hiểu: ngay cả những người đã làm việc cùng mình 10 hay 20 năm cũng không phải lúc nào hiểu chính xác ý định của mình; hoặc có những người thiếu tinh ý thì cứ tiếp tục không hiểu và tiếp tục mắc lỗi... Con người còn như vậy, nên tôi nghĩ trước tiên phải kéo những AI như momento, lại còn không có trách nhiệm, lên được ít nhất đến mức đó của con người đã.

Tôi cũng hy vọng có thể đi theo hướng khả năng mở rộng linh hoạt như anh nói, nhưng để làm được vậy thì nó phải là một AI trợ lý cá nhân đa dụng như thế (và như người khác đã viết ở trên, để cái máy nướng bánh mì không đi làm việc khác), đồng thời phải tiếp tục học về người dùng thông qua tương tác với họ. Tôi không mong một chiếc ô tô đi viết báo cáo thuế. Con người cũng vậy thôi; nếu giao cho nhân viên một việc cụ thể mà họ lại làm thêm cả việc khác nữa, nhà tuyển dụng có thể vui đấy, nhưng phần lớn chắc sẽ thấy lo lắng hơn.

 
mammal 2026-02-19
  1. Tài liệu rõ ràng và khả năng truy cập được thiết kế tốt cuối cùng sẽ chiến thắng. Không nhất thiết phải tập trung vào mức độ tự do của AI; khả năng truy cập được thiết kế tốt thì cả con người lẫn AI đều dễ hiểu.

  2. Không, nguyên tắc đặc quyền tối thiểu nhất định phải được tuân thủ. Tôi muốn chiếc máy nướng bánh mì của mình chỉ nướng bánh mì thôi, chứ không phải kết nối Internet để tóm tắt tin tức rồi chạy Doom.

 
jeeeyul 2026-02-19

Về mặt triết học, tôi xin gợi ý lý thuyết “tâm trí mở rộng” của Andy Clark. Nó sẽ giúp bạn có được sự hiểu biết sâu sắc về phần mà LLM, thứ chỉ có vẻ hợp lý là tất cả, mở rộng thành nhận thức thông qua công cụ.

Về mặt thực tiễn, OpenCode công khai mọi thành phần trong cấu hình agent nên có lẽ sẽ hữu ích cho bạn.

Điều số 2 đã là hiện thực rồi. Một trong những công cụ được cung cấp sớm nhất chính là code interpreter. Vì vậy, quan điểm của tôi về các agent cho miền chuyên biệt rốt cuộc chỉ là một cuộc đánh nhanh rồi sẽ biến mất.

Với lĩnh vực bạn đang làm hiện nay, tôi nghĩ có lẽ nên cung cấp ML truyền thống dưới dạng MCP thì tốt hơn. Với mô hình ngôn ngữ, nó hoàn toàn không có lợi thế trong phân tích mẫu hay dự báo tuyến tính.

Có vẻ không nhất thiết phải thiết kế tính đối xứng của công cụ dựa trên UI cho con người. Dù sao thì webMCP hay MCP tự động hóa dựa trên GDI, nơi agent trực tiếp diễn giải và điều khiển chính UI, sẽ đến rất nhanh. Vì sẽ phải tận dụng vô số hệ thống legacy dành cho con người. Nếu là agent dựa trên LLM có native multimodal, thì có lẽ nhà phát triển cũng không cần tốn công chuyển dịch GUI thành MCP nữa. iOS, vốn có khả năng kiểm soát GUI nền tảng mạnh, có khi sẽ bắt đầu ngay từ phiên bản tiếp theo.

Khi đó, chỉ cần cài bất kỳ app chứng khoán nào thôi cũng có thể giao việc đầu tư cho agent.