- Giao diện dựa trên văn bản xuất hiện sau ChatGPT rất mạnh mẽ, nhưng kém trực quan hơn GUI truyền thống
- UI của tương lai đang tiến hóa theo hướng cung cấp thao tác phù hợp với ngữ cảnh thay vì chat, tìm kiếm thông minh, tự động sắp xếp, phản hồi tức thì
- Ví dụ: menu chuột phải dùng AI, ô tìm kiếm ngôn ngữ tự nhiên, command bar, AI của Figma tự sắp xếp layer, gợi ý thời gian thực của Grammarly
- Hiện đã có những thử nghiệm dự đoán “hành động tiếp theo của người dùng” để tự động đề xuất, thậm chí để LLM tự tạo chính UI theo thời gian thực
- Phần mềm truyền thống sẽ dần mang lại cảm giác lỗi thời, và các sản phẩm dựa trên những mẫu tương tác mới có khả năng thay thế sản phẩm hiện có ngày càng lớn
Chat là sự quay trở lại của terminal
- Chat với LLM mạnh mẽ và linh hoạt, lại cũng dễ lập trình
- Nhưng nó không trực quan, thao tác bất tiện và có thể gây e ngại cho người mới, tương tự terminal ngày xưa
> Chat hữu ích như một giao diện để debug, nhưng không nên trở thành UX mặc định
UI lấy tài liệu làm trung tâm + chat hỗ trợ
- Giống như ChatGPT Canvas, các UI với tài liệu hoặc mã là trung tâm, còn chat được đặt làm phương tiện hỗ trợ, đang ngày càng phổ biến
- Có thể thấy trải nghiệm tương tự trong Copilot in Excel, Cursor IDE, v.v.
Menu chuột phải sinh tạo
- Các tính năng AI có thể được đặt tự nhiên vào menu ngữ cảnh
- Ví dụ: Dia browser đề xuất trực tiếp các lệnh AI tùy theo vị trí con trỏ
- Ở giai đoạn đầu, menu có thể trở nên quá phức tạp, và về sau sẽ cần được tinh chỉnh
Tìm kiếm ngôn ngữ tự nhiên trực quan
- Có thể tìm “Khi nào chuyến bay công tác của tôi?” thay vì “air canada confirmation”
- Ví dụ: tìm kiếm email bằng ngôn ngữ tự nhiên của Superhuman, tìm kiếm thiết kế nền tảng của Figma
- UX từng đòi hỏi phải nhớ chính xác từ khóa đang dần biến mất
Nhập thay vì chọn: cách điều khiển mang tính con người hơn
- UI cũ cho bộ lọc, ngày tháng, kiểu dáng... chủ yếu dựa trên chọn từ dropdown
- Giờ đây, việc nhập “thứ Tư tuần sau” bằng ngôn ngữ tự nhiên là điều tự nhiên hơn
- Command bar (Command-K) và giao diện thực thi tức thì dựa trên tự động hoàn thành đang lan rộng
Phản hồi inline
- Không chỉ chính tả, AI còn có thể đưa ra phản hồi inline về văn phong, lập luận, yêu cầu nguồn dẫn
- Khái niệm “daemon viết lách” của Maggie Appleton: cung cấp tư vấn thời gian thực bằng các nhân vật phản hồi có tính cách khác nhau
Tính năng tự động sắp xếp
- Giống như AI đổi tên layer của Figma, ngay cả những file lộn xộn cũng có thể được tự động cấu trúc lại
- Những tác vụ sắp xếp phức tạp hơn nữa cũng có thể được triển khai tự nhiên theo cách không dựa vào chat
Tóm tắt và trích xuất thông tin
- Apple Intelligence cung cấp bản tóm tắt thông tin cốt lõi từ các cuộc trò chuyện lan man (“Hủy cuộc hẹn hôm nay, chuyển sang tuần sau”, v.v.)
- Trong thời đại quá tải thông tin, các tính năng tóm tắt AI không dựa vào chat để chỉ lọc ra tín hiệu quan trọng đang trở thành điều thiết yếu
Giọng nói + đa phương thức
- Giao diện giọng nói cũng không nên chỉ dừng ở đối thoại tuyến tính như chat
- Ví dụ: vừa trỏ chuột vào một nút vừa nói “đoạn mã này ở đâu?” thì LLM sẽ mở vị trí của đoạn mã đó
- Giờ đây đã có thể tạo ra giao diện đa phương thức tự nhiên như con người, tận dụng đồng thời trỏ + nói
Gợi ý “việc cần làm tiếp theo”: tự nhiên như phím Tab
- Đề xuất hành động tiếp theo dựa trên mẫu hành vi của người dùng
- Gợi ý sửa lỗi chính tả của Grammarly, mẫu tự động hoàn thành bằng phím Tab của Cursor
- Giúp giảm công sức của người dùng trong các tác vụ lặp đi lặp lại và hỗ trợ họ tập trung vào tư duy sáng tạo
Giai đoạn cuối: LLM tạo UI theo thời gian thực
- Việc tạo mã UI như bolt.new đã là hiện thực
- Xa hơn nữa, đang xuất hiện xu hướng tạo chính UI theo thời gian thực để phù hợp với mục tiêu của từng người dùng cụ thể
- Nhược điểm: khó học cách sử dụng, và trạng thái UI có thể khác nhau giữa từng người dùng
- Trước đây, menu thích ứng IntelliMenus của Office XP là một ví dụ thất bại
- Tuy nhiên, nếu LLM đủ mạnh, nó cũng có thể trở thành một mẫu UI chuẩn mới
Giờ là lúc phải xây dựng
- Những mẫu UI dựa trên AI này đang từng bước tái cấu trúc toàn bộ phần mềm
- UX truyền thống sẽ trông ngày càng lạc hậu, và những sản phẩm áp dụng điều này trước sẽ thiết lập kỳ vọng mới cho người dùng
- Cũng như thời GUI thay thế terminal, hiện nay chúng ta lại đang ở một thời điểm nữa khi bàn cờ UX phần mềm bị lật lại
4 bình luận
Tôi cũng có suy nghĩ tương tự.
Gần đây tôi thử tìm một chương trình để đổi tên tệp hàng loạt, nhưng... những chương trình có đủ mọi tính năng thì thật sự có vô số menu và cách dùng cũng cực kỳ phức tạp. Chỉ để làm một việc đơn giản như "thêm '_' vào sau tên tệp" mà cũng phải học cách dùng... nên càng mạnh thì lại càng dễ trở nên kỳ quặc.
Vì vậy tôi đã dùng LLM để làm lại. Phần mã thực sự dùng để đổi tên tệp sẽ do LLM tạo ra. Làm như vậy thì có thể loại bỏ sạch toàn bộ UI phức tạp.
Điểm cốt lõi là rốt cuộc LLM phải tự tạo mã ở bên trong rồi thực thi theo thời gian thực,
và đó là điểm khác biệt căn bản so với phần mềm hay khái niệm UX hiện có.
Trước đây mọi logic đều đã được chuẩn bị sẵn, và cốt lõi của UI là kết nối phần logic đó với người dùng, nhưng giờ ngay cả logic cũng đã trở nên linh hoạt, nên UI cũng phải đảm nhận vai trò tạo ra phần sinh mã linh hoạt này.
Tuy vậy, có lẽ không phải mọi thứ đều có thể bị thay thế. Có những thứ mà UI truyền thống vẫn tiện hơn.
(Tôi thêm vào vì chưa có chỉnh sửa.)
https://www.bulkrenameutility.co.uk/#mainscreen
Phần mềm hiện có như trên có thể thay đổi như bên dưới khi được tích hợp LLM.
https://localfile.io/ko/run/rename/
Có lẽ để cục diện UI/UX thực sự thay đổi, nền tảng cũng cần những nỗ lực thoát khỏi form factor như điện thoại hay màn hình.
https://x.com/karpathy/status/1917920257257459899
Có lẽ cũng đáng để so sánh thêm với quan điểm của Andrej Karpathy.
Trải nghiệm "trò chuyện" với LLM giống như đang sử dụng terminal máy tính của thập niên 80. GUI (giao diện người dùng đồ họa) vẫn chưa được phát minh ra, nhưng tôi nghĩ một số đặc tính của nó đã có thể dự đoán được.
Nó sẽ mang tính trực quan hơn (giống GUI trước đây). Bởi vì thông tin thị giác (ảnh, biểu đồ, hoạt ảnh, v.v. — nhìn luôn nhanh hơn đọc) giống như một đường cao tốc 10 làn đi thẳng vào não. Thị giác có băng thông đầu vào thông tin cao nhất, và khoảng 1/3 năng lực xử lý của não được dành cho việc xử lý hình ảnh.
Nó sẽ mang tính tạo sinh và thay đổi theo điều kiện đầu vào. Tức là GUI sẽ được tạo theo thời gian thực để phù hợp với prompt của người dùng, và mọi yếu tố sẽ tồn tại và được cấu thành cho mục đích tức thời đó.
Một câu hỏi mở hơn một chút là mức độ mang tính "thủ tục" (procedural) của nó. Ở một cực, ta có thể hình dung một diffusion model khổng lồ tạo ra toàn bộ canvas đầu ra trong một lần; ở cực còn lại là một trang đầy các React component được tạo theo thủ tục (ví dụ: hình ảnh, biểu đồ, hoạt ảnh, sơ đồ, v.v.). Tôi nghĩ nó sẽ là sự pha trộn của cả hai, nhưng vế sau sẽ là bộ khung mặc định.
Tuy vậy, điều tôi có thể khẳng định ngay lúc này là khi năng lực tiến gần đến vô hạn, một GUI canvas 2D tương tác được, linh hoạt, kỳ ảo và mang tính tạm thời (ephemeral) sẽ trở thành hình thái cuối cùng. Và tôi cho rằng điều đó đã bắt đầu diễn ra một cách chậm rãi rồi (ví dụ: code block/highlighting, khối LaTeX, in đậm/in nghiêng/danh sách/bảng trong Markdown, emoji, tham vọng hơn nữa là tab Artifacts, biểu đồ Mermaid hay các ứng dụng hoàn chỉnh hơn). Dĩ nhiên hiện tại tất cả vẫn còn ở mức rất sơ khai và nguyên thủy.
Iron Man, và ở một mức độ nào đó là Star Trek/Minority Report, có thể xem là những ví dụ tiêu biểu trong văn hóa đại chúng về AI/UI theo hướng phát triển này.