Phản biện về giao diện hội thoại

(julian.digital)

25 điểm bởi GN⁺ 2025-04-03 | 5 bình luận | Chia sẻ qua WhatsApp

Trong ngành công nghệ, cứ vài năm một lần mỗi khi một công nghệ AI mới xuất hiện, ảo tưởng rằng “lần này giao diện ngôn ngữ tự nhiên sẽ thay đổi mọi thứ” lại lặp lại
Siri, Alexa, chatbot, nền tảng AirPods, và gần đây là các mô hình ngôn ngữ lớn (LLM) đều đi theo làn sóng này
Nhưng trên thực tế, cách chúng ta sử dụng máy tính hầu như không thay đổi
Mọi người có xu hướng tin rằng ngôn ngữ tự nhiên “vì tự nhiên nên đương nhiên sẽ là hình thức cuối cùng”
Luận điểm của bài viết này là giao diện ngôn ngữ tự nhiên không phải là lý tưởng, và trên thực tế cũng không phải là cách hiệu quả

Ngôn ngữ tự nhiên là phương thức truyền dữ liệu chậm và nhiều mất mát

Ngôn ngữ tự nhiên là cơ chế truyền dữ liệu để con người trao đổi ý tưởng và tri thức với nhau
Hai yếu tố quan trọng trong truyền dữ liệu là tốc độ và tỷ lệ mất mát (lossiness)
Chúng ta suy nghĩ rất nhanh, ở mức 1.000~3.000 từ mỗi phút, nhưng tốc độ nói hoặc viết để biểu đạt lại chậm hơn nhiều
Ví dụ, đọc/nghe (nhận) thì nhanh nhưng viết/nói (phát) thì chậm → ngôn ngữ tự nhiên là điểm nghẽn
Thay vào đó, con người dùng cử chỉ (giơ ngón cái, gật đầu, v.v.) để truyền đạt nhanh hơn và ngắn gọn hơn
Cách này giống như nén dữ liệu → có mất mát nhưng vượt trội về tốc độ và sự tiện lợi
Ví dụ hiệu quả nhất là khoảnh khắc một cặp vợ chồng sống lâu năm hiểu nhu cầu của nhau mà không cần nói ra

Sự tiến hóa của tương tác giữa con người và máy tính

Máy tính thời kỳ đầu dùng giao diện văn bản dựa trên lệnh, nhưng với sự ra đời của GUI, công việc có thể được thực hiện dễ dàng hơn thông qua các yếu tố trực quan
Hiện tại, chúng ta đang ở trạng thái cân bằng năng suất kết hợp giữa GUI và phím tắt bàn phím
Các phím tắt như ⌘b, ⌘t, ⌘c/v không phải là ngôn ngữ tự nhiên mà là một dạng nén dữ liệu, nhanh và hiệu quả hơn nhiều
Các công cụ như Linear, Raycast, Superhuman tối đa hóa kiểu đầu vào nén này → khi đã quen, gần như có thể thao tác đồng thời với suy nghĩ
Giao diện cảm ứng đã trở thành chức năng bổ trợ, nhưng các công việc năng suất thực thụ vẫn chủ yếu diễn ra trên desktop
Trên di động, nhập văn bản chậm và bất tiện (trung bình 36WPM) → không có phương án thay thế phím tắt phù hợp cho di động
Vì vậy, các công cụ năng suất trên di động không thể phát triển đến mức như desktop

Giao diện hội thoại bất lợi về tốc độ nhập liệu

Giọng nói là phương tiện nhập liệu nhanh hơn gõ phím (150WPM so với 60WPM), nhưng trong sử dụng thực tế lại kém hiệu quả
Ví dụ: “Hey Google, cho tôi biết thời tiết” chậm gấp 10 lần so với việc nhấn vào biểu tượng ứng dụng
Lý do Siri và Alexa thất bại không phải là chất lượng đầu ra của AI, mà là sự phiền toái của phương thức nhập liệu
LLM cũng không giải quyết được tính kém hiệu quả của phương thức nhập liệu
Phải diễn đạt thành câu một việc vốn chỉ cần một nút bấm để làm được thì ngược lại còn là bước thụt lùi

UI hội thoại nên được dùng như phương tiện bổ trợ

LLM không thay thế giao diện hiện có mà cực kỳ hữu ích khi tồn tại dưới dạng bổ trợ
Tác giả thực sự đã phác thảo bài viết này bằng cuộc trò chuyện giọng nói với ChatGPT trong lúc đi dạo → dùng LLM như một đối tác tư duy
Đây là công việc thiên về tư duy chứ không phải thiên về tốc độ, và không thay thế workflow hiện có mà là một trường hợp sử dụng hoàn toàn mới
Ví dụ lý tưởng nhất là một trường hợp tại hackathon dùng Alexa làm phương thức nhập liệu phụ trợ trong StarCraft II
- Không thay thế chuột/bàn phím mà thêm giọng nói như một phương thức nhập khác để mở rộng băng thông truyền dữ liệu
Quảng cáo
Sẽ không có chuyện các công cụ như Figma, Notion, Excel bị thay thế bằng chat UI
Thay vào đó, LLM nên định vị như một lớp meta luôn chạy kết nối giữa các công cụ
- Ví dụ: ngay cả khi người dùng đang thao tác bằng chuột hoặc bàn phím, họ vẫn có thể thực hiện nhanh những lệnh đơn giản bằng giọng nói
Để làm được điều này, AI không nên là một ứng dụng đơn lẻ mà phải hoạt động ở cấp hệ điều hành
Đồng thời, cũng cần những cách giúp nhập liệu bằng giọng nói nhanh hơn nữa (ví dụ: huýt sáo, nhận diện cảm xúc, v.v.)
Ngay cả với giao diện hội thoại, tốc độ và sự tiện lợi cuối cùng vẫn là cốt lõi

Kết luận: nên nhìn từ góc độ bổ trợ chứ không phải thay thế

Tiêu đề của bài viết này là một sự cường điệu nhằm thu hút nhấp chuột
Luận điểm thực sự không phải là “phản đối giao diện hội thoại”, mà là phản đối tư duy zero-sum
AI không thay thế giao diện hiện có mà là yếu tố bổ trợ mở ra những khả năng mới
Tương lai lý tưởng là con người và máy tính có tương tác tự nhiên và vô thức với nhau
- Giống như việc trên bàn ăn sáng, không cần nói ra mà miếng bơ vẫn tự động được đưa tới

5 bình luận

dbs0829 2025-04-04

Về mặt giao diện thì tôi cũng từng có những băn khoăn tương tự, nhưng lại không nghĩ ra được một giao diện mới nào thật sự phù hợp.

winterjung 2025-04-03

Bài viết https://upsidelab.io/blog/design-voice-user-interface-starcraft được giới thiệu trong phần nội dung là một bài từ năm 2018 nhưng vẫn rất thú vị.

girr311 2025-04-03

Không biết trong tương lai nó sẽ được lựa chọn và sử dụng theo cách nào nhỉ

fantajeon 2025-04-03

Con người ghét sự bất định khi đối thoại, nên rất khó từ bỏ nhu cầu dùng từ ngữ chính xác. Nhưng ChatAI hay LLM về bản chất lại hàm chứa tính bất định. Nếu chỉ mình tôi nắm thông tin mang tính xác suất thì còn ổn, nhưng khi cả đối phương cũng phải dựa vào xác suất thì sẽ gây căng thẳng. Đôi khi, một cách làm mang tính quyết định luận lại khiến người ta thấy nhẹ nhõm hơn.

GN⁺ 2025-04-03

Ý kiến Hacker News

Bài viết này đã làm rõ nhiều điều mà tôi từng muốn giải thích cho những người hứng thú với việc "trò chuyện" với máy tính
- Ví dụ được đưa ra là hãy tưởng tượng khi lái ô tô mà chỉ điều khiển bằng lời nói
- Điều đó bất tiện, khiến bạn không thể nói chuyện với hành khách, và việc trò chuyện với máy tính là để khiến nó làm điều bạn muốn
- Có những cách đơn giản và nhanh hơn việc nói bằng ngôn ngữ tự nhiên
Những chỗ sai trong bài viết
- Khẳng định rằng "ngôn ngữ tự nhiên là một cơ chế truyền dữ liệu"
- Với cơ chế truyền dữ liệu, tốc độ và độ mất mát là quan trọng
- Ngôn ngữ tự nhiên không có cả hai điều đó
- Giao diện hội thoại có đặc trưng chính là "niềm vui của sự không cần biết" và "diễn giải thông minh", hơn là truyền đạt thông tin
- "Niềm vui của sự không cần biết" cho phép nêu mục tiêu mà không cần biết cách thực hiện
- "Diễn giải thông minh" cho phép hệ thống hiểu ý định thay vì chỉ hiểu mệnh lệnh
- Tương tự quản lý nhóm, với một đội ngũ giàu kinh nghiệm thì chỉ cần chỉ thị đơn giản cũng có thể kỳ vọng kết quả tốt
Star Trek cho thấy khá rõ cách dùng phù hợp của giao diện hội thoại
- Giao diện giọng nói được dùng để bổ trợ cho nhập liệu thủ công và như một kênh phụ trợ
- Nó phù hợp với ủy quyền, truy vấn và sử dụng không phụ thuộc vị trí, hơn là nhập các điều khiển cụ thể bằng giọng nói
- Tương tác giọng nói được dùng dưới dạng mô tả, và hẳn họ đã nắm rất rõ điều gì sẽ trở nên gượng gạo
Voice UI hiệu quả nhất khi được dùng cùng bàn phím/chuột
- Trí nhớ thị giác và trí nhớ thính giác có các bộ đệm riêng, và bộ đệm thính giác vẫn còn dư địa
- Hỏi thời tiết bằng giọng nói nhanh hơn mở ứng dụng
- Ngôn ngữ tự động được nén và tạo ra từ mới cho các khái niệm phức tạp
- Giống như cách người ta gọi tắt tên sách, Voice UI cũng có thể được làm cho hiệu quả
Cần tìm cách truyền tải đầu vào bằng giọng nói nhanh hơn
- Điều này làm tôi nhớ đến video Travis Rudd lập trình Python bằng giọng nói
- Trải nghiệm đọc tài liệu học tập và làm quiz qua giao diện giọng nói để lại ấn tượng mạnh
Tiêu đề của bài viết có thể gây hiểu lầm
- Tiêu đề kiểu câu kéo lượt nhấp là không hay
Những người hướng ngoại và thiên về quản lý thích buông lời để giải quyết vấn đề
- Khi viết email, điều quan trọng là tạo ấn tượng rằng bạn đã cân nhắc nhiều phương án khác nhau
- Những người trực tiếp làm việc thực tế nhận ra rằng nói với máy tính là không hiệu quả
Cho đến 20-30 năm trước, con người chưa bị máy tính hóa
- Từng có lập luận rằng wearable computing là tương lai
- Nhưng việc nghiện màn hình và điều khiển từ xa không phải là điều mang tính con người
- Mọi người thích dùng remote hơn
Các công cụ AI text-to-CAD không thực sự hiểu rõ yêu cầu của người dùng
- Xưởng cơ khí cần bản vẽ chứ không cần một bài thơ 300 từ
Tôi muốn mối quan hệ với máy tính trở nên giống như thần giao cách cảm
- Việc máy tính làm thay mọi thứ còn tệ hơn
- Dạy con người suy nghĩ như máy tính thì dễ hơn
- JavaScript giải quyết 80% vấn đề với 20% tính năng
- ChatGPT/Bard/Gemini viết JavaScript thay cho nó
- Giao diện di động không phù hợp để gõ văn bản