- Trong ngành công nghệ, cứ vài năm một lần mỗi khi một công nghệ AI mới xuất hiện, ảo tưởng rằng “lần này giao diện ngôn ngữ tự nhiên sẽ thay đổi mọi thứ” lại lặp lại
- Siri, Alexa, chatbot, nền tảng AirPods, và gần đây là các mô hình ngôn ngữ lớn (LLM) đều đi theo làn sóng này
- Nhưng trên thực tế, cách chúng ta sử dụng máy tính hầu như không thay đổi
- Mọi người có xu hướng tin rằng ngôn ngữ tự nhiên “vì tự nhiên nên đương nhiên sẽ là hình thức cuối cùng”
- Luận điểm của bài viết này là giao diện ngôn ngữ tự nhiên không phải là lý tưởng, và trên thực tế cũng không phải là cách hiệu quả
Ngôn ngữ tự nhiên là phương thức truyền dữ liệu chậm và nhiều mất mát
- Ngôn ngữ tự nhiên là cơ chế truyền dữ liệu để con người trao đổi ý tưởng và tri thức với nhau
- Hai yếu tố quan trọng trong truyền dữ liệu là tốc độ và tỷ lệ mất mát (lossiness)
- Chúng ta suy nghĩ rất nhanh, ở mức 1.000~3.000 từ mỗi phút, nhưng tốc độ nói hoặc viết để biểu đạt lại chậm hơn nhiều
- Ví dụ, đọc/nghe (nhận) thì nhanh nhưng viết/nói (phát) thì chậm → ngôn ngữ tự nhiên là điểm nghẽn
- Thay vào đó, con người dùng cử chỉ (giơ ngón cái, gật đầu, v.v.) để truyền đạt nhanh hơn và ngắn gọn hơn
- Cách này giống như nén dữ liệu → có mất mát nhưng vượt trội về tốc độ và sự tiện lợi
- Ví dụ hiệu quả nhất là khoảnh khắc một cặp vợ chồng sống lâu năm hiểu nhu cầu của nhau mà không cần nói ra
Sự tiến hóa của tương tác giữa con người và máy tính
- Máy tính thời kỳ đầu dùng giao diện văn bản dựa trên lệnh, nhưng với sự ra đời của GUI, công việc có thể được thực hiện dễ dàng hơn thông qua các yếu tố trực quan
- Hiện tại, chúng ta đang ở trạng thái cân bằng năng suất kết hợp giữa GUI và phím tắt bàn phím
- Các phím tắt như ⌘b, ⌘t, ⌘c/v không phải là ngôn ngữ tự nhiên mà là một dạng nén dữ liệu, nhanh và hiệu quả hơn nhiều
- Các công cụ như Linear, Raycast, Superhuman tối đa hóa kiểu đầu vào nén này → khi đã quen, gần như có thể thao tác đồng thời với suy nghĩ
- Giao diện cảm ứng đã trở thành chức năng bổ trợ, nhưng các công việc năng suất thực thụ vẫn chủ yếu diễn ra trên desktop
- Trên di động, nhập văn bản chậm và bất tiện (trung bình 36WPM) → không có phương án thay thế phím tắt phù hợp cho di động
- Vì vậy, các công cụ năng suất trên di động không thể phát triển đến mức như desktop
Giao diện hội thoại bất lợi về tốc độ nhập liệu
- Giọng nói là phương tiện nhập liệu nhanh hơn gõ phím (150WPM so với 60WPM), nhưng trong sử dụng thực tế lại kém hiệu quả
- Ví dụ: “Hey Google, cho tôi biết thời tiết” chậm gấp 10 lần so với việc nhấn vào biểu tượng ứng dụng
- Lý do Siri và Alexa thất bại không phải là chất lượng đầu ra của AI, mà là sự phiền toái của phương thức nhập liệu
- LLM cũng không giải quyết được tính kém hiệu quả của phương thức nhập liệu
- Phải diễn đạt thành câu một việc vốn chỉ cần một nút bấm để làm được thì ngược lại còn là bước thụt lùi
UI hội thoại nên được dùng như phương tiện bổ trợ
- LLM không thay thế giao diện hiện có mà cực kỳ hữu ích khi tồn tại dưới dạng bổ trợ
- Tác giả thực sự đã phác thảo bài viết này bằng cuộc trò chuyện giọng nói với ChatGPT trong lúc đi dạo → dùng LLM như một đối tác tư duy
- Đây là công việc thiên về tư duy chứ không phải thiên về tốc độ, và không thay thế workflow hiện có mà là một trường hợp sử dụng hoàn toàn mới
- Ví dụ lý tưởng nhất là một trường hợp tại hackathon dùng Alexa làm phương thức nhập liệu phụ trợ trong StarCraft II
- Không thay thế chuột/bàn phím mà thêm giọng nói như một phương thức nhập khác để mở rộng băng thông truyền dữ liệu
- Sẽ không có chuyện các công cụ như Figma, Notion, Excel bị thay thế bằng chat UI
- Thay vào đó, LLM nên định vị như một lớp meta luôn chạy kết nối giữa các công cụ
- Ví dụ: ngay cả khi người dùng đang thao tác bằng chuột hoặc bàn phím, họ vẫn có thể thực hiện nhanh những lệnh đơn giản bằng giọng nói
- Để làm được điều này, AI không nên là một ứng dụng đơn lẻ mà phải hoạt động ở cấp hệ điều hành
- Đồng thời, cũng cần những cách giúp nhập liệu bằng giọng nói nhanh hơn nữa (ví dụ: huýt sáo, nhận diện cảm xúc, v.v.)
- Ngay cả với giao diện hội thoại, tốc độ và sự tiện lợi cuối cùng vẫn là cốt lõi
Kết luận: nên nhìn từ góc độ bổ trợ chứ không phải thay thế
- Tiêu đề của bài viết này là một sự cường điệu nhằm thu hút nhấp chuột
- Luận điểm thực sự không phải là “phản đối giao diện hội thoại”, mà là phản đối tư duy zero-sum
- AI không thay thế giao diện hiện có mà là yếu tố bổ trợ mở ra những khả năng mới
- Tương lai lý tưởng là con người và máy tính có tương tác tự nhiên và vô thức với nhau
- Giống như việc trên bàn ăn sáng, không cần nói ra mà miếng bơ vẫn tự động được đưa tới
5 bình luận
Về mặt giao diện thì tôi cũng từng có những băn khoăn tương tự, nhưng lại không nghĩ ra được một giao diện mới nào thật sự phù hợp.
Bài viết https://upsidelab.io/blog/design-voice-user-interface-starcraft được giới thiệu trong phần nội dung là một bài từ năm 2018 nhưng vẫn rất thú vị.
Không biết trong tương lai nó sẽ được lựa chọn và sử dụng theo cách nào nhỉ
Con người ghét sự bất định khi đối thoại, nên rất khó từ bỏ nhu cầu dùng từ ngữ chính xác. Nhưng ChatAI hay LLM về bản chất lại hàm chứa tính bất định. Nếu chỉ mình tôi nắm thông tin mang tính xác suất thì còn ổn, nhưng khi cả đối phương cũng phải dựa vào xác suất thì sẽ gây căng thẳng. Đôi khi, một cách làm mang tính quyết định luận lại khiến người ta thấy nhẹ nhõm hơn.
Ý kiến Hacker News
Bài viết này đã làm rõ nhiều điều mà tôi từng muốn giải thích cho những người hứng thú với việc "trò chuyện" với máy tính
Những chỗ sai trong bài viết
Star Trek cho thấy khá rõ cách dùng phù hợp của giao diện hội thoại
Voice UI hiệu quả nhất khi được dùng cùng bàn phím/chuột
Cần tìm cách truyền tải đầu vào bằng giọng nói nhanh hơn
Tiêu đề của bài viết có thể gây hiểu lầm
Những người hướng ngoại và thiên về quản lý thích buông lời để giải quyết vấn đề
Cho đến 20-30 năm trước, con người chưa bị máy tính hóa
Các công cụ AI text-to-CAD không thực sự hiểu rõ yêu cầu của người dùng
Tôi muốn mối quan hệ với máy tính trở nên giống như thần giao cách cảm