25 điểm bởi GN⁺ 2025-04-03 | 5 bình luận | Chia sẻ qua WhatsApp
  • Trong ngành công nghệ, cứ vài năm một lần mỗi khi một công nghệ AI mới xuất hiện, ảo tưởng rằng “lần này giao diện ngôn ngữ tự nhiên sẽ thay đổi mọi thứ” lại lặp lại
  • Siri, Alexa, chatbot, nền tảng AirPods, và gần đây là các mô hình ngôn ngữ lớn (LLM) đều đi theo làn sóng này
  • Nhưng trên thực tế, cách chúng ta sử dụng máy tính hầu như không thay đổi
  • Mọi người có xu hướng tin rằng ngôn ngữ tự nhiên “vì tự nhiên nên đương nhiên sẽ là hình thức cuối cùng”
  • Luận điểm của bài viết này là giao diện ngôn ngữ tự nhiên không phải là lý tưởng, và trên thực tế cũng không phải là cách hiệu quả

Ngôn ngữ tự nhiên là phương thức truyền dữ liệu chậm và nhiều mất mát

  • Ngôn ngữ tự nhiên là cơ chế truyền dữ liệu để con người trao đổi ý tưởng và tri thức với nhau
  • Hai yếu tố quan trọng trong truyền dữ liệu là tốc độtỷ lệ mất mát (lossiness)
  • Chúng ta suy nghĩ rất nhanh, ở mức 1.000~3.000 từ mỗi phút, nhưng tốc độ nói hoặc viết để biểu đạt lại chậm hơn nhiều
  • Ví dụ, đọc/nghe (nhận) thì nhanh nhưng viết/nói (phát) thì chậm → ngôn ngữ tự nhiên là điểm nghẽn
  • Thay vào đó, con người dùng cử chỉ (giơ ngón cái, gật đầu, v.v.) để truyền đạt nhanh hơn và ngắn gọn hơn
  • Cách này giống như nén dữ liệu → có mất mát nhưng vượt trội về tốc độ và sự tiện lợi
  • Ví dụ hiệu quả nhất là khoảnh khắc một cặp vợ chồng sống lâu năm hiểu nhu cầu của nhau mà không cần nói ra

Sự tiến hóa của tương tác giữa con người và máy tính

  • Máy tính thời kỳ đầu dùng giao diện văn bản dựa trên lệnh, nhưng với sự ra đời của GUI, công việc có thể được thực hiện dễ dàng hơn thông qua các yếu tố trực quan
  • Hiện tại, chúng ta đang ở trạng thái cân bằng năng suất kết hợp giữa GUI và phím tắt bàn phím
  • Các phím tắt như ⌘b, ⌘t, ⌘c/v không phải là ngôn ngữ tự nhiên mà là một dạng nén dữ liệu, nhanh và hiệu quả hơn nhiều
  • Các công cụ như Linear, Raycast, Superhuman tối đa hóa kiểu đầu vào nén này → khi đã quen, gần như có thể thao tác đồng thời với suy nghĩ
  • Giao diện cảm ứng đã trở thành chức năng bổ trợ, nhưng các công việc năng suất thực thụ vẫn chủ yếu diễn ra trên desktop
  • Trên di động, nhập văn bản chậm và bất tiện (trung bình 36WPM) → không có phương án thay thế phím tắt phù hợp cho di động
  • Vì vậy, các công cụ năng suất trên di động không thể phát triển đến mức như desktop

Giao diện hội thoại bất lợi về tốc độ nhập liệu

  • Giọng nói là phương tiện nhập liệu nhanh hơn gõ phím (150WPM so với 60WPM), nhưng trong sử dụng thực tế lại kém hiệu quả
  • Ví dụ: “Hey Google, cho tôi biết thời tiết” chậm gấp 10 lần so với việc nhấn vào biểu tượng ứng dụng
  • Lý do Siri và Alexa thất bại không phải là chất lượng đầu ra của AI, mà là sự phiền toái của phương thức nhập liệu
  • LLM cũng không giải quyết được tính kém hiệu quả của phương thức nhập liệu
  • Phải diễn đạt thành câu một việc vốn chỉ cần một nút bấm để làm được thì ngược lại còn là bước thụt lùi

UI hội thoại nên được dùng như phương tiện bổ trợ

  • LLM không thay thế giao diện hiện có mà cực kỳ hữu ích khi tồn tại dưới dạng bổ trợ
  • Tác giả thực sự đã phác thảo bài viết này bằng cuộc trò chuyện giọng nói với ChatGPT trong lúc đi dạo → dùng LLM như một đối tác tư duy
  • Đây là công việc thiên về tư duy chứ không phải thiên về tốc độ, và không thay thế workflow hiện có mà là một trường hợp sử dụng hoàn toàn mới
  • Ví dụ lý tưởng nhất là một trường hợp tại hackathon dùng Alexa làm phương thức nhập liệu phụ trợ trong StarCraft II
    • Không thay thế chuột/bàn phím mà thêm giọng nói như một phương thức nhập khác để mở rộng băng thông truyền dữ liệu
  • Sẽ không có chuyện các công cụ như Figma, Notion, Excel bị thay thế bằng chat UI
  • Thay vào đó, LLM nên định vị như một lớp meta luôn chạy kết nối giữa các công cụ
    • Ví dụ: ngay cả khi người dùng đang thao tác bằng chuột hoặc bàn phím, họ vẫn có thể thực hiện nhanh những lệnh đơn giản bằng giọng nói
  • Để làm được điều này, AI không nên là một ứng dụng đơn lẻ mà phải hoạt động ở cấp hệ điều hành
  • Đồng thời, cũng cần những cách giúp nhập liệu bằng giọng nói nhanh hơn nữa (ví dụ: huýt sáo, nhận diện cảm xúc, v.v.)
  • Ngay cả với giao diện hội thoại, tốc độ và sự tiện lợi cuối cùng vẫn là cốt lõi

Kết luận: nên nhìn từ góc độ bổ trợ chứ không phải thay thế

  • Tiêu đề của bài viết này là một sự cường điệu nhằm thu hút nhấp chuột
  • Luận điểm thực sự không phải là “phản đối giao diện hội thoại”, mà là phản đối tư duy zero-sum
  • AI không thay thế giao diện hiện có mà là yếu tố bổ trợ mở ra những khả năng mới
  • Tương lai lý tưởng là con người và máy tính có tương tác tự nhiên và vô thức với nhau
    • Giống như việc trên bàn ăn sáng, không cần nói ra mà miếng bơ vẫn tự động được đưa tới

5 bình luận

 
dbs0829 2025-04-04

Về mặt giao diện thì tôi cũng từng có những băn khoăn tương tự, nhưng lại không nghĩ ra được một giao diện mới nào thật sự phù hợp.

 
winterjung 2025-04-03

Bài viết https://upsidelab.io/blog/design-voice-user-interface-starcraft được giới thiệu trong phần nội dung là một bài từ năm 2018 nhưng vẫn rất thú vị.

 
girr311 2025-04-03

Không biết trong tương lai nó sẽ được lựa chọn và sử dụng theo cách nào nhỉ

 
fantajeon 2025-04-03

Con người ghét sự bất định khi đối thoại, nên rất khó từ bỏ nhu cầu dùng từ ngữ chính xác. Nhưng ChatAI hay LLM về bản chất lại hàm chứa tính bất định. Nếu chỉ mình tôi nắm thông tin mang tính xác suất thì còn ổn, nhưng khi cả đối phương cũng phải dựa vào xác suất thì sẽ gây căng thẳng. Đôi khi, một cách làm mang tính quyết định luận lại khiến người ta thấy nhẹ nhõm hơn.

 
GN⁺ 2025-04-03
Ý kiến Hacker News
  • Bài viết này đã làm rõ nhiều điều mà tôi từng muốn giải thích cho những người hứng thú với việc "trò chuyện" với máy tính

    • Ví dụ được đưa ra là hãy tưởng tượng khi lái ô tô mà chỉ điều khiển bằng lời nói
    • Điều đó bất tiện, khiến bạn không thể nói chuyện với hành khách, và việc trò chuyện với máy tính là để khiến nó làm điều bạn muốn
    • Có những cách đơn giản và nhanh hơn việc nói bằng ngôn ngữ tự nhiên
  • Những chỗ sai trong bài viết

    • Khẳng định rằng "ngôn ngữ tự nhiên là một cơ chế truyền dữ liệu"
    • Với cơ chế truyền dữ liệu, tốc độ và độ mất mát là quan trọng
    • Ngôn ngữ tự nhiên không có cả hai điều đó
    • Giao diện hội thoại có đặc trưng chính là "niềm vui của sự không cần biết" và "diễn giải thông minh", hơn là truyền đạt thông tin
    • "Niềm vui của sự không cần biết" cho phép nêu mục tiêu mà không cần biết cách thực hiện
    • "Diễn giải thông minh" cho phép hệ thống hiểu ý định thay vì chỉ hiểu mệnh lệnh
    • Tương tự quản lý nhóm, với một đội ngũ giàu kinh nghiệm thì chỉ cần chỉ thị đơn giản cũng có thể kỳ vọng kết quả tốt
  • Star Trek cho thấy khá rõ cách dùng phù hợp của giao diện hội thoại

    • Giao diện giọng nói được dùng để bổ trợ cho nhập liệu thủ công và như một kênh phụ trợ
    • Nó phù hợp với ủy quyền, truy vấn và sử dụng không phụ thuộc vị trí, hơn là nhập các điều khiển cụ thể bằng giọng nói
    • Tương tác giọng nói được dùng dưới dạng mô tả, và hẳn họ đã nắm rất rõ điều gì sẽ trở nên gượng gạo
  • Voice UI hiệu quả nhất khi được dùng cùng bàn phím/chuột

    • Trí nhớ thị giác và trí nhớ thính giác có các bộ đệm riêng, và bộ đệm thính giác vẫn còn dư địa
    • Hỏi thời tiết bằng giọng nói nhanh hơn mở ứng dụng
    • Ngôn ngữ tự động được nén và tạo ra từ mới cho các khái niệm phức tạp
    • Giống như cách người ta gọi tắt tên sách, Voice UI cũng có thể được làm cho hiệu quả
  • Cần tìm cách truyền tải đầu vào bằng giọng nói nhanh hơn

    • Điều này làm tôi nhớ đến video Travis Rudd lập trình Python bằng giọng nói
    • Trải nghiệm đọc tài liệu học tập và làm quiz qua giao diện giọng nói để lại ấn tượng mạnh
  • Tiêu đề của bài viết có thể gây hiểu lầm

    • Tiêu đề kiểu câu kéo lượt nhấp là không hay
  • Những người hướng ngoại và thiên về quản lý thích buông lời để giải quyết vấn đề

    • Khi viết email, điều quan trọng là tạo ấn tượng rằng bạn đã cân nhắc nhiều phương án khác nhau
    • Những người trực tiếp làm việc thực tế nhận ra rằng nói với máy tính là không hiệu quả
  • Cho đến 20-30 năm trước, con người chưa bị máy tính hóa

    • Từng có lập luận rằng wearable computing là tương lai
    • Nhưng việc nghiện màn hình và điều khiển từ xa không phải là điều mang tính con người
    • Mọi người thích dùng remote hơn
  • Các công cụ AI text-to-CAD không thực sự hiểu rõ yêu cầu của người dùng

    • Xưởng cơ khí cần bản vẽ chứ không cần một bài thơ 300 từ
  • Tôi muốn mối quan hệ với máy tính trở nên giống như thần giao cách cảm

    • Việc máy tính làm thay mọi thứ còn tệ hơn
    • Dạy con người suy nghĩ như máy tính thì dễ hơn
    • JavaScript giải quyết 80% vấn đề với 20% tính năng
    • ChatGPT/Bard/Gemini viết JavaScript thay cho nó
    • Giao diện di động không phù hợp để gõ văn bản