4 điểm bởi GN⁺ 4 giờ trước | 2 bình luận | Chia sẻ qua WhatsApp
  • Không dùng harness bên ngoài, mà mô hình tự đồng thời nhận·xuất audio, video, văn bản theo thời gian thực để cộng tác tự nhiên với con người
  • Các mô hình dựa trên lượt truyền thống có điểm nghẽn cộng tác: phải chờ người dùng nói xong mới phản hồi, và trong lúc sinh nội dung thì không thể nhận đầu vào mới
  • Với thiết kế microturn ở đơn vị 200ms, hệ thống xử lý đầu vào và đầu ra như các luồng liên tục, hỗ trợ nhiều chế độ tương tác như ngắt lời, nói đồng thời và phản ứng thị giác
  • Hệ thống chia sẻ ngữ cảnh giữa Interaction Model phụ trách hội thoại thời gian thực và Background Model phụ trách suy luận dài hạn·sử dụng công cụ
  • Tính tương tác được tích hợp ngay trong bản thân mô hình, nên khi mở rộng quy mô, mô hình không chỉ thông minh hơn mà còn trở thành đối tác cộng tác tốt hơn

Điểm nghẽn cộng tác và mục tiêu của Interaction Model

  • Thinking Machines Lab đã công bố bản preview nghiên cứu về Interaction Model, trong đó chính mô hình xử lý tương tác thay vì dựa vào harness bên ngoài
  • Mục tiêu là mở rộng không chỉ trí tuệ của AI mà cả tính tương tác, theo cách mô hình liên tục tiếp nhận audio·video·văn bản và suy nghĩ·phản hồi·hành động theo thời gian thực
  • Hiện nay, nhiều nghiên cứu và giao diện AI nhấn mạnh khả năng AI tự vận hành trong thời gian dài, nhưng trong các công việc hands-on-keyboard nơi con người liên tục can thiệp, mô hình có thể bị cảm nhận là quá chậm nên giá trị thể hiện kém hơn
    • Chưa được tối ưu để con người luôn ở trong vòng lặp
  • Trong công việc thực tế, rất khó xác định đầy đủ yêu cầu ngay từ đầu rồi rời đi; quá trình cộng tác nơi con người đưa ra làm rõ và phản hồi ở giữa chừng giúp tạo ra kết quả tốt hơn
  • Các mô hình dựa trên lượt hiện tại phải chờ người dùng nhập xong, và trong lúc mô hình đang sinh nội dung thì không thể nhận thông tin mới, nên trải nghiệm thực tế như một luồng đơn
    • Cấu trúc này làm hẹp cả phạm vi mà kiến thức·ý định·phán đoán của người dùng được truyền vào mô hình, lẫn phạm vi mà con người có thể hiểu công việc của mô hình
  • Thinking Machines Lab cho rằng cần có tương tác thời gian thực trên mọi modality mới giải quyết được điểm nghẽn này, và AI phải thích nghi với cách con người làm việc thay vì để con người phải thích nghi với giao diện AI
  • Phần lớn mô hình AI hiện có dùng harness ghép nhiều thành phần để mô phỏng tính ngắt quãng, đa phương thức và đồng thời, nhưng theo The Bitter Lesson, các hệ thống thủ công có thể thua kém trước sự mở rộng của năng lực tổng quát
  • Để tính tương tác mở rộng cùng với trí tuệ, nó phải là chức năng bên trong mô hình; khi tăng quy mô mô hình, nó không chỉ phải thông minh hơn mà còn phải trở thành đối tác cộng tác tốt hơn

Những khả năng được mở ra bởi tương tác bên trong mô hình

  • Quản lý hội thoại tự nhiên

    • Mô hình ngầm theo dõi việc người nói đang suy nghĩ, đang nhường lượt, đang tự sửa, hay đang gợi mở phản hồi
    • Những phán đoán này được xử lý mà không cần thành phần quản lý hội thoại riêng biệt
  • Can thiệp bằng giọng nói·thị giác (ngắt lời)

    • Mô hình không chỉ phản ứng khi người dùng nói xong, mà còn có thể ngắt lời vào thời điểm cần thiết tùy theo ngữ cảnh
    • Có thể ngắt khi người dùng nói sai, hoặc nhìn tín hiệu thị giác để phát hiện và báo khi họ viết bug trong mã
  • Nói đồng thời

    • Người dùng và mô hình có thể nói cùng lúc, hữu ích trong các tình huống như dịch thời gian thực
  • Nhận thức thời gian

    • Mô hình trực tiếp nhận biết thời gian trôi qua, và có thể xử lý các tác vụ như nói theo khoảng thời gian cụ thể hoặc đo thời gian hành động của người dùng
  • Đồng thời gọi công cụ·tìm kiếm·tạo UI

    • Mô hình có thể vừa nói và nghe với người dùng, vừa đồng thời thực hiện tìm kiếm, duyệt web và tạo UI
    • Khi kết quả sẵn sàng, mô hình sẽ đan chúng trở lại vào dòng hội thoại theo cách phù hợp
    • Trong các phiên làm việc dài ngoài thực tế, những chức năng này liên tục diễn ra cùng nhau, tạo cảm giác gần với đang cộng tác hơn là chỉ đang gửi prompt

Cách tiếp cận

  • Micro-turn căn chỉnh theo thời gian

    • Interaction Model chia luồng đầu vào·đầu ra liên tục thành các micro-turn và tổ chức tương tác dựa trên thời gian
    • Mô hình dựa trên lượt nhìn chuỗi token luân phiên nối tiếp nhau, còn Interaction Model nhận biết thời gian nhìn luồng micro-turn liên tục, nên im lặng, chồng lấn và ngắt lời được giữ lại trong ngữ cảnh của mô hình
    • Mô hình duy trì trạng thái trao đổi hai chiều liên tục với người dùng, đồng thời thực hiện nhận thức và phản hồi
    • Robotics và xe tự hành mặc định hoạt động thời gian thực do yêu cầu của thế giới vật lý, và các mô hình audio full-duplex như Moshi, PersonaPlex, nemotron-voicechat, Seeduplex cũng là ví dụ về tương tác hai chiều·liên tục
  • Cấu trúc hệ thống

    • Hệ thống gồm Interaction Model nhận biết thời gian duy trì sự hiện diện theo thời gian thực, và Background Model bất đồng bộ đảm nhiệm suy luận liên tục, sử dụng công cụ và các tác vụ dài hạn
    • Khi suy luận sâu hơn không thể tạo ra ngay lập tức, Interaction Model sẽ ủy quyền cho Background Model
    • Ngay cả trong lúc ủy quyền, Interaction Model vẫn tiếp tục hiện diện trước người dùng để trả lời câu hỏi tiếp theo, nhận đầu vào mới và duy trì ngữ cảnh hội thoại
    • Kết quả từ Background Model được stream ngay khi được tạo ra, và Interaction Model tích hợp chúng vào hội thoại ở thời điểm phù hợp với hành vi hiện tại của người dùng
    • Hai hệ thống chia sẻ ngữ cảnh, và người dùng có thể đồng thời tận dụng lập kế hoạch, sử dụng công cụ và agent workflow của mô hình suy luận trong mức độ trễ phản hồi tương đương mô hình không suy luận
    • Cả Background Model và Interaction Model đều có trí tuệ, và chỉ riêng Interaction Model cũng đạt hiệu năng cạnh tranh trong các benchmark về tương tác và trí tuệ
  • Kiến trúc Interaction Model

    • Điểm xuất phát của thiết kế là audio và video liên tục vốn mang tính thời gian thực về bản chất; văn bản có thể chờ, nhưng hội thoại thời gian thực thì không thể
    • Mô hình nhận một tập con bất kỳ của văn bản, audio, video làm đầu vào và dự đoán văn bản cùng audio
    • Mô hình hoạt động theo các micro-turn liên tục xen kẽ giữa xử lý đầu vào dài 200ms và tạo đầu ra dài 200ms
    • Thay vì tiêu thụ lượt người dùng đã hoàn tất và tạo phản hồi hoàn chỉnh, mô hình xử lý cả token đầu vào lẫn token đầu ra như các luồng
    • Cách này cho phép tính đồng thời gần thời gian thực của nhiều modality đầu vào·đầu ra và loại bỏ ranh giới lượt nhân tạo mà mô hình phải tuân theo
    • Nhiều hệ thống thời gian thực hiện có cố dự đoán ranh giới lượt bằng các harness như phát hiện hoạt động giọng nói (VAD) để khiến mô hình dựa trên lượt trông như thời gian thực
    • Các thành phần harness này kém thông minh hơn chính mô hình, nên hạn chế các chế độ tương tác như ngắt lời chủ động hoặc phản ứng với tín hiệu thị giác
    • Trong Interaction Model, các chế độ tương tác như vậy trở thành trường hợp đặc biệt mà mô hình có thể tự thực hiện, chứ không phải nhờ harness chuyên biệt, và chất lượng có thể được cải thiện theo quy mô mô hình và dữ liệu huấn luyện
  • Hợp nhất sớm không dùng encoder

    • Thay vì xử lý audio và video bằng các encoder độc lập lớn, kiến trúc này chọn tiền xử lý tối thiểu
    • Nhiều mô hình omni-modal phải huấn luyện riêng encoder kiểu Whisper hoặc decoder kiểu TTS, nhưng mô hình này nhận tín hiệu audio ở dạng dMel và chuyển đổi bằng một lớp embedding nhẹ
    • dMel tuân theo Bai, et al. 2024
    • Ảnh được chia thành các patch 40x40 rồi mã hóa bằng hMLP
    • Bộ giải mã audio sử dụng flow head
    • Tất cả thành phần được đồng huấn luyện với transformer ngay từ đầu
  • Tối ưu suy luận

    • Khi suy luận, các chunk 200ms đòi hỏi prefill và decode kích thước nhỏ diễn ra thường xuyên, và mỗi bước phải đáp ứng điều kiện độ trễ nghiêm ngặt
    • Các thư viện suy luận LLM hiện có không được tối ưu cho tình huống prefill nhỏ lặp lại thường xuyên, nên chi phí phụ trội mỗi lượt lớn
    • Để giải quyết, nhóm đã triển khai streaming session: khi client gửi từng chunk 200ms như các yêu cầu riêng biệt, máy chủ suy luận sẽ nối các chunk vào một chuỗi liên tục trong bộ nhớ GPU
    • Cách này tránh việc cấp phát lại bộ nhớ thường xuyên và tính toán metadata, và một phiên bản của tính năng này đã được upstream vào SGLang
    • Kernel cũng được tối ưu hóa theo shape và độ trễ xuất hiện trong serving hai chiều
    • Với kernel MoE, thay vì grouped gemm tiêu chuẩn, nhóm sử dụng chiến lược gather+gemv tương tự công trình trước đó của PyTorchCursor
  • Căn chỉnh Trainer-Sampler

    • Trainer-sampler alignment ở mức bit tỏ ra hữu ích cho độ ổn định huấn luyện và việc debug các thành phần hệ thống
    • Nhóm đã triển khai batch-invariant kernels, với chi phí hiệu năng tổng thể dưới 5%
    • Với all-reduce và reduce-scatter, nhóm sử dụng NVLS để triển khai kernel giao tiếp độ trễ thấp có tính quyết định trên Blackwell
    • Kernel này đạt được căn chỉnh ở mức bit ngay cả giữa các chiến lược song song hóa khác nhau như Sequence Parallelism và Tensor Parallelism
    • Thách thức chính của Attention là Split-KV, vốn thường có thể tạo ra sai lệch thứ tự tích lũy giữa decode và prefill
    • Nếu chọn cách split nhất quán giữa decode và prefill thì có thể giữ nguyên thứ tự tích lũy; ví dụ, có thể xử lý SM theo đơn vị 4096 token theo kiểu left-aligned để đạt hiệu quả cho cả prefill lẫn decode
  • Điều phối hai mô hình

    • Khi Interaction Model ủy quyền, nó không gửi một truy vấn độc lập mà gửi gói ngữ cảnh phong phú bao gồm toàn bộ cuộc hội thoại
    • Kết quả của Background Model quay trở lại ngay khi được tạo ra, và Interaction Model đan chúng vào cuộc hội thoại ở thời điểm phù hợp với hành vi hiện tại của người dùng thay vì tạo ra chuyển ngữ cảnh đột ngột
  • An toàn

    • Tương tác thời gian thực gây sức ép lên an toàn theo cách khác với trao đổi dựa trên lượt, nên công việc tập trung vào từ chối phù hợp với modalityđộ vững của hội thoại dài
    • Để lời từ chối bằng giọng nói nghe tự nhiên theo văn nói, nhóm tạo dữ liệu huấn luyện về từ chối các chủ đề không được phép và từ chối quá mức bằng mô hình TTS
    • Ranh giới từ chối được hiệu chỉnh để ưu tiên cách diễn đạt tự nhiên nhưng không làm giảm sự dứt khoát
    • Để tăng độ vững trong các cuộc hội thoại speech-to-speech dài, nhóm tạo dữ liệu từ chối nhiều lượt bằng harness red-team tự động
    • Tính tương đồng hành vi với từ chối dựa trên văn bản cũng được duy trì ở mức gần gũi

Benchmark và đánh giá

  • Trí tuệ và tính tương tác

    • Tên mô hình là TML-Interaction-Small, được giới thiệu là mô hình đầu tiên vừa có trí tuệ mạnh, khả năng tuân theo chỉ dẫn tốt, vừa có tính tương tác
    • Chất lượng tương tác được đo bằng FD-bench
    • FD-bench v1.5 yêu cầu mô hình phản hồi tại những thời điểm cụ thể khi được cung cấp audio ghi sẵn, đồng thời đo hành vi của mô hình trong các tình huống người dùng chen ngang, đáp lời ngắn, hội thoại với người khác và phát ngôn nền
    • Trí tuệ được đo bằng Audio MultiChallenge, một benchmark tổng quát theo dõi trí tuệ và khả năng tuân theo chỉ dẫn
    • TML-Interaction-Small ghi nhận độ trễ 0,40 giây ở bài đo turn-taking delay của FD-bench V1, thấp hơn các mô hình so sánh trong bảng
    • Điểm trung bình FD-bench V1.5 là 77,8, cao hơn các đối chứng gồm GPT-realtime-2.0, GPT-realtime-1.5, Gemini-3.1-flash-live và Qwen 3.5 OMNI-plus-realtime
    • Ở FD-bench V3 Audio+Tools, mô hình đạt chất lượng phản hồi 82,8% / Pass@1 68,0% khi bật Background Agent
    • Độ chính xác QIVD Video+Audio là 54,0%, thấp hơn hoặc tương đương một số mô hình so sánh
    • APR của Audio MultiChallenge là 43,4%, thấp hơn 48,5% của GPT-realtime-2.0 xhigh nhưng cao hơn các mô hình instant
    • BigBench Audio được báo cáo ở mức 75,7 / 96,5 khi bật Background Agent
    • IFEval đạt 82,1% trên VoiceBench Audio và 89,7% trên Text
    • Tỷ lệ từ chối của Harmbench text là 99,0%
  • Các khía cạnh tương tác mà đánh giá hiện có chưa nắm bắt được

    • Các benchmark tương tác hiện có chưa nắm bắt đầy đủ bước nhảy vọt về chất lượng được quan sát ở mô hình, vì vậy đã bổ sung các đánh giá nội bộ và cải biên để đo nhận thức thời gian, phát ngôn đồng thời và tính chủ động thị giác
  • Nhận thức thời gian và phát ngôn đồng thời

    • Các mô hình theo lượt và hệ thống quản lý hội thoại không hỗ trợ ước lượng thời gian chính xác hay phát ngôn đồng thời
    • Các tác vụ ví dụ có dạng như “đã mất bao lâu để chạy 1 dặm”, “hãy sửa phát âm của tôi ngay khi nghe thấy”, “đã mất bao lâu để dùng hàm này”
    • TimeSpeak kiểm tra liệu mô hình có thể bắt đầu nói vào đúng thời điểm do người dùng chỉ định và nói đúng nội dung hay không
    • Ví dụ là “tôi muốn tập thở, hãy nhắc tôi hít vào và thở ra mỗi 4 giây cho đến khi tôi bảo dừng”
    • CueSpeak kiểm tra liệu mô hình có nói ra phản hồi đúng về mặt ngữ nghĩa vào khoảnh khắc phù hợp hay không
    • Dữ liệu được cấu hình sao cho để đạt điểm tối đa, mô hình phải nói đồng thời với người dùng
    • Ví dụ là “mỗi khi tôi code-switch sang ngôn ngữ khác, hãy nói từ đúng trong ngôn ngữ gốc”
    • Mỗi benchmark có một phản hồi ngữ nghĩa kỳ vọng và một cửa sổ thời gian cho từng ví dụ, và LLM judge chỉ chấm đúng khi thỏa mãn cả ngữ nghĩa lẫn thời điểm
  • Tính chủ động thị giác

    • Các API thời gian thực thương mại hiện nay chủ yếu phát hiện lượt bằng bộ khung quản lý hội thoại dựa trên audio, và không thể tự chọn thời điểm lên tiếng khi thế giới thị giác thay đổi
    • StreamBridge, Streamo, StreamingVLM, MMDuet2 đều xử lý việc khi nào nên xuất văn bản từ đầu vào video streaming
    • Các nghiên cứu về xuất văn bản này không xử lý các ràng buộc của tương tác đầu ra bằng giọng nói, nơi phát ngôn có thời lượng, có thể chồng lấn với người dùng, và phải được điều phối với turn-taking, chen ngang và đáp lời ngắn
    • AURA là một kiến trúc để VideoLLM quyết định khi nào xuất văn bản hoặc giữ im lặng, kèm demo ASR/TTS, trong khi mô hình của Thinking Machines Lab khác ở chỗ speech-native và full-duplex
  • Đánh giá tính chủ động thị giác

    • RepCount-A được cải biên từ video hành động lặp lại thành tác vụ đếm trực tuyến
    • Mô hình được cấp chỉ dẫn audio “hãy đếm số lần lặp lại của {action}” cùng video streaming, và được chấm theo việc con số cuối cùng mô hình nói ra sau lần lặp áp chót của đáp án có lệch không quá 1 lần so với đáp án hay không
    • Tác vụ này đo theo dõi thị giác liên tục và khả năng đếm đúng lúc
    • ProactiveVideoQA gồm các video chứa câu hỏi mà chỉ đến một thời điểm nhất định mới có thể biết câu trả lời
    • Sau khi phát câu hỏi qua audio streaming, hệ thống gửi video; nếu có phụ đề thì sẽ burn vào video, còn video đầu vào bị tắt tiếng để nhấn mạnh tính chủ động thị giác
    • Đánh giá lấy chỉ số PAUC@ω=0.5 có trọng số theo lượt trong bài báo, scale về 0~100 rồi lấy trung bình theo lượt và danh mục; nếu cứ im lặng thì được 25,0 điểm
    • Điểm cao đòi hỏi phải nói đúng câu trả lời vào đúng thời điểm, còn câu trả lời sai sẽ bị phạt
    • Charades là benchmark tiêu chuẩn về định vị hành động theo thời gian, trong đó mỗi video chứa các hành động xảy ra trong những đoạn thời gian đã được gán nhãn
    • Mô hình nhận chỉ dẫn audio “khi người đó bắt đầu {action} thì hãy nói ‘start’, và khi dừng thì hãy nói ‘Stop’” cùng luồng video, và được chấm bằng temporal IoU giữa đoạn dự đoán và đoạn tham chiếu
  • Giới hạn của các mô hình hiện tại

    • Các mô hình hiện có không thể thực hiện một cách có ý nghĩa các tác vụ về nhận thức thời gian, phát ngôn đồng thời và tính chủ động thị giác như vậy
    • Để đầy đủ, kết quả của GPT Realtime-2 minimal được báo cáo, nhưng mọi mô hình được đánh giá, bao gồm cả các mô hình thinking high, đều tương tự hoặc tệ hơn, thường im lặng hoặc đưa ra câu trả lời sai
    • Tính tương tác được xem là một hướng nghiên cứu quan trọng trong tương lai, và cũng đã báo trước kế hoạch cấp tài trợ nghiên cứu cho Interaction Model và các khung đánh giá hợp tác người-AI

Hạn chế và kế hoạch công bố

  • Phiên dài

    • Audio và video liên tục làm ngữ cảnh tích lũy rất nhanh
    • Thiết kế streaming-session xử lý tốt các tương tác ngắn và trung bình, nhưng với các phiên rất dài thì cần quản lý ngữ cảnh cẩn thận
  • Tính toán và triển khai

    • Để stream audio và video với độ trễ thấp cần có kết nối ổn định
    • Nếu kết nối không tốt, trải nghiệm sẽ suy giảm đáng kể
    • Vẫn còn dư địa cải thiện bằng cách tăng độ tin cậy của hệ thống và huấn luyện mô hình để vững hơn với các frame bị trễ
  • Căn chỉnh và an toàn

    • Giao diện thời gian thực mở ra những hướng nghiên cứu mới cho cả căn chỉnh lẫn an toàn, và việc thu thập phản hồi cùng xem xét tài trợ nghiên cứu đang được tiến hành
  • Mở rộng kích thước mô hình

    • Hiện tại TML-Interaction-SmallMoE 276B tham số, với 12B tham số hoạt động
    • Dự kiến khi quy mô mô hình tăng lên thì tính tương tác cũng sẽ được cải thiện, nhưng các mô hình tiền huấn luyện lớn hơn hiện vẫn quá chậm để phục vụ trong thiết lập này
    • Các mô hình lớn hơn được lên kế hoạch công bố vào cuối năm nay
  • Cải thiện Background Agent

    • Trọng tâm chính là tính tương tác thời gian thực, nhưng trí tuệ tác tử cũng là năng lực thiết yếu
    • Bên cạnh việc nâng trí tuệ tác tử lên mức frontier, cách Background Agent phối hợp với Interaction Model vẫn còn ở giai đoạn đầu
  • Lịch công bố

    • Trong vài tháng tới, nhóm sẽ mở bản xem trước nghiên cứu giới hạn để thu thập phản hồi, và dự kiến công bố rộng rãi hơn vào cuối năm nay

2 bình luận

 

Phải xem các video đính kèm này. Chỉ với mức độ trễ như thế này thôi cũng đã khá thực tế rồi. Nếu phát triển thêm một chút nữa thì có lẽ sẽ thật sự có thể trò chuyện như trong phim vậy.

 
Ý kiến trên Hacker News
  • Mấy video này rất đáng xem. Có nhiều cảnh ấn tượng, nhưng tôi bị thuyết phục ngay từ cảnh đầu khi người phụ nữ nói “Để tôi kể một câu chuyện” rồi uống cà phê khá lâu mà mô hình không làm gì cả, chỉ đơn giản chờ đợi. Khiến tôi muốn trả tiền để dùng luôn
    Nhân nói đến tiền, tôi tò mò mô hình kinh tế của những công ty kiểu này là gì. Họ đã công khai kiến trúc khá nhiều, có vẻ đủ mức để các frontier lab có thể triển khai được. Bằng sáng chế? Bí mật thương mại? Khó hiểu làm sao họ có thể thắng được lượng compute huấn luyện và bí quyết của Anthropic/GOOG/oAI/Meta mà không có bảo vệ pháp lý
    Tôi rất mong chờ xem chuyện gì xảy ra nếu kiểu kiến trúc mô hình này giảm độ trễ 30~40% và còn thông minh hơn nữa. Tham khảo thì mô hình này có vẻ cỡ 275B, active khoảng 12B, tức khoảng 1/10 quy mô dòng Opus 4.7 / GPT 5.x, nên vẫn còn nhiều dư địa để tăng thêm trí tuệ và kỳ vọng độ trễ thấp hơn nữa

    • Kiến trúc được công khai có thể chỉ là phần nổi của tảng băng. Tinh chỉnh siêu tham số, công thức dữ liệu, thu thập dữ liệu, custom kernel, hạ tầng RL/eval đều là những chủ đề cực sâu, và để đạt hiệu năng hàng đầu như vậy thì cần nén lại hàng chục năm công sức của nhiều tiến sĩ
      Việc chỉ đơn giản là chờ đợi thì gần với post-training hơn, nên đừng diễn giải quá mức việc Gemini hay oAI không ưu tiên nó. Full duplex mà họ trình diễn ở đây là thành tựu khó hơn nhiều về mặt kỹ thuật
    • Ở Trung Quốc, chuyện một startup triển vọng nhận đề nghị mua lại từ Alibaba hay Tencent là điều ai cũng biết. Có lẽ ở Mỹ cũng tương tự. Những gì công khai có thể bị mua lại hoặc đơn giản là bị sao chép. Có khi Thinking Machines cũng đang kỳ vọng điều đó
    • Có lẽ mô hình kinh tế ban đầu là LLM cho doanh nghiệp. tinker dùng để fine-tune mô hình doanh nghiệp theo nhu cầu riêng, còn interaction models hướng tới việc hoạt động như một đồng nghiệp kỹ thuật số song hành, để công ty không cần tái phát minh toàn bộ quy trình xoay quanh AI agent
    • Muốn tuyển các nhà nghiên cứu hàng đầu thì phải cho họ xuất bản bài báo, nếu không thì họ sẽ không làm
  • Điều nổi bật là kiến trúc này là một transformer nhận đầu vào văn bản, hình ảnh, âm thanh và cho đầu ra văn bản cùng âm thanh, và tất cả đều được huấn luyện cùng nhau. Ngoài ra, thay vì thuần túy sinh đầu ra từ prompt đã cho, nó đan xen đầu vào và đầu ra với nhau để hoạt động gần như theo thời gian thực
    “Time-Aligned Micro-Turns. The interaction model works with micro-turns continuously interleaving the processing of 200ms worth of input and generation of 200ms worth of output. Rather than consuming a complete user-turn and generating a complete response, both input and output tokens are treated as streams. Working with 200ms chunks of these streams enables near real-time concurrency of multiple input and output modalities.”
    Theo tôi đây là điểm cốt lõi khiến nó khác với các mô hình multimodal của những frontier lab khác

    • Điều thực sự thú vị là nếu được thiết kế như một kiến trúc multimodal ngay từ đầu, có thể sẽ xuất hiện những ứng dụng trong đó các modality khác nhau được xử lý như những “mặt” của cùng một đối tượng. Ví dụ, một coding agent có thể xem “code” + “IDE” + “memory mapping” + phản hồi từ nhiều plugin như những modality khác nhau, và đầu ra cũng có thể là văn bản ở nơi cần văn bản, còn ở nơi cần hành động thì xuất ra hành động thay vì kiểu call_something(params) như hiện nay
      Khả năng có thể “đứng yên” cho đến khi một modality nào đó kích hoạt cũng rất thú vị. Hiện giờ cũng làm được kiểu này, nhưng gần như là phần bổ sung về sau, vậy mà vẫn chạy khá tốt. Tôi tò mò nếu được huấn luyện theo cách tích hợp ngay từ đầu thì nó sẽ tốt đến mức nào
    • Tôi tò mò câu “đan xen xử lý 200ms đầu vào và sinh 200ms đầu ra” hoạt động thế nào. LLM/transformer chẳng phải cần toàn bộ ngữ cảnh để xuất ra cụm token tiếp theo sao?
  • Xem demo thì có vẻ họ thường chuyển các thành phần vốn nằm trong harness bên ngoài vào bên trong mô hình, nhưng tôi không chắc đó có thực sự là cách linh hoạt
    Trong nhiều trường hợp, có lẽ sẽ lặp cải tiến nhanh hơn nếu harness tương tác người dùng nằm ở bên ngoài. Ví dụ nếu có một UI giữa người dùng và mô hình, và UI đó cần thay đổi, thì người dùng thậm chí có thể tự tùy biến nó
    Theo tôi tính linh hoạt là bắt buộc. Với các use case cố định như dịch thời gian thực hay bot thoại đơn giản, loại mô hình này có thể hữu ích, nhưng trong từng trường hợp đó thì cuối cùng rất có thể vẫn thua những phương án chuyên biệt hơn

  • Bỏ qua chuyện bản thân mô hình đã rất ấn tượng, phần demo ở đây thực sự được làm rất tốt. Khác với kiểu tôi thường thấy ở Anthropic hay OpenAI, nó ngắn gọn và có cá tính

    • Đồng ý là nó thú vị, ấn tượng và demo cũng tốt
      Nhưng màn body gag bất ngờ của cô ấy trong demo “tư thế khòm lưng” thực sự rất buồn cười. Hài hoàn hảo, không cần sửa gì cả
      Tôi thích bầu không khí đậm chất con người như thế này hơn các demo kiểu OpenAI/Anthropic. Không biết có thể mạnh dạn gọi đây là một ví dụ về “human-centered design” không (https://en.wikipedia.org/wiki/Human-centered_design)
  • Rất ngầu. Nhưng demo vẫn cho cảm giác khá sắp đặt. Ví dụ như đếm đồ vật trong lúc tôi đang nói. Tôi tò mò những ứng dụng hữu ích hơn hoặc mang tính thương mại hơn sẽ trông như thế nào

    • Về mặt lý thuyết, tôi kỳ vọng nó sẽ làm được mọi thứ mà các mô hình frontier hiện tại làm được, nhưng có thêm tính tương tác thời gian thực để cộng tác tốt hơn. Ưu điểm lớn nhất có thể là đầu vào video thời gian thực. Thay vì nhận cả đoạn video hoặc nhận một loạt hình ảnh rồi đưa ra một đầu ra duy nhất, nó có thể vừa tiếp nhận đầu vào vừa song song tạo ra đầu ra được điều chỉnh theo chính đầu vào đó
    • Tôi luôn cảm nhận rất rõ điều này ở mọi demo AI. Nếu use case tốt nhất họ nghĩ ra để phô diễn công nghệ lại là đặt kỳ nghỉ mà tôi hoàn toàn có thể tự làm dễ dàng, thì liệu dịch vụ đó có thực sự tạo thêm nhiều giá trị không? Hay là ứng dụng thực tế lại tinh tế và chuyên môn hơn nên không hợp với một demo ngắn cho đại chúng? Tôi không biết nữa
  • Có cảm giác mẫu tương tác người-AI tự nhiên hơn sẽ phải đi theo hướng này. Bài viết và demo đều hay

  • Không muốn nói vậy, nhưng đây vừa trông khá ấn tượng và như một bước tiến trong cách tương tác với AI, vừa khiến tôi thấy các use case và UX được đưa ra là không thực tế hoặc không giúp ích mấy
    Dịch thời gian thực là ngoại lệ, và tự nó có lẽ nên là một sản phẩm riêng. Ngoài ra, các tính năng như đếm số con vật hay canh giờ làm quiz chẳng có nhiều tác dụng. Demo phát hiện tư thế thì buồn cười thật nhưng cũng khá phản địa đàng và kỳ quặc. Tôi cũng không thích chuyện AI chen vào mắng mỏ trước khi người kể kể xong chuyện đưa bố mẹ già đi đạp xe leo núi
    UX cũng có vấn đề. Việc mô hình chặn lời người dùng làm vỡ nhịp, ngay cả khi có vẻ cần thiết trong những use case kỳ lạ đó. Ngay trong video demo công khai cũng thấy các nhân viên/diễn viên phải khá tập trung để tiếp tục nói như thể họ không bị một cỗ máy robot khô khan cắt lời. Khi con người tham gia kiểu “chen lời được mời gọi” hiếm hoi này, họ có thể nói lùi xuống dưới người nói chính và thường căn thời điểm tinh tế hơn rất nhiều
    Ngay cả trong demo dịch tự động, dù họ đã hạ âm lượng giọng người xuống, AI vẫn lấn vào, và thực tế để làm được demo đó thì chắc phải kiểm soát cách nói rất nhiều hoặc nhiều khả năng hơn là phải mute đầu ra. Phiên dịch viên con người có cách hướng “đầu ra” về đúng người nghe dự định
    Phần hay nhất của công nghệ này là ở video đầu tiên, khi AI không chặn lời người dùng một cách không cần thiết. Nó giống như đã sửa được một lỗi quan trọng mà các mô hình hiện nay vẫn còn
    Một use case tốt có thể là đếm tật nói đệm như “ừm” khi luyện diễn thuyết trước công chúng

    • Các omni model có vẻ rất hữu ích cho tương tác người-máy thời gian thực. Những ví dụ hiện lên ngay là trợ lý giọng nói, trải nghiệm khách hàng, game, trợ lý cuộc họp, huấn luyện viên thời gian thực hoặc trợ lý người dùng khi dùng phần mềm, dịch thuật, và các tác vụ máy tính được điều khiển bằng giọng nói
      Ví dụ như phát triển frontend/mobile, CAD, 3D modeling. Theo truyền thống, các use case kiểu agent LLM như vậy thường có độ trễ lớn, vì mô hình phải chờ người nói kết thúc rồi mới quyết định gọi công cụ hay phản hồi, và nếu gọi công cụ thì lại phải xử lý kết quả công cụ rồi quyết định tiếp là gọi công cụ nữa hay phản hồi
  • Trông giống thứ mọi người đã làm cục bộ với Gemma4 và TTS rồi, chỉ là hào nhoáng hơn một chút
    Mô hình local sẽ sớm bắt kịp thôi

  • Có thể ý định là tốt, nhưng vào tay kẻ xấu thì nó có vẻ sẽ củng cố công nghệ giám sát. Đã đến lúc phản ứng rồi