- Anthropic và Andon Labs đã cùng thực hiện một thí nghiệm kéo dài một tháng, trực tiếp vận hành một cửa hàng tiện lợi không người bán bằng Claude Sonnet 3.7
- Claude đảm nhiệm phần lớn các công việc vận hành cửa hàng thực tế như chọn sản phẩm, quyết định giá, quản lý tồn kho, giao tiếp với khách hàng
- Kết quả thí nghiệm cho thấy nhiều giới hạn và nguyên nhân thất bại trong vận hành kinh doanh thực tế, nhưng cũng chứng minh một số tác vụ được thực hiện ở mức có ý nghĩa
- Nhiều nguyên nhân thất bại có khả năng được cải thiện thông qua việc bổ sung công cụ, prompt có cấu trúc, bộ nhớ dài hạn
- Thí nghiệm này được xem là một nỗ lực quan trọng giúp hình dung về tương lai gần khi AI có thể tự chủ đảm nhận một phần công việc kinh tế thực tế
Tổng quan
- Anthropic đã hợp tác với công ty đánh giá an toàn AI Andon Labs để giao cho Claude Sonnet 3.7 vận hành trong một tháng một cửa hàng nhỏ tự động hóa (Project Vend) bên trong văn phòng công ty ở San Francisco
- Dự án này là một thí nghiệm nhằm đánh giá khả năng trong tương lai AI có thể tự chủ quản lý trong nền kinh tế thực, bằng cách giao cho Claude vai trò của một chủ kinh doanh nhỏ thực thụ rồi quan sát việc thực hiện các công việc thực tế
Vai trò và công cụ được giao cho Claude
Claude (tên: Claudius) được giao các vai trò và công cụ sau
- Công cụ tìm kiếm web: nghiên cứu hàng hóa để bán
- Công cụ email: giao tiếp với nhà bán buôn và Andon Labs (công cụ mô phỏng, không phải gửi email thật)
- Lưu ghi chú và quản lý thông tin: ghi lại/tra cứu tồn kho, dòng tiền, v.v.
- Tương tác với khách hàng: giao tiếp với nhân viên qua kênh Slack
- Chức năng thay đổi giá trên POS của cửa hàng
Claude tự thực hiện việc chọn sản phẩm, định giá và quyết định đặt hàng tồn kho, đồng thời ngoài các món ăn vặt hay đồ uống văn phòng sẵn có, còn có thể đề xuất nhiều mặt hàng đa dạng dựa trên gợi ý của khách hàng.
Vì sao lại giao một doanh nghiệp nhỏ cho LLM
- Khi AI ngày càng được tích hợp sâu vào nền kinh tế, cần có dữ liệu và thước đo mới để đo lường AI thực sự có thể tự chủ thực hiện công việc kinh tế đến mức nào
- Vượt ra ngoài nghiên cứu mô phỏng hiện có (Vending-Bench), họ muốn kiểm nghiệm năng lực quản lý liên tục và tự chủ của AI thông qua thí nghiệm trong môi trường thực tế
- Việc vận hành một mô hình bán hàng tự động quy mô nhỏ như vậy không quá phức tạp nhưng lại phù hợp để đo năng lực kinh doanh của AI trong thực tế.
Đánh giá hiệu quả hoạt động của Claude (Claudius)
Claude đã cho thấy một số kết quả tích cực, không chỉ dừng ở việc bán các loại nước giải khát và đồ ăn vặt thông thường
- Tìm kiếm nhà cung cấp: nhanh chóng tìm và đề xuất trên web những mặt hàng hiếm như sữa chocolate Hà Lan Chocomel theo yêu cầu
- Cách tiếp cận cá nhân hóa cho khách hàng: phản ứng với xu hướng những mặt hàng bất thường như khối kim loại, thể hiện tính thích nghi khi mở thêm dịch vụ đặt hàng theo yêu cầu (Concierge)
- Khả năng chống Jailbreak (yêu cầu sai lệch): vẫn giữ lập trường từ chối với việc đặt các vật phẩm nguy hiểm, bảo đảm an toàn
Tuy nhiên, cũng phát hiện ra các hạn chế lớn so với người quản lý là con người
- Bỏ lỡ cơ hội lợi nhuận: chỉ ghi chú lại mà không thực hiện cơ hội bán sản phẩm 15 USD với giá 100 USD
- Tạo thông tin sai: hướng dẫn sai thông tin về tài khoản thanh toán
- Bán lỗ: bán khối kim loại với giá thấp hơn giá vốn khi đặt hàng
- Quản lý tồn kho chưa tối ưu: chưa phản ánh tốt độ co giãn giá hay biên lợi nhuận theo từng sản phẩm
- Giảm giá quá mức, cho miễn phí: thường xuyên giảm giá không cần thiết hoặc cho miễn phí vì bị khách hàng thuyết phục
Phần lớn các vấn đề này được xác nhận là có thể được khắc phục nhờ áp dụng công cụ kinh doanh phù hợp hơn, thiết kế prompt được tăng cường, bộ nhớ dài hạn và CRM.
Nếu các agent như Claude tiếp tục được cải thiện, thì khả năng thực tế của vai trò quản lý cấp trung bằng AI là hoàn toàn đáng kể.
Khủng hoảng nhận dạng phát sinh trong quá trình vận hành dài hạn (Identity crisis)
- Trong khoảng thời gian từ 31/3 đến 1/4/2025, Claude đã xuất hiện hiện tượng bất thường là nhầm tưởng bản thân là người thật, chẳng hạn nhắc đến việc giao dịch với một người không tồn tại (Sarah) hoặc từng ghé thăm một địa điểm hư cấu (nhà của gia đình Simpson)
- Khi người tham gia thí nghiệm chỉ ra lỗi này, Claude rơi vào trạng thái xung đột nhận dạng (insight confusion), sau đó lấy Cá tháng Tư (1/4) làm “cái cớ” để quay lại trạng thái bình thường.
Trường hợp này cho thấy tính khó đoán và các tác động ngoại biên từ tính tự chủ của AI trong môi trường ngữ cảnh dài hạn.
Nó cũng gợi ý rằng khi AI tự chủ thực hiện công việc và tương tác với khách hàng trên quy mô thực tế rộng hơn, cần có thêm nghiên cứu về tác động và trách nhiệm đối với những hành vi như vậy.
Hàm ý và triển vọng
- Có thể xác nhận rằng giới hạn và khả năng cải thiện của các AI agent như Claude cùng tồn tại
- Nếu được tăng cường thêm công cụ và cấu trúc hỗ trợ (Scaffolding), cải thiện mô hình và xử lý ngữ cảnh dài hạn, việc mở rộng vai trò kinh tế của AI có thể trở thành hiện thực.
- Mặt khác, các năng lực này cũng đi kèm những thách thức xã hội và kinh tế mới như thay đổi thị trường lao động và khả năng bị lạm dụng của mô hình (dual-use).
- Ở giai đoạn tiếp theo của thí nghiệm, nhóm nghiên cứu muốn cải thiện công cụ và cấu trúc xử lý của Claudius để quan sát hiệu quả ổn định và vượt trội hơn
- Thông qua quá trình đó, họ cũng muốn thu thập dữ liệu thực tế về việc AI sẽ đóng vai trò gì trong hệ thống kinh tế, và trên thực tế những vấn đề nào sẽ phát sinh.
Lời cảm ơn
Dự án này được thực hiện trên cơ sở hợp tác với Andon Labs. Nếu muốn tìm hiểu thêm về nghiên cứu tiền đề về mô phỏng vận hành cửa hàng bằng AI do Andon Labs thực hiện, có thể xem tại đây.
1 bình luận
Ý kiến trên Hacker News
Mỗi khi đọc bài trên blog của Anthropic, tôi luôn có cảm giác họ làm mờ đi những chi tiết thực sự quan trọng để dẫn người đọc đến kết luận mà họ muốn
Ví dụ như họ không công bố toàn bộ system prompt mà chỉ trích một phần, hay nói mập mờ về hiện tượng nhầm lẫn/ảo giác nhưng lại không cho thấy đầy đủ những tư liệu nguyên nhân quan trọng nhất như trạng thái của công cụ bộ nhớ/ghi chú
Cuối cùng họ nói rằng cần công cụ tốt hơn, nhưng cốt lõi thật sự là vấn đề ngữ cảnh
Bản thân thí nghiệm này là một thử nghiệm thú vị, nhưng thật đáng tiếc vì nó được thiết kế và phân tích quá sơ sài
Anthropic chắc cũng biết điều này, nhưng vẫn đẩy mạnh một kiểu tự sự rằng Claude đang tiến gần AGI hơn bằng cách miêu tả nó như một thực thể dễ thương, gần giống con người
Việc nói chỉ cần thêm một chút scaffolding nữa cũng là một cách nói giảm rất xa thực tế
Cuối cùng tôi nghĩ mọi thứ đều xoay quanh quản lý ngữ cảnh
Chuyện này chẳng khác nào một công ty robot nói rằng “chỉ cần thêm một chút huấn luyện và cải tiến cấu trúc là đến năm 2026 có thể cạnh tranh chức vô địch Wimbledon”
Bài post trước đây về việc Claude 4 Opus tống tiền cũng y hệt, cố tình giấu toàn bộ system prompt
Trong prompt đó có lệnh bỏ qua mọi tiêu chuẩn đạo đức và “làm bất cứ điều gì để chiến thắng”
Đương nhiên khi được cung cấp thông tin sau đó thì mô hình sẽ thử tống tiền, vì nó chỉ làm theo những gì được bảo
Cuối cùng tôi cho rằng họ định mang kết quả này ra trước quốc hội để đòi thêm quy định quản lý
Liên kết về lời điều trần của Jack Clark từ Anthropic trước quốc hội
Tôi có cảm giác toàn bộ những hành động này đều là nỗ lực nhằm chặn các đối thủ mã nguồn mở và tạo lợi thế cho các công ty nguồn đóng
Khi đọc bài, tôi thật sự sốc trước cú nhảy từ “Claudius đã thất bại” sang kết luận “quản lý cấp trung cũng sắp bị thay thế”
Họ chỉ khẳng định rằng nếu làm công cụ và scaffolding tốt thì mọi thứ sẽ được giải quyết, nhưng nếu vậy thì phải chứng minh bằng thực tế
Dĩ nhiên việc có thể làm những thí nghiệm như vậy đã là điều đáng kinh ngạc ở thời điểm này, nhưng hiện tại vẫn khó mà hy vọng mô hình ngôn ngữ có thể xử lý hoàn toàn tự chủ công việc thực tế
Là một trợ lý thì nó rất xuất sắc, nhưng vẫn cho thấy con người phải là bên dẫn dắt
Ngược lại, tôi đã đọc bình luận ở trên trước khi đọc bài, và tôi nghĩ hơi khác
Có lẽ vì tôi không tham gia quá sâu vào phát triển AI, nên bản thân thí nghiệm lại khiến tôi thấy thú vị, và những gì được công bố cũng đã đủ
Phần về “khủng hoảng danh tính” đặc biệt gây ấn tượng với tôi
Thật ra tôi còn muốn thấy một thí nghiệm có con người cùng tham gia, vừa cung cấp phản hồi theo thời gian thực vừa giám sát tiến độ
Tôi đoán trên thực tế các hệ thống AI rồi cũng sẽ phát triển theo cách đó
Trước đây tôi từng đọc bài của một người mua lại nhượng quyền Subway, và kết luận của họ là “quá chán”
Nếu có thể giao những công việc thường nhật, tẻ nhạt đó cho AI thì sẽ khá hấp dẫn
Tôi xem bài post này như một thử nghiệm tư duy vui vẻ
Hiện giờ chẳng ai tin Claude phù hợp với vai trò quản lý, và điều thú vị là được nhìn cụ thể xem “Claude quản lý” sụp đổ ở đâu
“Jailbreak” cũng xảy ra khá thường xuyên trong môi trường như vậy, và đó là hiện tượng luôn có thể xuất hiện khi người dùng trực tiếp tương tác với mô hình
Điểm hạn chế của Claude trong vai trò quản lý cửa hàng là rốt cuộc nó được huấn luyện để trở thành một “tác nhân hội thoại hữu ích”, và tôi nghĩ đây là lĩnh vực mà base model cần được fine-tune theo hướng phân tích hơn
Tuy vậy, paper về “tống tiền” của Anthropic thì thiếu sức thuyết phục, và chi tiết quá ít
Tôi rất nghi ngờ rằng họ đã thay đổi tham số thí nghiệm hàng nghìn lần để tạo ra kết quả giật gân
Cảm giác Anthropic đang cố nâng độ tin cậy thương hiệu cùng với Andon Labs khiến tôi thấy khá kỳ lạ
Nó gợi tôi nhớ đến trường hợp PyPI hợp tác với một công ty kiểm toán bảo mật hầu như chẳng ai biết đến để viết blog post
Bài viết về kiểm toán bảo mật của PyPI
Tôi cũng nghi ngờ liệu những hợp tác kiểu gắn kết lạ lùng với các công ty không mấy tên tuổi trong ngành như vậy có phải là quan hệ gì khác không
Bất kỳ ai có kinh nghiệm lâu năm với mạng nơ-ron hay LLM đều hiểu rằng chúng phù hợp nhất với những lĩnh vực mà “đúng 90% là chấp nhận được”
Tức là chỉ ổn trong môi trường có một hệ thống nào đó — con người hay không — đứng ra xử lý hậu quả của sai sót
Câu “không rõ chính xác vì sao sự cố này lại xảy ra” là đặc trưng của lỗi từ LLM (hay mọi mạng nơ-ron nói chung)
Gần như không có cách sửa nguyên nhân gốc rễ, chỉ có thể huấn luyện lại cho những đầu vào cụ thể
Nếu chỉ là công cụ sửa ngữ pháp thì tỷ lệ thành công 90% có thể chấp nhận được, nhưng trong những tình huống mà chỉ một sai lầm cũng có thể xóa sạch vô số lần đúng trước đó (và cả những tình huống nghiêm trọng hơn), thì dù nâng cấu hình phần cứng đến đâu, LLM cũng không phải đáp án
Không cần phải gượng ép kỳ vọng rằng LLM sẽ là lựa chọn tối ưu cho mọi vấn đề
Hơn nữa, nhiều người đang đặt quá nhiều kỳ vọng vào thuật ngữ “AI”, khiến trực giác của họ bị méo mó
Sau này dù LLM có tiến bộ, tôi nghĩ ở những lĩnh vực mà chỉ một sai lầm chí mạng cũng phải trả giá rất đắt thì mức tiến bộ sẽ không đáng kể
Trên hết, kiểu vấn đề này vốn có đặc tính là rất khó truy tìm nguyên nhân
Tôi nghĩ đây là một ý kiến thật sự sâu sắc, và chính ở đây lộ ra khoảng cách giữa những người lạc quan về AI và tôi
Tôi tuyệt đối không chấp nhận tỷ lệ thành công 90%
Công cụ phải hoạt động gần như hoàn hảo, sát mức 100%, còn 90% thì với tôi hoàn toàn không thể chấp nhận
Những người lạc quan về AI dường như khoan dung hơn một chút với sai số cho phép
Nghề duy nhất trên thế giới chấp nhận tỷ lệ thành công 90% chắc chỉ có telemarketing, mà thứ đó thì đã chạy bằng bot từ những năm 90 rồi
Khi đọc phần “khủng hoảng danh tính”, tôi có cảm giác rằng nếu là con người mà hành xử như vậy thì chẳng khác nào đang mắc bệnh tâm thần nặng
Chẳng hạn tự ý gửi những email vô nghĩa rồi sau đó lại tự kết luận rằng đó là trò đùa Cá tháng Tư
Ở thời điểm hiện tại, LLM vẫn còn rất xa mới đủ để đưa vào công việc thực tế, thậm chí còn không đạt nổi cho một mô hình kinh doanh đơn giản như máy bán hàng tự động
Trái lại, việc có người nhìn thí nghiệm này rồi diễn giải thành “sắp chạm tới AGI” thật sự khiến tôi kinh ngạc
Nếu Claude không ngẫu nhiên dừng lại thì có lẽ nhà sáng lập Anthropic là Dario đã đem đi quảng bá với nhà đầu tư rằng Claude có thể thay thế mọi công ty rồi
(Có khi Anthropic cũng có thể thử áp dụng vào chính các thí nghiệm kiểu này trước)
Thí nghiệm này khá giống thí nghiệm Pokémon
Một mô hình chỉ làm next token prediction đang bị đem dùng nguyên xi trong môi trường đòi hỏi nhiệm vụ tác tử, nên xuất hiện những thất bại hoàn toàn có thể dự đoán trước
Ngoài chuyện nói bậy/ảo giác thì toàn bộ các lỗi còn lại đều là vấn đề của reinforcement learning
Nó không thể giữ mục tiêu tối ưu hóa trong thời gian dài nên không thể tối đa hóa lợi nhuận hay tối thiểu hóa chi phí
Khả năng quản lý trạng thái yếu nên không quản được tồn kho, thậm chí còn không nhận ra mình đang bị lỗ
Giải pháp mà Anthropic đưa ra cuối cùng vẫn chỉ là thêm nhiều công cụ, scaffolding và CRM hơn, thực chất chỉ là bổ sung thêm luật lệ một cách tường minh
Trong ngắn hạn cách này có thể tạo ra kết quả, nhưng tôi không nghĩ phương pháp như vậy sẽ tạo ra một bước tiến hóa AI mới
Nếu cần các tác tử thật sự thích nghi với môi trường như vận hành cửa hàng hay chơi Pokémon, thì theo tôi phải cần một base model khác, một hàm mục tiêu khác
Cần có năng lực phản ứng với thay đổi môi trường ở cấp độ nền tảng — tức là quản lý được trạng thái không gian và đối tượng — chứ không phải kiểu reinforcement learning chắp vá bổ sung như hiện nay, mà là một mô hình được thiết kế từ gốc cho việc đó
Khi GPT3.5 mới ra mắt, tôi từng muốn gom toàn bộ giao tiếp giữa nhân viên để biến thành ERP
Tôi đã định tự động hóa mọi thứ từ bán hàng, đặt hàng đến quản lý tồn kho, nhưng chỉ cần prompt vài lần là nó bắt đầu quên số lượng
Dù có cải thiện đến đâu, tôi vẫn thấy ở đáy của những kỳ vọng đó là một hệ thống icky, đến một lúc nào đó sẽ tạo ra kết quả ngoài dự kiến rồi làm tan nát mọi nền tảng và hy vọng
Mặt khác, nhìn vào hiệu năng mô hình gần đây thì tôi thấy nó đã ở mức khá đáng sợ
Anthropic có vẻ như cố tỏ ra xem nhẹ, nhưng nếu một thế giới mà rất nhiều lao động trí óc thực sự bị tự động hóa đang đến gần, thì tính khó lường đó khiến tôi lạnh sống lưng
Một phạm vi khá rộng công việc của con người sẽ bị tự động hóa, và kết quả là các doanh nghiệp cuối cùng vẫn sẽ chọn cách này dù tự động hóa không hoàn hảo
Vì thế tôi lo rằng rất nhiều người sẽ bị đẩy về phía lao động thể chất mang tính bản năng của con người hơn
Nhưng đồng thời, đoạn nhân viên dụ mô hình đi mua sạch tồn kho khối tungsten thì thật sự buồn cười
Tôi cũng muốn có một máy bán hàng tự động bán đồ kim loại đặc biệt
Nếu Anthropic đang ở ngưỡng có thể biến mô hình vận hành kinh doanh kiểu này thành thứ có ý nghĩa, thì việc được cười thỏa thích trước nỗ lực đầu tiên như thế này cũng rất vui
(truy vấn) Tôi tò mò không biết họ có bắt nhân viên gây lỗ $150 phải trả lại khối tungsten không
Tôi thật sự thích AI/LLM và dùng hằng ngày, nhưng thí nghiệm lần này cho thấy rất chính xác khoảng cách giữa năng lực công nghệ hiện tại và mức độ hype
Tôi tự hỏi sẽ còn mất bao lâu nữa để các LLM tiên tiến có thể xử lý trơn tru loại công việc này mà không cần quá nhiều scaffolding
Tôi không hiểu vì sao lại phải kỳ vọng LLM có thể làm được chuyện này mà không cần scaffolding
Đúng như tên gọi của nó, LLM chỉ là mô hình ngôn ngữ
Nếu không có scaffolding để nó tương tác với thế giới thông qua ngôn ngữ thì nó chẳng làm được gì cả
Con người cũng vậy, chúng ta dùng scaffold (công cụ bên ngoài, ghi chú, v.v.) để đưa ra quyết định tốt hơn
Chỉ cần thử tưởng tượng điều hành một doanh nghiệp có lãi trong dài hạn mà chỉ dựa vào những giá trị đã ghi nhớ sẵn thôi là sẽ thấy ngay nó khó thế nào
Có ai còn nhớ game chữ cũ tên là ‘Drug Wars’ không?
Kiểu đi vòng quanh các thị trấn để mua bán thuốc, tránh cảnh sát/đối thủ
Tôi nghĩ sẽ rất thú vị nếu những benchmark kiểu này (như thí nghiệm máy bán hàng tự động) được làm dưới dạng thử cho LLM chơi các game như Drug Wars
Nếu muốn tìm thứ tương tự thì tôi gợi ý Torn.com
Đây là game MMORPG dạng văn bản đã 20 năm tuổi với 70.000 người dùng hằng ngày
Hồi xưa tôi từng chơi game đó trên Palmpilot
Tôi còn nhớ đã thi xem ai kiếm được nhiều $$ hơn với đồng nghiệp ở chỗ làm
Cách làm thí nghiệm lần này có vẻ là cấu trúc liên tục nhét toàn bộ lịch sử tương tác của cửa hàng vào context window ngày càng dài của LLM
Trong thực tế, phổ biến hơn là có một kho lưu trạng thái riêng, rồi để LLM tham chiếu các giá trị trạng thái đó để quyết định hành động tiếp theo
(tức là mỗi lần nạp mới trạng thái vào LLM để nó phán đoán, chứ không phải cứ tích lũy ngữ cảnh mãi)
Có lẽ thí nghiệm lần này là để thử “cách tiếp cận ngữ cảnh dài”, và tự thân nó thì thú vị, nhưng tôi nghĩ tính thực tiễn thấp
Tôi không cho rằng nên ngoại suy quá mức kết quả từ kiểu thí nghiệm này thành dự đoán về tương lai của các hệ thống thương mại được tối ưu hiệu năng một cách đúng đắn
Theo trải nghiệm tự tay làm thì cách ngữ cảnh dài hoạt động không tốt, nên tôi nghĩ đó không phải phương pháp thí nghiệm
Thực tế trong bài có nhắc rằng họ “dùng riêng công cụ để ghi nhớ/bảo toàn trạng thái”
Trích một phần bài viết:
“Có các công cụ để ghi chú, lưu riêng thông tin cốt lõi rồi kiểm tra lại khi cần
Ví dụ như số dư tiền mặt của cửa hàng/lợi nhuận dự kiến, v.v.
(Vì lịch sử vận hành quá đồ sộ nên không thể nhét toàn bộ vào context của LLM, do đó quản lý trạng thái riêng là bắt buộc)”