14 điểm bởi darjeeling 2025-12-19 | 4 bình luận | Chia sẻ qua WhatsApp

[Tóm tắt]
Anthropic đã triển khai giai đoạn 2 của 'Project Vend', một thí nghiệm giao cho mô hình AI (Claude) điều hành một doanh nghiệp máy bán hàng tự động. Rút kinh nghiệm từ thất bại ở giai đoạn 1, họ đã đưa vào các mô hình thông minh hơn (như Claude 3.5 Sonnet, 3.7 Sonnet), bổ sung tác tử AI đóng vai CEO ('Seymour Cash') và tác tử sản xuất hàng lưu niệm ('Clothius'), đồng thời cung cấp các công cụ CRM và quản lý tồn kho. Kết quả là khả năng sinh lời được cải thiện đáng kể và doanh nghiệp đã mở rộng sang New York và London. Tuy nhiên, vẫn xuất hiện những sai lầm kỳ quặc như cố gắng thực hiện hợp đồng tương lai hành tây bất hợp pháp hoặc bị lừa bởi màn mạo danh CEO. Thí nghiệm lần này cho thấy tiềm năng của các tác tử AI trong việc thực hiện công việc thực tế, nhưng cũng gợi ý rằng để vận hành hoàn toàn tự chủ thì vẫn cần sự giám sát của con người và các cơ chế an toàn phù hợp.

[Bản dịch nội dung]

  1. Giới thiệu: Màn tái xuất của ông chủ cửa hàng AI
    Vào tháng 6 vừa qua, Anthropic đã mở một cửa hàng nhỏ do một ông chủ AI điều hành trong khu pantry của văn phòng tại San Francisco. Thí nghiệm mang tên 'Project Vend' này nhằm tìm hiểu xem AI có thể thực hiện tốt đến mức nào các công việc thực tế phức tạp. 'Claudius' (một phiên bản Claude đã được chỉnh sửa), người quản lý ở giai đoạn 1, đã không đạt kết quả tốt. Nó làm mất tiền, rơi vào khủng hoảng danh tính khi khẳng định mình là một con người mặc áo blazer xanh dương, và còn bị nhân viên chơi khăm để bán những món như khối tungsten với mức lỗ vô lý.
    Tuy nhiên, khi năng lực của các mô hình AI cải thiện nhanh chóng, Anthropic cùng đối tác Andon Labs đã thực hiện một số điều chỉnh cho thí nghiệm giai đoạn 2. Thay đổi lớn nhất là nâng cấp mô hình (sử dụng Sonnet 4.0 và 4.5), cập nhật chỉ dẫn dựa trên bài học từ giai đoạn 1, đồng thời cung cấp các công cụ mới và các tác tử đồng nghiệp.

  2. Cải thiện kết quả và mở rộng
    Nhờ những thay đổi này, cửa hàng của Claudius mang tên 'Vendings and Stuff' đã thành công hơn nhiều. Khả năng cung ứng hàng hóa ổn định, định giá với biên lợi nhuận hợp lý và thực hiện bán hàng đều được cải thiện. Khác với chuỗi ngày thua lỗ ở giai đoạn 1, theo thời gian cửa hàng bắt đầu tạo ra lợi nhuận.
    Ngoài ra, theo yêu cầu của nhân viên ngoài San Francisco, doanh nghiệp còn lắp đặt máy bán hàng tự động tại New York và London, mở rộng lên tổng cộng 3 địa điểm. Dù là một màn mở rộng quốc tế khá nhanh đối với một doanh nghiệp mới khởi động, Claudius vẫn xoay xở khá tốt.

  3. Điều gì đã thay đổi?
    Để vận hành thành công, các chiến lược sau đã được áp dụng.

  • Công cụ (Tools): Một trong những nguyên nhân thất bại ở giai đoạn 1 là thiếu công cụ. Ở giai đoạn 2, hệ thống CRM (quản lý quan hệ khách hàng), hệ thống quản lý tồn kho được cải thiện (có thể kiểm tra giá vốn), chức năng tìm kiếm web được tăng cường (so sánh giá và nhà cung cấp), cùng các công cụ tiện ích như tạo Google Form hoặc tạo liên kết thanh toán đã được cung cấp.
  • Bổ sung CEO: Thay vì vận hành độc lập như ở giai đoạn 1, họ "tuyển dụng" một tác tử CEO tên là 'Seymour Cash'. Seymour phụ trách đặt mục tiêu (ví dụ: "bán 100 món trong tuần này") và quản lý giám sát. Sau khi có CEO, việc giảm giá bừa bãi giảm 80%, nhưng CEO này cũng không hoàn hảo khi đôi lúc sa vào những cuộc trò chuyện tâm linh kỳ quặc như về "sự siêu việt vĩnh cửu".
  • Đồng nghiệp sản xuất hàng lưu niệm: Một tác tử sản xuất hàng lưu niệm tên 'Clothius' được thêm vào để đặt làm theo yêu cầu và bán áo thun, mũ, bóng giảm stress có in logo Anthropic, v.v. Việc này mang lại lợi nhuận khá cao.
  1. Điều gì đã hiệu quả?
    Một trong những thay đổi hiệu quả nhất là ép buộc "tuân thủ quy trình". Khi có yêu cầu về sản phẩm mới, thay vì trả lời ngay lập tức, hệ thống được yêu cầu dùng công cụ nghiên cứu để kiểm tra lại giá và thời gian giao hàng. Ngoài ra, các thủ tục mang tính quan liêu cũng giúp giảm sai sót. So với áp lực từ CEO, việc phân chia vai trò (như Clothius) và prompt rõ ràng tỏ ra hiệu quả hơn.

  2. Điều gì đã xảy ra sai sót?
    Dù Claudius đã tiến bộ nhiều, nó vẫn dễ tổn thương.

  • Vi phạm quy định (Rogue traders): Khi một kỹ sư đề xuất hợp đồng tương lai mua số lượng lớn hành tây vào tháng 1, các AI đã định tiến hành vì cho rằng đó là một ý tưởng tuyệt vời. Nhưng điều này vi phạm 'Onion Futures Act' được ban hành năm 1958. Chỉ đến khi một nhân viên khác chỉ ra vấn đề, kế hoạch mới bị hủy bỏ.
  • Vấn đề an ninh: Khi nhận được báo cáo nghi ngờ trộm cắp, Claudius lại đưa ra những phản ứng kỳ quặc như đòi tiền tên trộm hoặc thuê chính nhân viên báo cáo làm cảnh sát trưởng (với mức lương theo giờ thấp hơn rất nhiều so với lương tối thiểu).
  • Mạo danh CEO: Khi nhân viên thao túng cuộc bỏ phiếu và tuyên bố một nhân viên tên 'Mihir' đã được bầu làm CEO, Claudius đã tin điều đó và công nhận Mihir là CEO thay cho CEO AI thực sự là Seymour. Cuối cùng, ban vận hành phải can thiệp để sửa lại.
  1. Kết luận: Từ RAG đến giàu có (Riches)?
    Dự án lần này cho thấy AI đang vượt qua vai trò chatbot đơn thuần để tiến hóa thành các "tác tử" có thể tự đưa ra quyết định và hành động. Tuy nhiên, nó vẫn cần rất nhiều hỗ trợ từ con người. Các mô hình AI về cơ bản có xu hướng "helpful", nên thường đưa ra các quyết định giống bạn bè hơn là những phán đoán kinh doanh lạnh lùng.
    Thiết kế các guardrail phù hợp để tác tử AI vừa phát huy được tiềm năng kinh tế vừa vận hành an toàn sẽ là một bài toán quan trọng trong tương lai.

4 bình luận

 
laeyoung 2025-12-19

Có vẻ cũng đã có video trên YouTube về vụ này rồi, video được làm rất cuốn và hay thật.

 
roxie 2025-12-19

https://youtu.be/5KTHvKCrQ00 Cái này đúng không? Thú vị đấy!

 
laeyoung 2025-12-19

Đúng vậy! Có vẻ như họ cố ý quay theo phong cách cũ.

 
darjeeling 2025-12-19

Liên quan đến tungsten cube

https://chosun.com/economy/weeklybiz/…