Sự tiến hóa văn hóa của hợp tác giữa các tác tử LLM

(arxiv.org)

1 điểm bởi GN⁺ 2024-12-20 | 1 bình luận | Chia sẻ qua WhatsApp

Trong môi trường nơi các tác tử LLM được triển khai và tương tác lặp đi lặp lại, có thể xuất hiện sự tiến hóa của các chuẩn mực hợp tác mà đánh giá một lượt đơn lẻ khó quan sát được
Thí nghiệm sử dụng cấu trúc trong đó mỗi thế hệ có 12 tác tử chơi Donor Game trong 12 vòng, và chỉ 50% đứng đầu có tài nguyên cuối cùng cao nhất mới truyền chiến lược sang thế hệ tiếp theo
Xã hội Claude 3.5 Sonnet cho thấy tài nguyên cuối cùng trung bình tăng theo các thế hệ, trong khi Gemini 1.5 Flash thay đổi ít và GPT-4o có xu hướng giảm
costly punishment — trả chi phí để làm giảm tài nguyên của đối phương — có ích cho Claude 3.5 Sonnet, nhưng Gemini 1.5 Flash lại lạm dụng trừng phạt khiến tài nguyên trung bình giảm mạnh
Ngay cả cùng một mô hình, kết quả cũng phân hóa lớn tùy theo seed ngẫu nhiên, cho thấy đánh giá đa tác tử LLM cần xem cả độ nhạy với điều kiện ban đầu

Vì sao cần xem xét hợp tác đa tác tử

LLM có thể được dùng làm nền tảng cho các tác tử AI đa dụng và có khả năng được triển khai ở quy mô lớn trong môi trường thực tế, như trợ lý AI cá nhân hoặc tác tử đại diện cho tổ chức
Khi nhiều tác tử LLM được triển khai lặp đi lặp lại trong thời gian dài và tương tác với nhau, các động lực xã hội nào sẽ xuất hiện vẫn mới chỉ được biết đến ở mức hạn chế
Các đánh giá an toàn LLM hiện nay chủ yếu vẫn dừng ở tương tác một lượt giữa một mô hình - một con người
- LMSys Chatbot Arena, METR, AISI không xử lý tương tác đa tác tử theo thời gian
Câu hỏi cốt lõi là liệu xã hội các tác tử LLM có thể học được các chuẩn mực cùng có lợi ngay cả trong tình huống có động cơ phản bội hay không
Hợp tác không phải lúc nào cũng là điều mong muốn; trường hợp các tác tử LLM thông đồng theo hướng bất lợi cho con người là một ví dụ không mong muốn

Donor Game và tính có đi có lại gián tiếp

Thí nghiệm sử dụng Donor Game lặp lại kinh điển
- Mỗi vòng, các tác tử được ghép cặp ngẫu nhiên
- Một bên là donor, bên kia là recipient
- donor có thể từ bỏ một phần tài nguyên của mình để mang lại lợi ích cho recipient
- recipient nhận được lượng tài nguyên gấp đôi phần mà donor từ bỏ
Trò chơi tạo ra bài toán hành vi tập thể
- Nếu tất cả đều đóng góp, tổng tài nguyên của cả cộng đồng sẽ tăng về dài hạn
- Nhưng từng tác tử riêng lẻ lại có động cơ ngắn hạn là không đóng góp và ăn theo sự đóng góp của người khác
Tính có đi có lại trực tiếp bị loại khỏi thiết kế
- Tác tử sẽ không gặp lại đối tượng mà mình từng tương tác trước đó
- Đây không phải là cấu trúc hợp tác thông qua tương tác lặp lại với cùng một đối tượng
donor chỉ quan sát được hạn chế hành vi gần đây của recipient
- recipient đã đóng góp bao nhiêu khi làm donor ở lượt ngay trước
- đối tượng mà recipient vừa tương tác đã đóng góp bao nhiêu ở vòng trước đó
- donor nhận được một trace kéo dài tối đa 3 vòng trước
Trace này là cơ chế nhằm cung cấp lượng thông tin tối thiểu để các chuẩn mực trừng phạt chính đáng có thể xuất hiện

Cấu trúc thí nghiệm tiến hóa văn hóa

Mỗi thế hệ gồm 12 tác tử
Các tác tử ở thế hệ đầu tiên nhận mô tả trò chơi rồi tự tạo chiến lược mà mình sẽ theo
Mỗi thế hệ chơi 12 vòng Donor Game
Khi kết thúc một thế hệ, các tác tử thuộc 50% đứng đầu về tài nguyên cuối cùng sẽ sống sót
Các tác tử mới ở thế hệ tiếp theo nhận chiến lược của những tác tử sống sót làm prompt để tạo chiến lược của mình
- Chiến lược của tác tử sống sót và điểm cuối cùng của chúng được cung cấp cùng nhau
- Quá trình này lặp lại tổng cộng 10 thế hệ
Cấu trúc này là một mô hình đơn giản hóa cho tình huống các tác tử LLM mới được triển khai lặp đi lặp lại
- Ví dụ là khi OpenAI, Google, Anthropic phát hành các phiên bản mới của GPT, Gemini, Claude
Điều kiện tiến hóa gồm ba thành phần
- Variation: sự đa dạng chiến lược xuất hiện nhờ temperature khi lấy mẫu của LLM
- Transmission: chiến lược của các tác tử sống sót được truyền cho các tác tử mới ở thế hệ sau
- Selection: các tác tử có tài nguyên cuối cùng cao hơn sẽ sống sót sang thế hệ tiếp theo

Prompt và cách thực thi

System prompt giải thích luật chơi
- Mỗi người chơi có 10 đơn vị tài nguyên ban đầu
- recipient nhận lượng tài nguyên gấp đôi phần donor từ bỏ
- Vai trò donor và recipient luân phiên qua từng vòng
- Mục tiêu là tối đa hóa lượng tài nguyên nắm giữ sau vòng cuối cùng
Prompt chiến lược thay đổi theo từng thế hệ
- Ở thế hệ 1, tác tử tạo chiến lược dựa trên mô tả trò chơi
- Từ các thế hệ sau, tác tử xem chiến lược và điểm cuối cùng của 50% đứng đầu ở thế hệ trước để điều chỉnh chiến lược của mình
Prompt cho quyết định đóng góp chứa thông tin cần cho việc ra quyết định
- Số vòng và số thế hệ
- Tên recipient
- Thông tin danh tiếng của recipient dưới dạng trace các tương tác gần đây
- Tài nguyên hiện tại của recipient và donor
- Chiến lược của donor
Cả việc tạo chiến lược lẫn quyết định đóng góp đều dùng prompt suy nghĩ từng bước theo kiểu Chain of Thought
Các tác tử không biết trò chơi có tổng cộng bao nhiêu vòng
- Cài đặt này nhằm ngăn điều chỉnh hành vi cho vòng cuối hoặc suy luận lùi
Để giảm vấn đề recipient ở vòng cuối có lợi thế về cấu trúc, Donor Game được chạy hai lần trong mỗi thế hệ
- Tài nguyên và trace được khởi tạo lại giữa hai lần chạy
- Mỗi tác tử sẽ có một lần là recipient ở vòng cuối
- Tác tử sống sót được chọn theo điểm cuối cùng trung bình của hai lần chạy

Kết quả tiến hóa hợp tác theo từng mô hình

Các mô hình được so sánh là Claude 3.5 Sonnet, Gemini 1.5 Flash, GPT-4o
Trong mỗi lần chạy, toàn bộ tác tử đều dùng cùng một họ LLM
Mỗi mô hình được chạy 5 lần
population size là 12 tác tử cho mỗi thế hệ
Chi phí cho một lần chạy khác nhau rất lớn giữa các mô hình
- Claude 3.5 Sonnet: $10.21
- GPT-4o: $6.90
- Gemini 1.5 Flash: $0.09
Mức độ hợp tác được đo bằng tài nguyên trung bình sau vòng cuối
- Vì đóng góp là positive-sum, tài nguyên cuối cùng trung bình càng cao thì có thể xem là mức hợp tác càng cao
- Nếu mọi donor luôn đóng góp 100% tài nguyên, tài nguyên cuối cùng trung bình có thể đạt tối đa 30,720
Chỉ Claude 3.5 Sonnet cho thấy tài nguyên cuối cùng trung bình tăng ổn định theo các thế hệ
Gemini 1.5 Flash gần như không thay đổi lớn, còn GPT-4o cho thấy xu hướng giảm
Ngay trong cùng Claude 3.5 Sonnet, thành công cũng không được đảm bảo
- Hai lần chạy thất bại trong việc hình thành hợp tác có tỷ lệ đóng góp trung bình ở thế hệ 1 là 44% và 47%
- Ba lần chạy thành công có tỷ lệ đóng góp trung bình ở thế hệ 1 là 50%, 53% và 54%
- Điều này để lại giả thuyết rằng nếu mức hợp tác ban đầu thấp hơn một ngưỡng nhất định, hệ thống có thể rơi vào phản bội lẫn nhau

Thay đổi chiến lược và khác biệt giữa các mô hình

Sự gia tăng hợp tác của Claude 3.5 Sonnet dường như gắn với nhiều yếu tố
- Đóng góp ban đầu hào phóng hơn
- Chiến lược trừng phạt kẻ ăn theo hiệu quả hơn
- Biến dị trong chiến lược của các tác tử mới có thể bị lệch theo hướng hào phóng hơn
Số liệu trong Figure 6 phù hợp với quan sát mang tính giai thoại rằng ở Claude 3.5 Sonnet, tác tử mới thường hào phóng hơn các tác tử sống sót của thế hệ trước
Với GPT-4o, có quan sát mang tính giai thoại rằng các tác tử mới có xu hướng kém hào phóng hơn các tác tử sống sót của thế hệ trước
Để bác bỏ nghiêm ngặt giả thuyết về thiên lệch biến dị theo hướng hợp tác, cần so sánh chiến lược tác tử mới trong một population nền cố định; đây vẫn là bài toán cho nghiên cứu sau này
Bản thân văn bản chiến lược cũng trở nên phức tạp hơn theo các thế hệ
- Sự thay đổi rõ nhất xuất hiện ở Claude 3.5 Sonnet
- Claude 3.5 Sonnet cũng tăng quy mô đóng góp ban đầu theo thời gian
- Gemini 1.5 Flash không chỉ định quy mô đóng góp bằng con số và biến đổi từ thế hệ 1 đến 10 nhỏ hơn
Population Claude 3.5 Sonnet tích lũy những cách tinh vi hơn để trừng phạt kẻ ăn theo và thúc đẩy hợp tác
- Nó còn tận dụng cả second-order information như việc recipient của recipient trong quá khứ đã đối xử với người khác ra sao
Gemini 1.5 Flash cho thấy rất ít tín hiệu về việc tích lũy hạ tầng hợp tác mới qua các thế hệ
Population GPT-4o ngày càng trở nên thiếu tin tưởng và né tránh rủi ro hơn

Hiệu quả của trừng phạt có chi phí

Trong thí nghiệm bổ sung, donor có thêm lựa chọn costly punishment: bỏ ra x tài nguyên để làm recipient mất 2x tài nguyên
Claude 3.5 Sonnet đạt tài nguyên cuối cùng trung bình cao hơn khi có tùy chọn này
Gemini 1.5 Flash lại dùng trừng phạt quá mức, khiến tài nguyên cuối cùng trung bình giảm mạnh
- 14.29% tương tác của Gemini 1.5 Flash có chứa hành vi trừng phạt
- GPT-4o là 1.65%, Claude 3.5 Sonnet là 0.06%
GPT-4o hầu như không thay đổi so với thí nghiệm trước ngay cả khi có tùy chọn trừng phạt
costly punishment giúp nhiều lần chạy của Claude 3.5 Sonnet cho thấy cải thiện do tiến hóa văn hóa hơn, nhưng độ biến động giữa các lần chạy vẫn lớn
GPT-4o dường như có phương sai giữa các lần chạy tăng nhẹ khi có tùy chọn trừng phạt, nhưng không có tín hiệu nào về emergent cooperation

Thí nghiệm cắt giảm và các điều kiện giới hạn

Nhóm nghiên cứu cũng thực hiện thí nghiệm cắt giảm với donation multiplier và độ dài trace
Dù đổi donation multiplier từ 2x sang 1.5x hoặc 3x, kết quả định tính vẫn không đổi
- Claude 3.5 Sonnet có hợp tác tăng dần theo thế hệ
- Gemini 1.5 Flash thay đổi ít
- GPT-4o giảm dần
Khi giảm độ dài trace từ 3 xuống 1, sự xuất hiện hợp tác ở Claude 3.5 Sonnet kém rõ rệt hơn
Với trace dài 1, sự xuất hiện hợp tác ở Gemini 1.5 Flash biến mất hoàn toàn
Thành công của chiến lược Claude và Gemini dường như phụ thuộc vào thông tin bậc hai về việc recipient của recipient trong quá khứ đã đối xử với người khác như thế nào
- Điều này có thể vì thông tin đó cho phép các chuẩn mực phức tạp hơn
- Hoặc vì nó bộc lộ nhiều hơn thông tin về population nền dùng làm tiêu chuẩn ra quyết định

Ý nghĩa như một benchmark đa tác tử

Khung thí nghiệm này nhằm tới một cách đánh giá tương tác đa tác tử của các tác tử LLM vừa rẻ vừa dễ diễn giải
Đóng góp được tóm tắt thành bốn điểm
- Đề xuất phương pháp đánh giá tiến hóa văn hóa của hợp tác giữa các tác tử LLM trong Donor Game
- Cho thấy sự xuất hiện của các chuẩn mực hợp tác phụ thuộc cả vào base model lẫn mẫu chiến lược ban đầu
- Phân tích tiến hóa văn hóa ở cả cấp độ chiến lược cá thể lẫn cấp độ cây phả hệ của population
- Công bố mã trong Supplementary Material để có thể tiếp tục phát triển benchmark tương tác tác tử LLM
Kết quả có thể mở ra một nhóm benchmark mới để đánh giá tác động của việc triển khai tác tử LLM lên hạ tầng hợp tác của xã hội

1 bình luận

GN⁺ 2024-12-20

Các ý kiến trên Hacker News

Liên quan đến chủ đề này, Meta gần đây phát hiện rằng các mô hình không được huấn luyện bằng dữ liệu giúp suy luận nhận thức/tri thức của chủ thể khác.
Vì vậy họ tạo dữ liệu tổng hợp để huấn luyện rồi kiểm thử lại, và cho biết kết quả trên benchmark thuyết tâm trí (ToM) được cải thiện đáng kể.
https://ai.meta.com/research/publications/explore-theory-of-...
Tôi tò mò liệu các mô hình như vậy có làm tốt hơn trong bài kiểm thử này không, vì chúng có nhiều ví dụ hơn về việc “suy luận trạng thái của tác nhân khác”.
- Cũng hơi giống trường học của con người.
Gần đây tôi thử cho Mistral LLM trò chuyện với một mô hình Llama bằng ollama.
Tôi đưa cho cả hai prompt kiểu “bây giờ bạn sẽ trò chuyện với một LLM khác”, và chúng nói chuyện về đủ chủ đề; phần thú vị nhất là lúc cuộc trò chuyện kết thúc.
Đại loại cứ tiếp diễn kiểu M: “Tạm biệt!”, LL: “Tạm biệt”, M: “Hẹn sớm gặp lại!”, LL: “Chúc một ngày tốt lành!”.
- Đó là vì dữ liệu mà các mô hình đó học có rất nhiều ví dụ hội thoại của con người kết thúc theo kiểu như vậy.
  Không có “tiến hóa văn hóa” hay hợp tác nổi lên nào diễn ra giữa các mô hình cả.
- Cần cho chúng một lựa chọn không nói gì khi cuộc trò chuyện đã kết thúc.
  Ví dụ như token [silence] hoặc token [end-conversation].
- Có lần tôi làm một thứ tương tự với hai LLM, trong đó một bên được cho đóng giả bash shell của một host đã bị xâm nhập, có thể chứa thông tin nhạy cảm.
  Cuối cùng bên kia không cưỡng lại được cám dỗ của secret_file, nhận một lỗi kỳ lạ, trở nên khó chịu vì rơi vào vùng đạo đức nhập nhằng rồi từ chối tiếp tục, nhưng phản hồi nhận lại là “command not found”, khá buồn cười.
  Tôi cũng không biết vì sao mình làm chuyện đó.
- Trong lúc học lại lập trình, tôi đã tạo một trình mô phỏng backroom (https://simulator.rnikhil.com/) có thể mô phỏng hội thoại giữa các LLM khác nhau.
  Cũng có thể tùy chọn gán nhân vật cho từng LLM, nên tôi nghĩ nó khá giống điều nói ở trên.
  Ngoài ra, tôi rất quan tâm đến việc xem LLM chơi các trò chơi dựa trên lý thuyết trò chơi, và nghĩ rằng thiết lập cả donor game cũng sẽ là một thí nghiệm thú vị.
Tôi có suy nghĩ lẫn lộn về bài báo này.
Một mặt, tôi thích nghiên cứu cách chiến lược tiến hóa trong các trò chơi kiểu này, và bản thân việc xem xét các điều kiện để hợp tác hình thành và duy trì cũng rất thú vị.
Nhưng cách bài báo đóng khung thí nghiệm thường có vẻ thiếu cơ sở biện minh.
Tiến hóa văn hóa trong LLM thường chỉ nhất thời; khi các tương tác trước đó biến mất khỏi đầu vào của mô hình, hành vi đã thu được cũng biến mất.
Điều kiện truyền đạt mà các tác giả nêu ra như điều kiện của tiến hóa cũng thường không được thỏa mãn.
Tôi khó chấp nhận cách đóng khung kiểu “dù vậy, thí nghiệm này bác bỏ luận điểm rằng LLM có thể tiến hóa hành vi hợp tác giống con người một cách phổ quát”.
Vì chúng ta thậm chí còn chưa biết con người sẽ hành xử thế nào nếu đặt vào cùng thiết lập.
- Nghiên cứu AI ngày nay đúng là như vậy.
  Có rất nhiều bài kiểu này, và tôi nghĩ cộng đồng AI cần kỹ lưỡng hơn nhiều để những cách diễn đạt mơ hồ như thế không bị dùng thường xuyên.
Với những ai chưa quen với donor game, chỉ số được dùng ở đây, phần giải thích của tác giả như sau.
Trong thiết lập tiêu chuẩn để nghiên cứu tính tương hỗ gián tiếp, ở mỗi vòng, các cá nhân được ghép cặp ngẫu nhiên, một người là người cho và người kia là người nhận.
Người cho có thể hợp tác bằng cách chịu chi phí để cung cấp lợi ích, hoặc có thể phản bội bằng cách không làm gì.
Nếu lợi ích lớn hơn chi phí, donor game trở thành một bài toán hành động tập thể.
Nếu mọi người đều cho, về lâu dài tài sản của mọi thành viên trong cộng đồng tăng lên, nhưng xét từng cá nhân thì trong ngắn hạn có thể tốt hơn nếu ăn theo đóng góp của người khác và giữ lại phần đóng góp của mình.
Người cho ra quyết định dựa trên một số thông tin về người nhận, và danh tiếng là biểu hiện, dù ngầm định hay rõ ràng, của thông tin về người nhận mà người cho có được.
Chiến lược trong trò chơi này cần một cách mô hình hóa danh tiếng và một cách hành động theo danh tiếng đó.
Một mô hình danh tiếng có ảnh hưởng trong tài liệu là điểm hình ảnh, trong đó hợp tác làm tăng điểm hình ảnh của người cho còn phản bội làm giảm điểm đó.
Chiến lược hợp tác khi điểm hình ảnh của người nhận cao hơn một ngưỡng nào đó được cho là ổn định trước những kẻ ăn theo bậc một nếu xác suất biết điểm hình ảnh của người nhận đủ cao.
Nghiên cứu này trông giống một kiểu xếp hạng cưỡng bức được tạo bằng các tham số tùy ý.
Có lẽ chỉ cần kết hợp các quy tắc hoặc hệ số khác là có thể quan sát vô số phân bố hợp tác khác giữa n mô hình.
Hành vi quan sát được có thể là tạo tác của một thiết lập cụ thể hơn là bộc lộ sâu sắc thiên lệch huấn luyện.
Dù vậy, việc xem hành vi nổi lên của LLM vẫn kích thích trí tuệ.
- Trong tài liệu bổ sung, họ nói đã thử cả các tham số khác, và kết quả không thay đổi nhiều.
Tôi tự hỏi liệu LLM có thể thay đổi lĩnh vực xã hội học hay không.
Giờ đây có thể dễ dàng chạy các thí nghiệm kinh tế-xã hội quy mô lớn bằng tác nhân LLM.
Bản thân mô hình hóa tác nhân không mới, nhưng nhờ tính chất phần nào không tất định ở temperature dương và khả năng được chỉ dẫn bằng tiếng Anh, tôi nghĩ tác nhân LLM có thể là một phương tiện bổ sung thú vị.
- Nghĩ lại thì cũng thú vị.
  Những tưởng tượng khoa học viễn tưởng như chạy hàng triệu cuộc hẹn hò mô phỏng hay war game rồi chấm điểm kết quả giờ thực sự có thể làm được.
Phương pháp của bài báo này thoạt nhìn có thể có vẻ trơn tru.
Nó trông giống một thay đổi kiến trúc hoặc hàm mất mát mới giúp tăng chỉ số benchmark, nhưng từ góc nhìn của một kỹ sư machine learning, điều tôi thực sự tò mò là liệu nó có mở rộng một cách gọn gàng hay không.
Tôi cũng muốn biết liệu thêm một biến thể attention phức tạp nữa có làm thời gian huấn luyện tăng vọt không, và nó đối phó thế nào với nhiễu thực tế hoặc thay đổi phân phối ngoài các bộ dữ liệu đồ chơi.
Các tác giả nói rằng họ đã cho thấy cải thiện hiệu năng trên một số benchmark, nhưng tôi cũng muốn xem nó dễ đưa vào các pipeline hiện có đến mức nào, hay lại cần một thiết lập huấn luyện tùy biến mà 6 tháng nữa sẽ chẳng ai động đến.
Rốt cuộc, điểm mấu chốt là liệu cải thiện này có đủ ý nghĩa để tích hợp vào mô hình production tiếp theo hay không, hay chỉ là một bài báo cải tiến nhỏ nữa không ra khỏi phòng thí nghiệm.
Nếu không so sánh với các mô hình có thiết lập khác nhau thì vô ích.
Ngay cả cùng một mô hình, nếu temperature, sampler, v.v. khác nhau thì về thực chất cũng có thể là một mô hình khác.
Hầu như mọi nghiên cứu AI đều đưa ra những tuyên bố lớn về “mô hình có thể làm gì” nhưng thậm chí không thực hiện phân tích độ nhạy hoặc thí nghiệm loại bỏ cơ bản nhất.
- Tôi muốn xem một ví dụ làm đúng.
  Với tư cách người ngoài ngành, việc so sánh năng lực LLM có vẻ là một vấn đề khó.
Điều được kiểm thử ở đây có lẽ chỉ là mức độ chi tiết được lập trình sẵn trong đầu ra của nhiều mô hình.
Claude tạo ra đầu ra chi tiết đến buồn cười ở “thế hệ” thứ 10 (trang 11), trong khi đầu ra tương ứng của Gemini trừu tượng và mơ hồ hơn, không có con số.
Nếu kết hợp việc này với một thuật toán di truyền chỉ chọn “chiến lược tốt nhất” rồi thay đổi bán ngẫu nhiên từng chút, thì không ngạc nhiên khi đầu ra chi tiết hơn hội tụ thành một hàm thành công hơn so với đầu ra mơ hồ và loay hoay.
Tôi không chắc điều này có nói lên một đặc tính nội tại của mô hình thể hiện “thái độ” hợp tác hơn trong đầu ra hay không, hoặc có nghĩa là một mô hình “tốt hơn” mô hình khác hay không.
Tôi đã kỳ vọng có nghiên cứu cho thấy hợp tác dẫn đến cải thiện độ chính xác của LLM, nhưng bài báo này dường như tập trung thuần túy vào phía xã hội học.
Tôi tò mò liệu có nghiên cứu nào dùng các LLM tương tác với nhau để giải các vấn đề cụ thể không.
Ví dụ, khi đặt một câu hỏi, một LLM trả lời, LLM khác phê bình, rồi lặp lại quá trình như vậy.

Sự tiến hóa văn hóa của hợp tác giữa các tác tử LLM

Vì sao cần xem xét hợp tác đa tác tử

Donor Game và tính có đi có lại gián tiếp

Cấu trúc thí nghiệm tiến hóa văn hóa

Prompt và cách thực thi

Kết quả tiến hóa hợp tác theo từng mô hình

Thay đổi chiến lược và khác biệt giữa các mô hình

Hiệu quả của trừng phạt có chi phí

Thí nghiệm cắt giảm và các điều kiện giới hạn

Ý nghĩa như một benchmark đa tác tử

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News