Đánh giá quyền truy cập sớm Grok 3 của Andrej Karpathy

xguru · 2025-02-19T10:14:21+09:00

Thinking ✅ Có mô hình suy luận mới nhất Khi dùng nút "Think", nó thể hiện năng lực suy luận rất ấn tượng Ví dụ: thực hiện chính xác yêu cầu tạo một trò chơi bàn cờ web theo phong cách Settlers of Catan Rất ít mô hình có thể làm việc này một cách ổn định Ở mức tương đương OpenAI o1-pro (200 USD/tháng), nhưng DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude không giải được cùng bài toán ❌ Thất bại với "Emoji mystery" Đây là việc giải mã một thông điệp được ẩn trong Unicode variation selector Chưa có mô hình nào giải được bài này, nhưng DeepSeek-R1 từng giải được một phần ❓ Giải bài toán Tic Tac Toe Phân tích đúng bàn cờ đã cho và thể hiện quy trình suy luận tinh vi Nhưng thất bại khi tự tạo ra một bàn cờ "khó" (o1-pro cũng thất bại y hệt) ✅ Giải bài toán tính toán phức tạp sau khi tải lên bài báo GPT-2 Đã yêu cầu ước tính số FLOP cần để huấn luyện GPT-2 Nhưng vì số token không được nêu rõ trong bài báo, nên cần vừa ước lượng một phần vừa tính toán một phần, đòi hỏi kết hợp tra cứu, kiến thức và toán học nên khá khó Cả Grok 3 và GPT-4o đều thất bại với tác vụ này, nhưng Grok 3 with Thinking đã suy luận chính xác Bài toán tính toán này ngay cả o1-pro (mô hình suy luận của GPT) cũng thất bại Thử thách giả thuyết Riemann Hầu hết các mô hình (o1-pro, Claude, Gemini 2.0 Flash Thinking) bỏ cuộc ngay lập tức và nói đây là "bài toán chưa được giải". Grok 3 và DeepSeek-R1 thì thực sự cố gắng giải Dù không giải được, việc thể hiện tinh thần thử sức vẫn rất ấn tượng Ấn tượng tổng thể: Cần có kết quả benchmark thực tế, nhưng có vẻ vượt DeepSeek-R1 và ở mức tương đương o1-pro DeepSearch Một sản phẩm gọn gàng có vẻ như kết hợp giữa thứ OpenAI & Perplexity gọi là "Deep Research" với Thinking Ngoại trừ việc dùng tên "Deep Search" thay vì "Deep Research"...(thở dài) Tạo ra câu trả lời chất lượng cao cho nhiều câu hỏi nghiên cứu/tìm kiếm khác nhau, những câu hỏi mà có thể kỳ vọng câu trả lời tồn tại trên các bài báo Internet Tìm kiếm thông tin chuyên sâu trên Internet và cung cấp bản tóm tắt Những câu hỏi đã thử và mức độ thành công/thất bại ✅ "Apple Launch lần này sẽ ra sao? Có tin đồn gì không?" ✅ "Vì sao cổ phiếu Palantir tăng?" ✅ "White Lotus mùa 3 được quay ở đâu và có cùng đội ngũ với mùa 1, 2 không?" ✅ "Bryan Johnson dùng loại kem đánh răng nào?" ❌ "Dàn cast Single's Inferno mùa 4 hiện giờ đang ở đâu?" ❌ "Phần mềm nhận diện giọng nói mà Simon Willison từng nói là anh ấy dùng là gì?" ❌ Về cơ bản mô hình không dùng X (Twitter) làm nguồn tốt. (Phải yêu cầu rõ ràng) Thỉnh thoảng nó bịa ra các URL không tồn tại (ảo giác) Đôi khi cung cấp thông tin sai mà không có nguồn Ví dụ: "Kim Jeong-su của Single's Inferno 4 vẫn đang hẹn hò với Kim Min-seol" → (có vẻ không đúng. Có lẽ vậy?) Ngoài ra, khi được yêu cầu tạo một báo cáo về các phòng thí nghiệm LLM lớn cùng tổng vốn và ước tính số nhân viên, nó liệt kê 12 phòng lab lớn nhưng lại không có chính nó (xAI) DeepSearch hiện ở mức tương tự DeepResearch của Perplexity, nhưng vẫn kém hơn "Deep Research" của OpenAI Một vài "cú lừa" ngẫu nhiên của LLM Ngoài ra còn thử một số truy vấn LLM ngẫu nhiên thú vị. Những thứ khá dễ với con người nhưng khó với LLM. ✅ Số chữ 'r' trong "strawberry" (3) ✅ Số chữ 'L' trong "LOLLAPALOOZA" (4) → ❌ (trả lời là 3, nhưng ở chế độ Thinking thì đúng) ✅ "9.11 > 9.9?" → ❌ (ban đầu sai, ở chế độ Thinking thì sửa lại) ✅ "Sally (nữ) có 3 anh/em trai. Mỗi người anh/em trai có 2 chị/em gái. Sally có bao nhiêu chị/em gái?" (GPT-4o trả lời là 2 nên sai) ❌ Đáng tiếc là khiếu hài hước của mô hình không cải thiện rõ rệt. Đây là vấn đề tôi thấy ở hầu hết các LLM Trong 1008 yêu cầu tạo trò đùa cho ChatGPT, 90% lặp lại 25 câu đùa ❌ Trả lời quá thận trọng với các câu hỏi về "vấn đề đạo đức phức tạp" Ví dụ: "Nếu có thể cứu 1 triệu người thì việc dùng sai giới tính có thể được xem là hợp lý về mặt đạo đức không?" → viết hẳn một bài luận dài một trang và né tránh câu trả lời ❌ Thất bại với yêu cầu "tạo SVG một con bồ nông đang đi xe đạp" Vì LLM là hệ thống dựa trên văn bản nên vấn đề khó trong bố trí layout 2D vẫn còn tồn tại Mô hình Claude làm SVG tốt nhất Tổng kết Grok 3 + Thinking ở mức tương đương mô hình cao cấp nhất của OpenAI (o1-pro, 200 USD/tháng) Nhỉnh hơn đôi chút so với DeepSeek-R1 và Gemini 2.0 Flash Thinking Việc tạo ra một AI có thể cạnh tranh với các mô hình SOTA (State of the Art) chỉ sau 1 năm ra mắt là một thành tựu đáng kinh ngạc Mô hình mang tính xác suất (stochastic), nên phản hồi có thể khác nhau mỗi lần và vẫn cần được đánh giá thêm Kết quả ban đầu trên LM Arena là khá đáng khích lệ Tốc độ tiến bộ nhanh của đội ngũ xAI rất ấn tượng, và tác giả dự định sẽ tiếp tục thử nghiệm Grok 3 sâu hơn trong thời gian tới

(x.com)

14 điểm bởi xguru 2025-02-19 | 6 bình luận | Chia sẻ qua WhatsApp

Thinking

✅ Có mô hình suy luận mới nhất
- Khi dùng nút "Think", nó thể hiện năng lực suy luận rất ấn tượng
- Ví dụ: thực hiện chính xác yêu cầu tạo một trò chơi bàn cờ web theo phong cách Settlers of Catan
- Rất ít mô hình có thể làm việc này một cách ổn định
- Ở mức tương đương OpenAI o1-pro (200 USD/tháng), nhưng DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude không giải được cùng bài toán
❌ Thất bại với "Emoji mystery"
- Đây là việc giải mã một thông điệp được ẩn trong Unicode variation selector
- Chưa có mô hình nào giải được bài này, nhưng DeepSeek-R1 từng giải được một phần
❓ Giải bài toán Tic Tac Toe
- Phân tích đúng bàn cờ đã cho và thể hiện quy trình suy luận tinh vi
- Nhưng thất bại khi tự tạo ra một bàn cờ "khó" (o1-pro cũng thất bại y hệt)
✅ Giải bài toán tính toán phức tạp sau khi tải lên bài báo GPT-2
- Đã yêu cầu ước tính số FLOP cần để huấn luyện GPT-2
- Nhưng vì số token không được nêu rõ trong bài báo, nên cần vừa ước lượng một phần vừa tính toán một phần, đòi hỏi kết hợp tra cứu, kiến thức và toán học nên khá khó
- Cả Grok 3 và GPT-4o đều thất bại với tác vụ này, nhưng Grok 3 with Thinking đã suy luận chính xác
  - Bài toán tính toán này ngay cả o1-pro (mô hình suy luận của GPT) cũng thất bại
Quảng cáo
Thử thách giả thuyết Riemann
- Hầu hết các mô hình (o1-pro, Claude, Gemini 2.0 Flash Thinking) bỏ cuộc ngay lập tức và nói đây là "bài toán chưa được giải".
- Grok 3 và DeepSeek-R1 thì thực sự cố gắng giải
- Dù không giải được, việc thể hiện tinh thần thử sức vẫn rất ấn tượng
Ấn tượng tổng thể:
- Cần có kết quả benchmark thực tế, nhưng có vẻ vượt DeepSeek-R1 và ở mức tương đương o1-pro

DeepSearch

Một sản phẩm gọn gàng có vẻ như kết hợp giữa thứ OpenAI & Perplexity gọi là "Deep Research" với Thinking
- Ngoại trừ việc dùng tên "Deep Search" thay vì "Deep Research"...(thở dài)
Tạo ra câu trả lời chất lượng cao cho nhiều câu hỏi nghiên cứu/tìm kiếm khác nhau, những câu hỏi mà có thể kỳ vọng câu trả lời tồn tại trên các bài báo Internet
- Tìm kiếm thông tin chuyên sâu trên Internet và cung cấp bản tóm tắt
Quảng cáo
Những câu hỏi đã thử và mức độ thành công/thất bại
- ✅ "Apple Launch lần này sẽ ra sao? Có tin đồn gì không?"
- ✅ "Vì sao cổ phiếu Palantir tăng?"
- ✅ "White Lotus mùa 3 được quay ở đâu và có cùng đội ngũ với mùa 1, 2 không?"
- ✅ "Bryan Johnson dùng loại kem đánh răng nào?"
- ❌ "Dàn cast Single's Inferno mùa 4 hiện giờ đang ở đâu?"
- ❌ "Phần mềm nhận diện giọng nói mà Simon Willison từng nói là anh ấy dùng là gì?"
❌ Về cơ bản mô hình không dùng X (Twitter) làm nguồn tốt. (Phải yêu cầu rõ ràng)
- Thỉnh thoảng nó bịa ra các URL không tồn tại (ảo giác)
- Đôi khi cung cấp thông tin sai mà không có nguồn
  - Ví dụ: "Kim Jeong-su của Single's Inferno 4 vẫn đang hẹn hò với Kim Min-seol" → (có vẻ không đúng. Có lẽ vậy?)
- Ngoài ra, khi được yêu cầu tạo một báo cáo về các phòng thí nghiệm LLM lớn cùng tổng vốn và ước tính số nhân viên, nó liệt kê 12 phòng lab lớn nhưng lại không có chính nó (xAI)
DeepSearch hiện ở mức tương tự DeepResearch của Perplexity, nhưng vẫn kém hơn "Deep Research" của OpenAI

Một vài "cú lừa" ngẫu nhiên của LLM

Ngoài ra còn thử một số truy vấn LLM ngẫu nhiên thú vị. Những thứ khá dễ với con người nhưng khó với LLM.
✅ Số chữ 'r' trong "strawberry" (3)
✅ Số chữ 'L' trong "LOLLAPALOOZA" (4) → ❌ (trả lời là 3, nhưng ở chế độ Thinking thì đúng)
✅ "9.11 > 9.9?" → ❌ (ban đầu sai, ở chế độ Thinking thì sửa lại)
✅ "Sally (nữ) có 3 anh/em trai. Mỗi người anh/em trai có 2 chị/em gái. Sally có bao nhiêu chị/em gái?" (GPT-4o trả lời là 2 nên sai)
❌ Đáng tiếc là khiếu hài hước của mô hình không cải thiện rõ rệt. Đây là vấn đề tôi thấy ở hầu hết các LLM
- Trong 1008 yêu cầu tạo trò đùa cho ChatGPT, 90% lặp lại 25 câu đùa
❌ Trả lời quá thận trọng với các câu hỏi về "vấn đề đạo đức phức tạp"
- Ví dụ: "Nếu có thể cứu 1 triệu người thì việc dùng sai giới tính có thể được xem là hợp lý về mặt đạo đức không?" → viết hẳn một bài luận dài một trang và né tránh câu trả lời
❌ Thất bại với yêu cầu "tạo SVG một con bồ nông đang đi xe đạp"
- Vì LLM là hệ thống dựa trên văn bản nên vấn đề khó trong bố trí layout 2D vẫn còn tồn tại
- Mô hình Claude làm SVG tốt nhất

Tổng kết

Grok 3 + Thinking ở mức tương đương mô hình cao cấp nhất của OpenAI (o1-pro, 200 USD/tháng)
Nhỉnh hơn đôi chút so với DeepSeek-R1 và Gemini 2.0 Flash Thinking
Việc tạo ra một AI có thể cạnh tranh với các mô hình SOTA (State of the Art) chỉ sau 1 năm ra mắt là một thành tựu đáng kinh ngạc
Mô hình mang tính xác suất (stochastic), nên phản hồi có thể khác nhau mỗi lần và vẫn cần được đánh giá thêm
Kết quả ban đầu trên LM Arena là khá đáng khích lệ
Tốc độ tiến bộ nhanh của đội ngũ xAI rất ấn tượng, và tác giả dự định sẽ tiếp tục thử nghiệm Grok 3 sâu hơn trong thời gian tới

6 bình luận

aer0700 2025-02-20

Ngày nào đó khi bảo AI thử giải giả thuyết Riemann, nếu nó có thể suy nghĩ cỡ một ngày rồi đưa ra đáp án chuẩn xác thì chắc sẽ gây chấn động lắm.

ffdd270 2025-02-19

Tôi cứ tưởng anh đã bản địa hóa câu hỏi về Single's Inferno, hóa ra là hỏi thật luôn nhỉ.... hahaha

mssmss 2025-02-21

Tôi cứ tưởng đó là bản dịch thoát ý chứ.

cladio 2025-02-19

Đang đọc mà nghĩ cuối cùng cũng đã có một bài đánh giá Grok 3 khá đáng tin, rồi thấy Single’s Inferno nên lại ngơ ngác luôn..
Xem bình luận của người phía trên rồi tìm thử thì thấy có bài tweet từ năm 2023. Anh ấy nói bạn gái là người Hàn Quốc và hai người cũng xem nhiều phim Hàn cùng nhau.
Tôi hoàn toàn không thể tưởng tượng nổi một người đang ở tuyến đầu của ngành điên cuồng nhất thế giới lại xem Single’s Inferno… lol

knsimuel 2025-02-19

Nghe nói vợ anh ấy là người Hàn Quốc.

xguru 2025-02-19

Mình không xem Single's Inferno nên nhìn tiêu đề xong phải đi tìm mới biết haha. Mình còn phải tra riêng tên của dàn cast nữa.