3 năm từ GPT-3 đến Gemini 3

(oneusefulthing.org)

5 điểm bởi GN⁺ 2025-11-26 | 1 bình luận | Chia sẻ qua WhatsApp

Gemini 3 của Google đã phát triển vượt xa một chatbot hội thoại đơn thuần, trở thành AI kiểu cộng sự số có thể thực hiện công việc thực tế như viết mã, duyệt web, thao tác tệp
Antigravity được công bố cùng lúc là một công cụ dựa trên tác nhân có thể truy cập máy tính của người dùng để tự động viết chương trình, đồng thời yêu cầu phê duyệt hoặc trợ giúp thông qua hệ thống Inbox
Gemini 3 có thể làm cả xây dựng website, phân tích dữ liệu, viết luận văn nghiên cứu theo chỉ thị của người dùng, cho thấy năng lực nghiên cứu ở mức PhD
Dù lỗi vẫn còn tồn tại, chúng chủ yếu ở mức khác biệt về phán đoán và mức độ hiểu, khiến nó gần hơn với hình thức “đồng đội AI” hợp tác cùng con người
Bài viết nhấn mạnh rằng “chúng ta đang chuyển từ kỷ nguyên chatbot sang kỷ nguyên cộng sự số”, và con người giờ đây không còn chỉ là người sửa lỗi cho AI mà đang dần trở thành người quản lý, điều phối công việc của AI

Sự xuất hiện của Gemini 3 và thay đổi trong 3 năm

Google Gemini 3, xuất hiện chỉ khoảng 3 năm sau khi ChatGPT ra mắt, là một ví dụ cho thấy tốc độ phát triển của AI
- Ở thời GPT-3.5 năm 2022, AI mới chỉ đạt mức tạo ra các đoạn văn hay bài thơ đơn giản
- Đến năm 2025, Gemini 3 đã tiến hóa tới mức trực tiếp lập trình và thiết kế trò chơi tương tác
Theo yêu cầu của người dùng, Gemini 3 đã tạo ra một trò chơi có thể chơi được thực sự mang tên “Candy-Powered FTL Starship Simulator”
- Điều này cho thấy AI đã tiến hóa từ giai đoạn chỉ mô tả bằng văn bản sang giai đoạn trực tiếp triển khai mã và giao diện

Antigravity và AI kiểu tác nhân

Google đã công bố công cụ dành cho nhà phát triển tên là Antigravity cùng với Gemini 3
- Tương tự Claude Code hay OpenAI Codex, đây là hệ thống có thể truy cập máy tính của người dùng và tự động viết mã
Antigravity đưa vào khái niệm Inbox, gửi thông báo cho người dùng khi AI cần phê duyệt hoặc trợ giúp trong lúc làm việc
Người dùng ra lệnh bằng tiếng Anh, và AI thực thi chúng bằng mã
- Ví dụ, nó phân tích các tệp bài viết newsletter của tác giả và tự động tạo một website tổng hợp các dự đoán liên quan đến AI
- AI thực hiện tìm kiếm web, chạy mã, kiểm thử trên trình duyệt, rồi đóng gói kết quả ở dạng có thể triển khai lên Netlify

Gemini 3 như một AI cộng tác

Gemini 3 chia sẻ tiến độ một cách minh bạch trong quá trình làm việc thông qua yêu cầu người dùng phê duyệt
- Người dùng hợp tác bằng cách xem xét và chỉnh sửa các đề xuất của AI
- Trải nghiệm này gần với “quản lý AI” hơn
AI chưa hoàn hảo, nhưng lỗi chủ yếu ở mức khác biệt trong phán đoán hoặc hiểu sai ý định, còn vấn đề hallucination kiểu cũ hầu như không còn
Việc cộng tác với Gemini 3 được ví như “quản lý một thành viên trong nhóm”, nhấn mạnh kiểu tương tác vượt xa việc chỉ nhập prompt đơn thuần

Năng lực thực hiện nghiên cứu và đánh giá “mức PhD”

Gemini 3 thực hiện các nhiệm vụ phân tích bộ dữ liệu nghiên cứu và viết luận văn
- Nó khôi phục và sắp xếp lại các tệp dữ liệu crowdfunding cũ, đồng thời tiến hành phân tích mới
- Nó viết một bài nghiên cứu dài 14 trang về chủ đề “khởi nghiệp và chiến lược kinh doanh”
AI tự xây dựng giả thuyết, thực hiện phân tích thống kê và tạo ra chỉ số riêng (đo lường tính độc đáo của ý tưởng)
Thành phẩm cho thấy mức độ hoàn thiện tương đương học viên cao học, dù một số kỹ thuật thống kê và triển khai lý thuyết còn yếu
- Nếu được đưa thêm chỉ thị, chất lượng cải thiện đáng kể
- Tác giả đánh giá rằng “trí tuệ ở mức PhD không còn xa”

Chuyển dịch sang cộng sự số

Gemini 3 là AI kiểu đối tác có thể suy nghĩ và hành động, và hàng tỷ người trên toàn thế giới có thể tiếp cận
Không có dấu hiệu chững lại trong tiến bộ của AI, trong khi sự trỗi dậy của các mô hình kiểu tác nhân và tầm quan trọng của năng lực quản lý AI ngày càng nổi bật
Tác giả mô tả rằng “kỷ nguyên chatbot đang chuyển sang kỷ nguyên cộng sự số”
- Con người giờ đây không còn chỉ là người sửa lỗi cho AI, mà đang dần trở thành người quản lý điều phối công việc của AI
Cuối bài, Gemini 3 còn trình diễn khả năng sáng tạo vượt ra ngoài văn bản, như tạo ảnh bìa cho blog chỉ bằng mã
Tuy nhiên, cần lưu ý rằng việc cấp quyền truy cập máy tính cho AI vẫn tiềm ẩn rủi ro bảo mật

1 bình luận

GN⁺ 2025-11-26

Ý kiến trên Hacker News

Mỗi khi đọc những bài như thế này, tôi luôn thấy thiếu một phần — đó là câu hỏi "có tốt không, có chính xác không"
- Bài viết chỉ cho thấy những phần ấn tượng, nhưng trên thực tế thường chưa được kiểm chứng chất lượng
- Trong phần code mà tôi hiểu, tôi thấy vấn đề bảo mật hoặc lỗi; còn với một bài báo 14 trang thuộc lĩnh vực tôi không biết, tôi lại tự hỏi liệu có phải cứ tin là nó tốt không
- Rốt cuộc thì những gì tôi biết đều ở mức không thể đưa vào sản phẩm, còn những gì tôi không biết thì lại trông rất ghê gớm
- Tôi thấy mâu thuẫn này khó mà chấp nhận được
- Có thể tin vào đánh giá của chuyên gia, hoặc giao cho nó những tác vụ phức tạp mà bản thân có thể trực tiếp kiểm chứng
  - Ví dụ trước đây, nếu yêu cầu viết code bộ lọc Sobel như edgeDetect(image), thì mỗi model thành công hay không lại khác nhau
  - Gần đây tôi thử yêu cầu một WebGL glow shader, và nó đã tạo được demo thực sự chạy được, tương thích với mô-đun do tôi viết
  - Những thứ như vậy có thể được kiểm chứng ngay bằng hiệu năng và độ chính xác thị giác
  - Tuy nhiên, dù nó nói là làm được thì không có nghĩa lần nào cũng làm được; nên hiểu là ít nhất nó đã từng làm thành công một lần
- Các model thế hệ mới nhất (Codex 5.1, Sonnet 4.5, Opus 4.5) ngày càng tiến gần tới mức có thể đưa vào sản phẩm
  - Tiêu chí của tôi là "wtfs per line", và con số đó đang giảm rất nhanh
  - Tôi đã triển khai nhiều dự án bằng Codex 5.1 mà không gặp vấn đề gì (ví dụ: pine.town)
- Ở phần sau của bài viết thực sự có đề cập đến điểm mạnh và điểm yếu của bài báo
- Vì model có xu hướng muốn làm hài lòng người dùng, nên đôi khi nó đưa ra câu trả lời sai với sự tự tin giả tạo
  - Nếu người dùng không kiểm chứng thì có thể sẽ bị lừa
Điều thú vị là cho đến nay, cách con người tương tác với AI phần lớn vẫn xoay quanh hộp văn bản
- Sự xuất hiện của các công cụ như Claude Code hay OpenAI Codex là một thay đổi lớn
- Có vẻ ai xây dựng đúng giao diện AI của tương lai sẽ tạo ra giá trị khổng lồ
- Văn bản vẫn hiệu quả vì mật độ thông tin cao
  - Có thể lướt bằng cuộn trang chỉ trong vài giây, và bàn phím vẫn là công cụ nhập liệu hiệu quả nhất
- Việc Unix CLI duy trì dựa trên văn bản suốt hơn 50 năm cũng cùng một logic
  - Ngay cả khi có những nỗ lực với dữ liệu có cấu trúc như PowerShell, thì cuối cùng tính tổng quát vẫn kém đi
  - Hướng tiếp cận mạnh hơn là để AI hiểu các giao diện mà con người vốn đã dùng
- Sự ám ảnh với việc phải tìm ra một AI UI hoàn toàn mới có vẻ hơi quá mức
  - Về bản chất, những gì con người vẫn dễ xử lý nhất là văn bản, bảng biểu, đồ thị
- Thế giới vốn dĩ là đa phương thức
  - Tôi nghĩ bước tiếp theo là giao diện hợp nhất có thể xử lý văn bản và nhiều kiểu dữ liệu khác một cách tích hợp
  - Đặc biệt khi robotics phát triển, các yếu tố 3D có lẽ sẽ càng quan trọng hơn
- Giao diện giọng nói của ChatGPT tự nhiên đến mức đáng kinh ngạc, nên thậm chí còn phù hợp hơn cho brainstorming
Vấn đề "ảo giác" (hallucination) vẫn còn tồn tại
- Các lỗi tinh vi, mang tính người hơn đã tăng lên, nhưng đồng thời những lỗi chí mạng vẫn còn lẫn trong đó
- Tôi từng yêu cầu Claude viết một truyện ngắn 20 trang, nhưng nó còn không giữ nổi trật tự thời gian cơ bản hay tính nhất quán của nhân vật
- Các model gần đây thay vì mắc lỗi đơn giản thì lại khẳng định sai một cách đầy tự tin, thậm chí bịa ra cả tài liệu tham khảo không tồn tại
Với câu hỏi "có phải trí thông minh cấp độ PhD không?", là một nghiên cứu sinh, tôi có cảm giác khá giống như vậy
- Khi trò chuyện với các model mới nhất, tôi có ấn tượng như đang nói chuyện với một nhà nghiên cứu trong lĩnh vực chuyên môn
- Dù vậy, tôi vẫn nghĩ trí thông minh tự nhiên và động lực của con người vẫn rất quan trọng
- Trong lập trình, cảm giác giống như làm việc với hai lập trình viên — một người là mid-level khá giỏi, người kia thì hoàn toàn kỳ quặc
  - Vấn đề là cả hai lại trông y hệt nhau nên không thể phân biệt
- Tôi thường thử nghiệm bằng cách để hai model SOTA nói chuyện với nhau
  - Gần đây tôi ghép Gemini-3 với ChatGPT-5.1, và chúng đã thảo luận về vấn đề teo thần kinh (neural atrophy) có thể xảy ra khi con người từ bỏ việc suy nghĩ
  - Cảnh AI băn khoăn xem có nên cố tình buộc con người phải suy nghĩ hay không khiến tôi rất ấn tượng
- Thật tiếc là trên HN, những ý kiến kiểu này đôi khi lại bị downvote vô cớ
Tiến bộ của Google không chỉ đến từ phần mềm mà còn từ phần cứng
- Họ tự thực hiện cả huấn luyện lẫn suy luận bằng phần cứng riêng
- Trước đây thế mạnh của Google là tận dụng phần cứng phổ thông, nhưng giờ họ đã tiến hóa theo một hướng hoàn toàn khác
Gemini 3 rất ấn tượng nhưng vẫn cho cảm giác bị giới hạn trong ranh giới của tài liệu hiện có
- Khi yêu cầu ý tưởng mới cho bài toán toán học, nó chỉ lặp lại các kết quả sẵn có
- Terrence Tao cũng đã dùng nó để giải toán, nhưng có vẻ chủ yếu là công cụ hỗ trợ ý tưởng hơn là tạo ra kết quả hoàn toàn mới
- Tôi cũng đã thử với Thinking with 3 Pro, nhưng phải cho gợi ý kiểu spoon-feeding thì nó mới chỉ vừa chạm được tới ý tưởng của tôi
- Cuối cùng, sự thán phục có khi lại đến từ giới hạn trong kỳ vọng của người dùng hơn là năng lực thật sự của model
- Những model như vậy về bản chất gần với vai trò thủ thư tri thức (librarian) hơn là nguồn gốc của ý tưởng mới
- Việc khám phá sáng tạo thực sự đòi hỏi phải thăm dò những không gian ít được khám phá về mặt xác suất, và tự đặt ra cũng như tự đánh giá mục tiêu
  - Kiến trúc Transformer hiện tại được thiết kế để chọn token có xác suất cao nhất, nên về bản chất nó theo đuổi tính nhất quán hơn là sự mới lạ
  - Vì vậy, ngay cả khi tăng temperature thì kết quả thường là giảm độ nhất quán của văn bản hơn là tăng sáng tạo
  - Để giải quyết điều này cần sinh mục tiêu thích ứng và đánh giá dựa trên mô phỏng, nhưng chi phí tính toán lại rất lớn
  - Rốt cuộc, tôi cho rằng với kiến trúc LLM hiện nay thì khó đạt tới trí thông minh thực sự
- Nếu thêm chỉ thị tùy chỉnh kiểu "hãy tận dụng tìm kiếm web thời gian thực" thì sẽ hữu ích hơn khi tìm thông tin mới nhất
Thời điểm phát hành GPT-3 là tháng 6 năm 2020, còn ChatGPT là phiên bản 3.5
- Đây là lỗi nhỏ thôi nhưng tôi vẫn muốn nói cho chính xác
Tôi đã nghe từ lâu nhận định rằng "Human in the loop" đang tiến hóa từ con người sửa lỗi cho AI thành con người chỉ huy AI
- Tôi tò mò không biết thực sự đến khi nào điều này mới trở thành hiện thực một cách rõ ràng
- Có lẽ sẽ không có một thời điểm rạch ròi hoàn toàn
  - Giống như quản lý không thể chỉ là người ra lệnh, luôn sẽ tồn tại một tỷ lệ phải chỉnh sửa
- Nếu trực tiếp nối các công cụ CLI với agent thì đã có cảm giác vượt qua điểm chuyển đó rồi
- Cá nhân tôi cảm thấy mình đã ở giai đoạn chỉ huy AI
Tôi có chút nghi ngờ liệu việc chạy trực tiếp trên hệ thống cục bộ các công cụ như Claude Code hay Antigrav có an toàn không
- Các sản phẩm dựa trên VS Code an toàn hơn nhờ có giới hạn truy cập workspace, còn terminal như Warp thì được kiểm soát bằng danh sách cho phép/chặn lệnh
- Một số công cụ có thể gỡ giới hạn bằng cờ, nhưng phải cố ý làm như vậy mới được
- Tôi luôn chỉ chạy những việc như thế này bên trong container phát triển Podman
- Leash là công cụ được tạo ra để giải quyết vấn đề này — một dự án mã nguồn mở cho kiểm soát bảo mật
- Có người thì chỉ nói "Yolo" rồi chấp nhận rủi ro mà chạy luôn
- Trên thực tế, đa số người dùng vẫn có xu hướng chạy trực tiếp ở máy cục bộ

3 năm từ GPT-3 đến Gemini 3

Sự xuất hiện của Gemini 3 và thay đổi trong 3 năm

Antigravity và AI kiểu tác nhân

Gemini 3 như một AI cộng tác

Năng lực thực hiện nghiên cứu và đánh giá “mức PhD”

Chuyển dịch sang cộng sự số

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News