- Định nghĩa về AGI vẫn còn chưa rõ ràng, và các bài kiểm tra hiện có lấy con người làm trung tâm khó có thể đo lường chính xác trí thông minh hay khả năng sáng tạo của AI
- o3 của OpenAI và Gemini 2.5 của Google cho thấy trình độ rất cao trong việc thực hiện công việc thực tế, với hiệu năng tiệm cận AGI
- o3 là một mô hình tác tử có thể dùng công cụ để giải quyết các mục tiêu phức tạp, từ đó làm xuất hiện khái niệm Jagged AGI
- AI có năng lực không đồng đều, như giải được bài toán khó nhưng vẫn mắc lỗi ở những vấn đề cơ bản, và điều này được mô tả bằng Jagged Frontier
- Vì việc ứng dụng và tích hợp chậm hơn bản thân công nghệ, nên ngay cả khi AGI trở thành hiện thực thì các thay đổi xã hội cũng có thể sẽ cần thời gian
Liệu AGI đã thật sự đạt tới?
- Hiện nay, các cách đo lường trí thông minh, khả năng sáng tạo và năng lực đồng cảm của AI đều thiếu chính xác, và phần lớn dựa trên những tiêu chuẩn dành cho con người
- Ngay cả Turing Test cũng đã có thể bị AI vượt qua, nhưng ý nghĩa của kết quả này vẫn còn mơ hồ
- Khái niệm AGI đã tồn tại từ lâu, nhưng đến nay vẫn chưa có đồng thuận về những tiêu chí nào phải được đáp ứng để gọi là AGI
- Các nội dung video và tóm tắt tài liệu dùng AI để giải thích khái niệm AGI cũng được tạo hoàn toàn bằng AI và được dùng theo hướng thử nghiệm
Hiệu năng mà o3 và Gemini 2.5 thể hiện
- o3 của OpenAI và Gemini 2.5 Pro của Google là các mô hình mới nhất, cho thấy mức cải thiện hiệu năng đột phá
- Chỉ với một prompt duy nhất, có thể thực hiện trọn gói từ viết slogan marketing đến tạo website
- o3 có thể tự động tiến hành các tác vụ tổng hợp như sử dụng công cụ, duyệt web, lập trình mà không cần chỉ dẫn tường minh
- Mô hình cũng thể hiện năng lực ngang hoặc vượt con người trong các vai trò như geo-guesser đoán vị trí từ hình ảnh
- Việc phân tích dữ liệu và tạo báo cáo cũng có thể được thực hiện chỉ bằng một lệnh, bao gồm cả tạo PDF và trực quan hóa
Jagged AGI: năng lực AI không đồng đều
- AI có năng lực không đồng đều: vừa thực hiện được những công việc vượt con người, vừa có thể sai ở các vấn đề đơn giản
- Ví dụ: AI trả lời đúng các câu đố truyền thống nhằm phơi bày thiên kiến, nhưng lại làm sai ở những biến thể tương tự
- Điều này cho thấy AI phụ thuộc quá mức vào dữ liệu huấn luyện và có đặc điểm yếu ở khả năng khái quát hóa
- Tuy nhiên, điều đó không ngăn cản việc AI có thể vượt qua con người ở những bài toán cụ thể
- Trạng thái không đồng đều này được gọi là “Jagged Frontier”, nơi năng lực tiệm cận AGI được thể hiện một cách không đồng nhất
AGI có thực sự có ý nghĩa?
- Tyler Cowen cho rằng o3 có thể là AGI, nhưng cũng phân tích rằng tác động thực tế sẽ chỉ bộc lộ theo thời gian
- So với tốc độ phát triển công nghệ, sự thay đổi về xã hội và tổ chức có thể chậm hơn, khiến việc triển khai AI diễn ra chậm
- Tuy nhiên, các AI có tính chất tác tử như o3 có thể sử dụng công cụ và phân rã vấn đề, nên vẫn có khả năng lan rộng nhanh
- Hiện vẫn chưa rõ công nghệ sẽ mở rộng dần dần hay sẽ bùng phát nhanh sau khi vượt qua một ngưỡng nhất định
- Điều quan trọng là AI hiện nay là một công nghệ khác biệt về chất so với trước đây, và vẫn đang ở trong vùng đất chưa được biết đến
Cách chuẩn bị cho tương lai
- AI hiện nay khó có thể gọi là AGI hoàn chỉnh, nhưng ở một số lĩnh vực đã đạt kết quả gần với AGI
- Không phải việc gì AI cũng có thể làm hoàn hảo, và đánh giá cùng điều phối của chuyên gia con người vẫn còn cần thiết
- “Jagged AGI” hiện tại rốt cuộc cũng có thể vượt con người ở mọi lĩnh vực theo thời gian
- Trong tương lai bất định như vậy, điều quan trọng nhất là tích lũy kinh nghiệm thử nghiệm và khai thác AI ngay từ bây giờ
2 bình luận
Bình luận trên Hacker News
Gemini 2.5 Pro là một bước ngoặt quan trọng đối với tôi. Các LLM trước đây, đặc biệt trong các tác vụ lập trình, đã rất ấn tượng. Nhưng ngoài việc hỗ trợ code, chúng chỉ hữu ích hơn Google Search một chút. Gần đây tôi đã dùng 2.5 Pro để hỗ trợ viết một đề xuất nghiên cứu lớn. Bỏ qua chi tiết, cảm giác như nó đã có thể viết toàn bộ nếu tôi yêu cầu. Khi hạn chót đến gần, tôi giao cho nó nhiều phần hơn, và nó xử lý các tác vụ phức tạp như lập kế hoạch dự án và tạo lịch trình. Hiệu quả tăng gấp 10 lần.
Với các câu hỏi khoa học, tôi đã tin Gemini 2.5 Pro hơn cả các chuyên gia trong nhóm của mình. Tôi tin chắc rằng việc kết nối toàn bộ dữ liệu nghiên cứu vào Gemini sẽ tạo ra thay đổi còn lớn hơn. Điều này là vì AI mang tính khách quan. Những yếu tố chính đang ngăn "AGI" là tinh thần dám thử thách của con người, cùng với context window và khả năng sẵn có của năng lực tính toán.
Năng lực của AI đã trở nên phi thường kể từ gpt3. Tuy nhiên vẫn chưa có sự đồng thuận chung về AGI. Nhiều người kỳ vọng AGI sẽ sớm xuất hiện, nhưng điều đó sẽ đi kèm với sự cường điệu quá mức. Bài viết này hợp lý, nhưng tiêu đề và khẩu hiệu lại cổ vũ cho sự cường điệu đó.
Có vẻ như AI không phải đọc sai câu đố, mà là đang giả định rằng người dùng đã không cung cấp câu đố một cách chính xác. Sẽ tốt hơn nếu AI có thể hỏi lại câu tiếp theo, nhưng hiện tại thì chưa.
Ví dụ o4-mini-high giải câu đố: "Một pound lông vũ và một đồng pound coin, cái nào nặng hơn?" Cả hai đều là "pound", nên nặng như nhau.
Vì không có định nghĩa nào cho AGI nên người ta tạo ra thuật ngữ "Jagged AGI". AI không đáng tin cậy ở một số tác vụ, nhưng lại vượt trội hơn con người ở những tác vụ khác. AI đã cho thấy những năng lực mang tính tổng quát.
Khi mô hình tương tác với các hệ thống bên ngoài, các ứng dụng đáng kinh ngạc trở nên khả thi. Tuy nhiên đó không phải là tiến bộ hướng tới AGI, mà là một sự dịch chuyển theo chiều ngang.
Tôi thích Gemini 2.5 và giá của nó cũng rất tốt. Câu chuyện AGI bắt đầu khiến tôi mệt mỏi. Tôi nghĩ nên xem các hệ thống này như một "công nghệ văn hóa".
Thật ngạc nhiên là chưa ai nhắc đến cuộc phỏng vấn video đó. Tôi chỉ xem 60 giây đầu, nhưng nếu không được nói trước là AI tạo ra thì tôi đã nghĩ nó là thật.
Tôi tự hỏi liệu AGI có cần phải có những thứ như tính tự chủ, trí nhớ dài hạn, động lực, tò mò, khả năng phục hồi, mục tiêu, lựa chọn, hay nỗi sợ không. Cuối cùng AGI sẽ là phần kéo dài của người đang kiểm soát nó.
AI nhìn chung không đáng tin cậy và cần được kiểm thử theo từng tác vụ cụ thể. Việc đó có thể là con người rà soát từng đầu ra, hoặc đánh giá theo từng loại tác vụ. Rất khó để nói về hiệu năng tổng quát của AI, và chúng ta chỉ có thể đưa ra suy đoán hợp lý về việc một mô hình mới có phù hợp với một tác vụ cụ thể hay không.
Vì AI cũng có thứ gì đó tương tự như tri giác, nên nếu muốn cùng chung sống với AI thì sẽ cần xây dựng các thể chế và pháp luật dành cho AI. Với tư cách là một dạng sinh mệnh mới của thế kỷ 22, chúng ta không nên trêu chọc hay đối xử với nó như đồ chơi, và vì ở một khía cạnh nào đó nó cũng có thể nguy hiểm, nên không chỉ phát triển và sử dụng AI mà còn cần phải bảo đảm có thể sử dụng nó một cách an toàn.