10 điểm bởi GN⁺ 2025-07-01 | 1 bình luận | Chia sẻ qua WhatsApp
  • Trong những năm gần đây, động lực cốt lõi của tiến bộ AI là việc đưa vào các bộ dữ liệu mới hơn là các ý tưởng mới
  • Phần lớn các đột phá lớn xuất hiện khi áp dụng những kỹ thuật vốn đã tồn tại vào các nguồn dữ liệu mới
  • Thay đổi về dữ liệu có tác động đến hiệu năng mô hình lớn hơn đổi mới trong công nghệ AI
  • Trong tương lai, các bước chuyển mô hình cũng nhiều khả năng chỉ xảy ra khi khai thác những nguồn dữ liệu mới như YouTube, robot
  • Đa số nhà nghiên cứu tập trung vào phương pháp luận mới, nhưng trên thực tế dữ liệu mới là cốt lõi của tiến bộ

Hiện trạng và mô thức phát triển của AI

  • AI đã đạt được bước tiến vượt bậc trong 15 năm qua, đặc biệt là 5 năm gần đây
  • Một số nhà nghiên cứu cho rằng AI đang tiến bộ theo cấp số nhân, giống như 'định luật Moore cho AI', ở năng lực thực hiện các tác vụ cụ thể
  • Tuy nhiên trên thực tế, các đột phá lớn không xảy ra thường xuyên, mà cấu trúc phát triển là chậm nhưng ổn định

Đổi mới đến từ đâu

  • Nhiều người nghĩ rằng tiến bộ AI đến từ những ý tưởng của giới học thuật và công nghiệp như MIT, Stanford, Google
  • Thông qua nghiên cứu, các đổi mới hệ thống giúp giảm chi phí huấn luyện mô hình và cải thiện hiệu quả chắc chắn vẫn đang tiếp diễn
    • Năm 2022, FlashAttention của Stanford tối ưu hóa việc sử dụng bộ nhớ
    • Năm 2023, speculative decoding của Google cải thiện tốc độ suy luận
    • Năm 2024, dự án Muon đề xuất một cách tiếp cận optimizer mới
    • Năm 2025, DeepSeek-R1 cung cấp mô hình mã nguồn mở đạt cấp độ của các phòng thí nghiệm AI hàng đầu
  • Các nhà nghiên cứu nhanh chóng công khai chia sẻ kết quả qua arXiv, hội nghị, mạng xã hội..., và một cuộc thử nghiệm khoa học phân tán toàn cầu đang diễn ra rất sôi động

Vì sao có cảm giác đổi mới AI đang chậm lại

  • Gần đây, mức cải thiện hiệu năng của các mô hình mới nhất như Grok 3, GPT-4.5 đang giảm xuống
  • Cũng có chỉ trích rằng đây là các công bố bị thổi phồng vì thành tích trong các đánh giá thực chiến như Olympic Toán học còn thấp
  • Những thay đổi mô hình lớn (deep learning, transformer, RLHF, Reasoning) hiếm khi xuất hiện và thường theo chu kỳ cỡ 10 năm

Điểm chung của các đột phá lớn: bộ dữ liệu mới

  • Bốn đột phá lớn đều trùng với thời điểm một nguồn dữ liệu mới lần đầu được khai thác ở quy mô lớn
    • AlexNet: ImageNet (dữ liệu ảnh lớn có gán nhãn)
    • Transformers: toàn bộ dữ liệu văn bản trên web (Internet)
    • RLHF: dữ liệu 'văn bản tốt' do con người phản hồi
    • Reasoning: kết quả từ các công cụ xác minh bên ngoài như máy tính, compiler
  • Sau khi mỗi bộ dữ liệu lần đầu được đưa vào ở quy mô lớn, cuộc cạnh tranh để giành phần dữ liệu còn lạiphát triển kỹ thuật khai thác hiệu quả sẽ tiếp tục diễn ra

Ý tưởng mới vs vai trò của dữ liệu

  • Ngay cả khi không phải một kiến trúc mô hình cụ thể, nếu được cung cấp cùng một dữ liệu thì vẫn có thể phát triển các mô hình ở mức tương đương
  • Trên thực tế, việc thay bộ dữ liệu dùng để huấn luyện có tác động đến hiệu năng lớn hơn đổi mới kỹ thuật
    • Dù thay AlexNet bằng một cấu trúc khác, sự phát triển vẫn có thể xảy ra vì đã có ImageNet
    • Ngay cả khi không phải Transformer, LSTM hay SSM cũng có thể cho hiệu năng tương tự trên cùng dữ liệu
  • Bộ dữ liệu quyết định trần trên của kết quả huấn luyện, và chỉ cải thiện mô hình hay thuật toán thì không thể vượt qua được
  • Như đã được nhấn mạnh trong The Bitter Lesson, thay vì phương pháp mới, thứ thực sự quan trọng rốt cuộc vẫn là dữ liệu

Ứng viên cho lần chuyển mô hình AI tiếp theo

  • Bước nhảy vọt lớn tiếp theo của AI nhiều khả năng sẽ không đến từ network mới hay một phương pháp RL mới, mà từ những nguồn dữ liệu mới chưa được khai thác cho đến nay
  • Nói cách khác, khả năng cao là chuyển đổi mô hình sẽ xảy ra khi các bộ dữ liệu mới được thu thập ở quy mô lớn
    • Ứng viên được chú ý nhất: dữ liệu video như YouTube
      • Mỗi phút có khoảng 500 giờ video được tải lên YouTube
      • Chúng chứa lượng thông tin lớn hơn văn bản hàng chục lần, và còn có thể học được sắc thái ngôn ngữ cũng như bối cảnh vật lý và văn hóa
      • Khả năng cao là các Big Tech như Google sẽ sớm bắt đầu huấn luyện nghiêm túc trên bộ dữ liệu này
    • Một khả năng khác: thu thập dữ liệu về thế giới vật lý thông qua robot (embodied system)
      • Khi hạ tầng cho phép xử lý và huấn luyện dữ liệu camera, cảm biến ở quy mô lớn trên GPU được hoàn thiện, dữ liệu này cũng rất có thể trở thành nguồn gốc của đổi mới AI
  • Dữ liệu văn bản đang dần chạm tới giới hạn, nên các nguồn dữ liệu mới như video và robot nhiều khả năng sẽ quyết định tương lai của AI

Kết luận

  • Bước phát triển tiếp theo của AI sẽ không đến từ ý tưởng hay thuật toán mới, mà từ các nguồn dữ liệu mới
  • 95% nhà nghiên cứu tập trung vào các phương pháp luận mới, nhưng đổi mới thực sự lại phát sinh từ thay đổi của bộ dữ liệu
  • Nếu muốn thúc đẩy AI phát triển, cần tập trung vào việc bảo đảm dữ liệu mới thay vì ý tưởng mới

1 bình luận

 
GN⁺ 2025-07-01
Ý kiến trên Hacker News
  • Có ý kiến cho rằng cách John Carmack tiếp cận vấn đề khá thú vị
    Ông chia sẻ trải nghiệm huấn luyện một mô hình chơi cực giỏi các game video 2D, rồi kiểm tra xem nó có thể chơi tốt các game 2D chưa từng thấy trước đó hoặc các màn chơi mới hay không
    Kết quả cho thấy hiệu năng của mô hình lại giảm ở những game mà nó chưa có kinh nghiệm trước đó, qua đó nhấn mạnh rằng đây không phải là trí tuệ nhân tạo mà chỉ là sự thành thạo đối với một tác vụ cụ thể
    Thay vì thổi phồng nỗi sợ siêu trí tuệ nhân tạo (ASI), ông cho rằng việc tạo ra trí tuệ tổng quát có thể học một game 2D mới nhanh hơn con người còn khó hơn nhiều

    • Có ý kiến chỉ ra rằng mô hình John Carmack thực sự dùng để đi đến kết luận này không phải công nghệ mới nhất, mà là một dự án thiên về vui vẻ, không dùng foundational model đắt đỏ
      Nếu là nghiên cứu AI video/thị giác chuyên sâu, cách phù hợp hơn là thao tác trên latent space xác suất có thể áp dụng xuyên suốt nhiều trò chơi
      Lấy ví dụ veo3 có khả năng tạo video dưới các ràng buộc prompt, họ giải thích đây là minh họa cho việc AI có thể tổng quát hóa sang game 2D·3D
      Họ cho rằng veo3 thực tế có thể cho ra kết quả trông như chơi hợp lý bất kỳ trò chơi nào ngay cả khi không fine-tuning cho game cụ thể

    • Có người nói khó hiểu vì sao mọi người cứ muốn dẫn dắt cuộc thảo luận theo hướng này
      Rõ ràng có nhiều cách để đạt cùng một mục tiêu, và họ đặt câu hỏi vì sao thí nghiệm của John Carmack lại được xem như chuẩn mực trong khi ông cũng không phải chuyên gia AI

    • Có người cho rằng có lẽ mô hình đã bị overfitting do bị tăng quy mô quá lớn
      Họ tự hỏi liệu việc áp các ràng buộc lên mô hình có thể khiến nó học được các heuristic tổng quát hơn hay không
      Họ nhấn mạnh rằng nếu là AI không bị ràng buộc thì cuối cùng nó có thể chỉ phát lại bản speedrun tối ưu, nhưng khi gặp nội dung mới thì nhiều heuristic khác nhau mới thực sự quan trọng

    • Có người cho biết chủ đề được nhắc tới thuộc lĩnh vực Meta-Reinforcement Learning
      Việc John Carmack khám phá lĩnh vực này là có ý nghĩa, nhưng đây hoàn toàn không phải chủ đề nghiên cứu mới
      Giới thiệu ngắn gọn về Meta-Reinforcement Learning

    • Có ý kiến cho rằng câu hỏi mô hình có sở hữu “trí thông minh thật sự” hay không là chủ đề thú vị với giới học thuật đang suy nghĩ về AGI, nhưng với nhiều người dùng đang sử dụng LLM theo cách hữu ích trong thực tế thì điều đó không quá quan trọng
      Họ nói mình không quan tâm liệu tiến bộ hiện tại có dẫn đến AGI hay không
      Ngay cả nếu mọi thứ dừng lại ở Claude 4, họ vẫn sẽ tiếp tục dùng vì nó hữu ích
      Họ nhấn mạnh rằng thay vì tranh luận AGI, chủ đề thú vị hơn nhiều là hiện nay con người thực sự đang dùng AI như thế nào

  • Có người tự tin nói rằng hiện nay chúng ta đang sống trong thời kỳ sơ khai của AI
    AI đã đạt tiến bộ đáng kinh ngạc ở hai lĩnh vực là ngôn ngữ (LLM: GPT-4, Claude) và thị giác (CLIP, DALL·E)
    Họ chỉ ra rằng máy tính giờ đã có thể làm thơ, viết mã, mô tả ảnh và trò chuyện ở mức như con người, nhưng thực ra mới chỉ mở rộng trên hai modality là văn bản và hình ảnh
    Trí tuệ con người mang tính đa phương thức, với xúc giác, vị giác, khứu giác, vận động, cảm xúc và nhiều giác quan phong phú đan xen
    LLM hay Vision Transformer gần như chưa thể hiện được những yếu tố đó
    Họ nhấn mạnh biên giới thực sự của AI là thế giới cảm giác phong phú, phức tạp trong đời sống thường nhật
    Để làm được điều này, cần các cảm biến mới, cách biểu diễn dữ liệu vượt ra ngoài token, và phương pháp huấn luyện mô hình mới dựa trên trải nghiệm

    • Có người lịch sự phản bác ý kiến cho rằng ngôn ngữ và thị giác chỉ mới là điểm khởi đầu của bản chất trí tuệ nhân tạo
      Họ cho rằng xúc giác tuy thú vị, nhưng với mọi tương tác trực tuyến thì âm thanh, video và ngôn ngữ là đủ
      Sự khác biệt quyết định giữa con người và động vật không nằm ở “các giác quan còn lại” mà ở giọng nói, hình ảnh và ngôn ngữ
      Dù việc tích hợp xúc giác, cảm nhận tư thế và khứu giác là quan trọng cho hành vi trong thế giới thực, theo họ cốt lõi của trí tuệ vẫn là ngôn ngữ và thị giác

    • Có người nghĩ hai thứ cần tiến bộ nhất là khả năng thích nghi mang tính hữu cơ và tính liên tục của ký ức
      Não người thay đổi cấu trúc một cách động, trong khi LLM là cấu trúc cố định và chỉ “học” sau khi lặp đi lặp lại thông tin được cung cấp
      Họ nhấn mạnh rằng để tạo ra máy móc thông minh, hệ thống phải có khả năng tự học theo thời gian thực và ghi nhớ thông tin

    • Có quan điểm cho rằng với kiến trúc AI hiện nay, ngôn ngữ và thị giác có thể đã là giới hạn cuối
      Dù vài năm gần đây có rất nhiều tin tức về LLM, hầu như không có đột phá nổi bật nào ở các lĩnh vực AI khác

    • Có người nhấn mạnh rằng tương lai của tiến bộ AI thực sự nằm ở chính đời sống như con người: giàu cảm giác và gắn chặt với thế giới vật lý
      Họ ví rằng cũng như trong Dr. Who từng nói Dalek không phải cỗ máy có bộ não mà bản thân nó chính là cỗ máy, con người cũng vậy, toàn bộ cơ thể chính là bản thân mình

    • Với nhận định về “tiến bộ khó tin”, có người nhìn một cách hoài nghi rằng đây chỉ là việc áp dụng công nghệ từng bị bỏ xó từ thập niên 1970 lên những chiếc máy tính mạnh hơn gấp một triệu lần
      Họ cho rằng hiện chưa thấy đổi mới nền tảng nào thật sự đặc biệt về kiến trúc mô hình hay cách tính toán có thể khiến hiệu năng tiếp tục tăng theo hàm mũ

  • Có người nhắc đến sự nhầm lẫn giữa tiến bộ khoa học và tiến bộ công nghệ
    Họ giải thích rằng khi khoa học tiến lên, thường sẽ tăng trưởng gấp khúc theo đường cong S rồi sau đó bước vào vùng lợi suất giảm dần
    Họ chỉ ra hiện tượng nhiều người không phân biệt được giai đoạn tối ưu hóa tăng nhanh với giai đoạn chững lại

    • Có người châm biếm rằng gọi sự cường điệu hay kỳ vọng đơn thuần là “tiến bộ công nghệ” thì quá dễ dãi

    • Có người nói thêm rằng nhiều người không hiểu rõ khác biệt giữa đường cong S và hàm mũ
      Ở một số đoạn cụ thể, hai thứ này có thể trông gần như giống hệt nhau

  • Có người đặt câu hỏi vì sao DeepSeek lại được nhắc đến như một trường hợp đặc biệt

  • Từ góc nhìn của người đọc các nghiên cứu và bài báo về kiến trúc mô hình, có ý kiến cho rằng đang có vô số ý tưởng mới được đưa ra
    Nhưng chỉ một phần nhỏ trong số đó tạo ra kết quả thật sự thú vị
    Họ cũng đoán rằng các thư viện như PyTorch có thể đang gây cản trở phần nào cho phát triển mang tính thử nghiệm
    Vì việc lấy sẵn các khối cơ bản để dùng đã trở nên quá hiển nhiên, mọi người có thể không còn suy nghĩ sâu về từng thành phần nữa
    Họ nghi ngờ xu hướng cứ gắn thêm tokenizer hay mô hình thị giác do người khác làm ra chỉ để đánh dấu cho đủ trong “model card”

    • Có người giải thích rằng đây là một mô thức rất phổ biến và tự nhiên cả trong thế giới con người
      Khi ROI của việc khám phá trí tuệ trên nền tảng công nghệ hiện tại giảm xuống, nguồn lực con người tạm thời sẽ dồn sang nơi khác
      Nhưng khi chạm trần, cuối cùng những nhân tài đổi mới sẽ quay lại các tầng nền tảng để tạo ra bước tiến lớn
      Họ cho rằng thế hệ tiếp theo của foundational tech như PyTorch cũng sẽ tiến hóa theo cách này

    • Có người chỉ ra rằng trong 2~3 năm gần đây, đúng là hiếm có cải tiến kiến trúc quy mô lớn nào được rất nhiều người biết đến và dùng hằng ngày, nhưng cũng có xu hướng bỏ qua việc 3 năm vốn là một khung thời gian rất ngắn
      Ngoài LLM ra, vẫn có rất nhiều nghiên cứu thú vị và hữu ích đang diễn ra, và dù họ không phải chuyên gia lĩnh vực đó, họ vẫn cảm thấy có vô cùng nhiều thử nghiệm mới đang được tung ra

    • Có người nói rằng dù không có PyTorch, những người vốn không có ý định thử nghiệm cái mới thì vẫn sẽ có xu hướng như vậy

  • Có quan điểm cho rằng nếu tưởng tượng một hệ thống sao chép được trí tuệ ở mức con người, thì khác biệt cốt lõi giữa các mô hình có thể nằm ở “sự thay đổi của bộ dữ liệu”
    Trong thực tế, ký ức, giáo dục và bối cảnh của con người cũng chiếm phần lớn năng lực giải quyết vấn đề, nên giữa hai bên có điểm tương đồng

  • Có người tò mò về khả năng mô hình chủ động thu thập dữ liệu, tức tự tìm dữ liệu để học
    Họ đề xuất cần một cách học qua trải nghiệm trực tiếp như em bé loài người, bằng cách thử nhiều hành vi khác nhau
    Họ nói rằng thay vì tiếp tục chỉ bơm dữ liệu vào như hiện nay, một hướng tốt là kết hợp với bộ mô phỏng vật lý, nhất là khi giờ đây AI còn có thể tạo đối tượng 3D
    Lấy Cursor làm ví dụ, họ đề xuất rằng sau khi đặt ra quy tắc, có thể dùng reasoning model để suy luận lý do rồi phản ánh ngược vào dữ liệu huấn luyện nhằm nâng giá trị dữ liệu lên thêm một tầng
    Nếu xem lại lý do đằng sau lựa chọn hành động của người dùng rồi biến chúng thành dữ liệu huấn luyện, có thể sẽ tạo ra hiểu biết sâu sắc hơn

    • Có người cho biết các hướng như mô phỏng và “embodied AI” (AI hiện thân) với cánh tay robot, ô tô... đang được nghiên cứu rất tích cực

    • Có người nói cách đó về bản chất chính là reinforcement learning, và thực tế đây là một lĩnh vực không hề dễ

  • Có ý kiến cho rằng hầu hết ý tưởng mới đều khởi đầu từ những ý tưởng cũ
    AI là công cụ giúp tiếp cận các ý tưởng cũ nhanh hơn và bằng góc nhìn mới
    Họ nhấn mạnh rằng đổi mới nảy sinh từ các khoảng trống hoặc giao điểm giữa các ý tưởng cũ, và cuối cùng mọi sáng tạo đều đứng trên thành tựu của những người đi trước
    Họ ví AI như chiếc thang máy đưa con người ngay lên vai những người khổng lồ, và rốt cuộc mọi chuyện phụ thuộc vào cách ta dùng công cụ đó

    • Có người đồng ý về việc tiếp cận ý tưởng cũ, nhưng cho rằng khả năng tiếp cận bằng chính góc nhìn mới thì còn hạn chế
      LLM có hỗ trợ phần nào cho việc diễn giải dữ liệu, nhưng vẫn chưa đủ để tạo ra ý tưởng hoàn toàn mới so với nghiên cứu hiện có
      Họ giải thích rằng việc dùng LLM có thể tăng tốc ở một số vùng chuyên biệt của nghiên cứu, nhưng ở nhiều vùng khác thì vẫn có giới hạn

    • Có người nêu ví dụ rằng thật khó tưởng tượng một con người đã hấp thụ toàn bộ tri thức lại không thể nảy ra một ý tưởng hoàn toàn mới

    • Có người nhấn mạnh rằng luận điểm của bài viết là về chính đổi mới trong AI và việc cải thiện số lượng/chất lượng dữ liệu
      Đúng là đã có những đổi mới nền tảng, nhưng cách cải thiện hiệu năng tốt nhất vẫn là có thêm nhiều dữ liệu hơn và dữ liệu chất lượng cao hơn
      Họ lấy vòng lặp “nhiều dữ liệu hơn → mô hình sâu hơn → lặp lại tiếp” làm ví dụ cho chu trình phát triển của AI
      Họ thấy khó hiểu không biết quan điểm của người khác kết nối với góc nhìn này như thế nào

    • Có người phản bác luận điểm cho rằng mọi ý tưởng mới đều chỉ đến từ cái cũ bằng cách nhắc tới câu chuyện phát hiện ra vòng benzen
      Ý tưởng về cấu trúc vòng benzen lần đầu đến từ hình ảnh con rắn cắn đuôi mình trong mơ (“ouroboros”), cho thấy trí tưởng tượng chưa từng có trước đó đôi khi chính là nguồn gốc của đổi mới

  • Có người nói rằng LLM hiện đại cuối cùng vẫn chỉ là cộng và nhân các con số
    Họ diễn đạt cực đoan rằng người Babylon đã làm điều đó từ 4000 năm trước

    • Có người giải thích rằng con người rốt cuộc cũng chỉ là kết quả của các tương tác sóng, còn mọi ý nghĩa đều là thứ được gán vào
      Chỉ cần có cách đánh chỉ mục không gian khái niệm, thì khả năng khám phá sự bất ngờ là vô hạn

    • Có người so sánh rằng người Babylon làm trên bảng đất sét, còn ngày nay mọi thứ được xử lý trong chất bán dẫn có thành mỏng cỡ nguyên tử
      Theo họ, khác biệt về phương pháp là rất lớn

  • Có người cho rằng việc huấn luyện AI hiện nay trên thực tế gần giống với quá trình bắt nó ghi nhớ bộ dữ liệu
    Họ nhấn mạnh rằng đây không phải là kiểu tự suy nghĩ trên dữ liệu rồi suy ra kết luận và ghi nhớ
    Dù nó có thể biết nhiều “sự thật” hơn cả tiến sĩ trong một chủ đề nhất định, họ vẫn đánh giá con người vượt trội hơn trong việc suy nghĩ về nội dung đó

    • Có người đoán rằng có lẽ vì thế mà các tiến sĩ cũng luôn để sách giáo khoa gần bên
      Họ đặt câu hỏi ngược lại rằng liệu mô hình AI có thật sự cần phải nhớ toàn bộ các sự thật đã được ghi chép sẵn hay không

    • Có người giải thích rằng thực tế quá trình này phức tạp hơn một chút
      Họ đánh giá đây là việc nội tại hóa dữ liệu thành các heuristic để có thể phản ứng phù hợp với đầu vào
      Những heuristic này đôi khi khiến con người ngạc nhiên và đôi lúc còn cho thấy cách giải quyết vấn đề khá mới mẻ
      Khái niệm “tư duy” quá rộng nên khó phán xét dứt khoát, nhưng họ cho rằng AGI thì vẫn còn rất xa

    • Có người so sánh nhận định “nhớ nhiều sự thật hơn tiến sĩ trong một chủ đề nhất định” với một chiếc laptop
      Họ chỉ ra rằng laptop cũng có thể chứa nhiều sự thật hơn chứ không riêng gì mô hình AI