2 điểm bởi GN⁺ 2025-03-03 | 2 bình luận | Chia sẻ qua WhatsApp
  • Cùng với việc công bố GPT-4.5, OpenAI đã công khai system card của mô hình trước tiên
  • Trong system card ban đầu có câu "GPT-4.5 is not a frontier model" (GPT-4.5 không phải là mô hình tiên phong/cận biên)
    • Về sau, câu này đã bị xóa khỏi bài blog chính thức và system card đã cập nhật
  • Có vẻ như ai đó ở OpenAI đã cảm thấy cần phải đưa câu đó vào. Nhưng "vì sao OpenAI lại phát hành thứ này?"
  • Mâu thuẫn lớn nhất của tuyên bố rằng đây không phải mô hình frontier là GPT-4.5 là mô hình lớn nhất mà công chúng phổ thông có thể thử nghiệm
    • Việc mở rộng tới quy mô như vậy không tạo ra một bước nhảy rõ rệt ở các năng lực mà chúng ta đo lường
    • Chuyển đổi GPT-3.5 → GPT-4 là từ ổn (Okay) lên tốt (Good)
    • Còn thay đổi GPT-4o → GPT-4.5 là từ rất tốt (Great) lên cực kỳ tốt (Really Great)
  • Vì rất khó nhận ra khác biệt giữa các mô hình mới nhất, những người đầu tư vào AI và kỳ vọng tiến bộ có thể dễ nhầm rằng nó tốt hơn thực tế
  • Đây là thời điểm giới hạn kinh tế của scaling trở nên rõ ràng, trong khi mức cải thiện hiệu năng không lớn như kỳ vọng
    • Anthropic cũng đang gặp vấn đề tương tự, và đã xác nhận sẽ huấn luyện các mô hình lớn hơn nhiều sau Claude 3.7
  • GPT-4.5 là một mô hình cho thấy sự tiến bộ dần dần, khác với những cú nhảy mang tính đột phá trước đây
    • Nó cho thấy rằng trong nghiên cứu AI, việc chỉ mở rộng pretraining đơn thuần không còn tạo ra mức đột phá như trước nữa
    • Nội bộ OpenAI đã sử dụng GPT-4.5 trong thời gian dài, và nhiều khả năng đã dùng GPT-4.5 làm nền để huấn luyện các mô hình khác (xét việc cutdate dường như là năm 2023)

GPT-4.5 có gì tốt

  • (Đây là một số ước tính về số lượng tham số của GPT-4.5 và GPT-4o; vì không dựa trên thông tin rò rỉ nên biên độ sai số lớn, cần thận trọng)
  • GPT-4.5 là một mô hình cực lớn, và có khả năng còn lớn hơn Grok 3
    • GPT-4 là mô hình Mixture of Experts (MoE) với hơn 1 nghìn tỷ (1T) tham số tổng, trong đó số tham số kích hoạt được ước tính khoảng 200B
    • Có tin đồn rằng các mô hình như GPT-4o hoặc Gemini Pro đã giảm số tham số kích hoạt xuống chỉ còn khoảng 60B
    • Nói cách khác, các mô hình gần đây đang tiến hóa theo hướng giảm tham số kích hoạt và tối ưu hạ tầng để cải thiện tốc độ lẫn chi phí
  • GPT-4.5 được ước tính cần lượng tính toán nhiều hơn khoảng 10 lần (10X compute) so với GPT-4
    • Nhiều tham số hơn 5 lần + tập dữ liệu lớn hơn 2 lần = lượng tính toán tăng 10 lần
    • Tổng số tham số có thể đạt 5-7 nghìn tỷ (5T-7T), còn số tham số kích hoạt được dự đoán khoảng 600B
  • Tuy vậy, ngay cả khi mở rộng đến mức này thì người dùng cũng khó cảm nhận rõ cải thiện hiệu năng.
  • Từ đây mọi thứ trở nên rất kỳ lạ. Trong lần công bố này, OpenAI nhấn mạnh 2 điểm
    • Giảm hallucination: giảm tần suất mô hình tạo ra thông tin không đúng sự thật
    • Cải thiện trí tuệ cảm xúc (Emotional Intelligence): hiểu và biểu đạt ngữ cảnh cùng cảm xúc tốt hơn
    • Nhưng cả 2 đặc tính này đều rất khó đánh giá một cách khách quan
  • Hiệu năng benchmark (theo dữ liệu OpenAI cung cấp)
    • SimpleQA: GPT-4.5 cho thấy mức cải thiện lớn trong bài đánh giá kiến thức thế giới của mô hình AI
    • PersonQA: cũng đạt hiệu năng tốt nhất trong các câu hỏi liên quan đến từng cá nhân cụ thể
    • GPQA (Google-proof QA): cũng có kết quả xuất sắc ở chỉ số đánh giá suy luận logic không cần tra cứu thông tin
  • Ngay sau khi phát hành, trong giới chuyên gia AI đã xuất hiện ý kiến rằng GPT-4.5 dễ dùng và viết tốt hơn
    • Tuy nhiên, trong đánh giá về code và hiệu năng kỹ thuật, nó được xem là ở mức trung bình so với các mô hình cạnh tranh như Claude 3.7, R1
  • So sánh phong cách viết (theo khảo sát trên X/Twitter của Karpathy)
    • GPT-4.5 vs. GPT-4o-latest: đa số người dùng thích phong cách viết của GPT-4o-latest hơn
    • Lý do? GPT-4o-latest nhiều khả năng là mô hình distilled từ mô hình mới này, trước đây từng được gọi là Orion1; đồng thời kích thước nhỏ hơn rất nhiều nên tốc độ lặp nhanh hơn một trời một vực, nhờ đó post-training có thể được làm tốt hơn
  • Tất cả những điều này là cái giá OpenAI phải trả để giành lại vị trí số 1 trên bảng xếp hạng ChatBotArena
    • Người ta kỳ vọng GPT-4.5 sẽ đạt được điều đó, nhưng kết quả vẫn chưa ngã ngũ
  • Theo trải nghiệm dùng thử sớm trực tiếp của tác giả, ban đầu tốc độ chậm gây khó chịu, nhưng độ tin cậy đủ cao để vẫn đáng tiếp tục sử dụng
    • Tuy nhiên, không cần thiết phải chọn GPT-4.5 nếu phải trả thêm chi phí, vì o1 Pro của OpenAI và các dịch vụ trả phí khác có tỷ lệ giá/hiệu năng tốt hơn

Vì sao GPT-4.5 đắt

  • Khi GPT-4 ra mắt, mức giá cũng rất cao và thực tế khá tương tự GPT-4.5
  • Giá ban đầu của GPT-4.5 như sau:
    • Input: $75.00 / 1M token
    • Cached Input: $37.50 / 1M token
    • Output: $150.00 / 1M token
    • Tức là nó khởi đầu với mức giá cao hơn rất nhiều so với các mô hình trước đó
  • Các mô hình trước đây của OpenAI ban đầu cũng đắt, nhưng đã có tiền lệ giảm giá mạnh theo thời gian
    • GPT-4 (ra mắt tháng 3/2023)
      • Ban đầu có giá $30 cho input mỗi 1 triệu token, $60 cho output mỗi 1 triệu token
      • Bản ngữ cảnh 32K còn đắt hơn, với input $60, output $120
    • GPT-4 Turbo (ra mắt tháng 11/2023)
      • Rẻ hơn nhiều, giảm xuống input $10, output $30
    • GPT-4o (ra mắt tháng 5/2024)
      • Giá giảm thêm nữa, còn input $2.5, output $10, tức là rẻ hơn hơn 10 lần so với GPT-4
    • Có thể thấy OpenAI có xu hướng giảm giá mạnh mỗi khi ra mắt mô hình mới
  • Lý do GPT-4.5 hiện được định giá cao có vẻ là vì đây là giai đoạn đầu phát hành nên hãng đặt biên lợi nhuận cao
    • OpenAI cũng nói rằng không đảm bảo mô hình sẽ tiếp tục ở lại trên API, và sẽ quyết định dựa trên phản ứng của người dùng
  • Nhiều chuyên gia dự đoán khi GPU thế hệ tiếp theo của Nvidia là Blackwell ra mắt, chi phí sẽ giảm vì có thể vận hành các mô hình lớn hiệu quả hơn
  • Giống như quá trình từ GPT-4 sang GPT-4 Turbo rồi GPT-4o khiến giá ngày càng giảm, GPT-4.5 trong tương lai cũng rất có thể sẽ có một phiên bản như GPT-4.5 Turbo và được hạ giá

Tương lai của scaling

  • Scaling của mô hình ngôn ngữ vẫn chưa chết
    • Nhưng việc nhìn lại vì sao lần công bố này lại tạo cảm giác kỳ lạ đến vậy là rất quan trọng để giữ được sự tỉnh táo trước tốc độ phát triển của AI
    • Chúng ta đã bước vào một thời đại tồn tại những đánh đổi giữa nhiều kiểu scaling khác nhau
  • Tóm tắt ngắn gọn thì, "GPT-4.5 tuy kỳ lạ nhưng lại đang đi trước thời đại"
    • GPT-4.5 không chỉ là mở rộng mô hình đơn thuần mà còn là tín hiệu cho thấy cần một cách scaling mới
    • Điều đó có nghĩa là sự phát triển của AI không còn đủ nếu chỉ mở rộng kích thước mô hình (Scaling Up), mà cần những cách tiếp cận khác; thực ra chúng ta đã biết điều này qua sự tiến bộ nhanh của các mô hình suy luận
    • Ảnh hưởng thực sự của GPT-4.5 sẽ chỉ phát huy khi nó được tích hợp với sự phát triển nhanh của nhiều dòng nghiên cứu khác nhau
  • Trong bài báo R1 của DeepSeek và các nghiên cứu RL tiếp theo, người ta kết luận rằng mô hình càng lớn thì huấn luyện RL càng hiệu quả
    • Mô hình o4 của OpenAI cũng nhiều khả năng sẽ được huấn luyện bằng mô hình suy luận dựa trên GPT-4.5
    • Các mô hình hiện tại của OpenAI có lẽ đã không tốt đến vậy nếu không có GPT-4.5
  • Có thể chỉ trong chưa đầy 1 năm, phần lớn mô hình sẽ phát triển tới quy mô GPT-4.5 và còn nhanh hơn rất nhiều
    • Những cải thiện “cân bằng” sẽ giúp nhiều ứng dụng trở nên vững chắc hơn
    • OpenAI và các nhà nghiên cứu ở các phòng lab AI khác đang cố gắng mở rộng mô hình vượt qua cả giới hạn của hạ tầng hiện tại
  • Nếu các frontier lab không vượt qua giới hạn của mọi hướng mở rộng thì có lẽ họ đang không chấp nhận đủ rủi ro
    • Không nhất thiết phải công khai mô hình, nhưng cũng cần suy đoán vì sao OpenAI thực sự muốn làm như vậy
    • Vì nhiều khả năng GPT-4.5 hiện đã được dùng trong các hệ thống nội bộ khác và sắp tới cả ở các sản phẩm bên ngoài khác, nên việc phát hành mô hình này không phải đường vòng mà là một bước đi tự nhiên để tiến tới giai đoạn tiếp theo
  • GPT-4.5 là một mô hình frontier, nhưng bản thân việc ra mắt nó lại không quá phấn khích
    • Sự tiến bộ của AI không miễn phí và đòi hỏi rất nhiều nỗ lực
    • Điều quan trọng không nằm ở riêng GPT-4.5, mà là giá trị thực của nó sẽ bộc lộ khi được kết hợp với các công nghệ khác

2 bình luận

 
doolayer 2025-03-03

Trong bối cảnh nhiều benchmark đã bão hòa, có vẻ việc tập trung vào tính hữu dụng hay hiện tượng ảo giác là một xu hướng đương nhiên.

 
GN⁺ 2025-03-03
Ý kiến trên Hacker News
  • GPT 4.5 cũng có mốc cắt kiến thức đến tháng 10 năm 2023

    • Có khả năng mô hình này đã hoàn tất tiền huấn luyện từ ít nhất 1 năm trước
    • OpenAI có thể đã tập trung vào các dự án khác như Q-star/strawberry
  • Mô hình suy luận của OpenAI có thể không mạnh như kỳ vọng

    • Các mô hình không suy luận mạnh mẽ như Gemini 2.0 Flash, Grok 3, Sonnet 3.7 đã xuất hiện
    • OpenAI có thể cảm thấy cần phải tung ra một thứ gì đó về mặt hình thức
  • Mức giá khá bí ẩn

    • Có thể phản ánh một mô hình cũ không có các mẹo tối ưu hiệu suất mới nhất
    • GPT-4.5 có thể là cách OpenAI tìm hiểu xem mọi người sẵn sàng trả bao nhiêu
  • Bước nhảy từ GPT-4o lên 4.5 không phải là bước nhảy lớn

    • Được định giá như hàng xa xỉ nhưng không mang lại phần thưởng tương xứng
  • GPT-4.5 có thể xử lý những suy nghĩ phức tạp và tinh tế rất nhanh

    • Vượt trội hơn hẳn các AI khác
  • GPT-4.5 không đi theo những hướng kỳ lạ mà bám sát thực tế

    • Phản hồi tốt với sở thích về giọng điệu và hiểu rõ các khác biệt tinh tế
  • Về dài hạn, có thể khó kiếm tiền từ hạ tầng

    • API lập trình có khả năng Claude 3.5/3.7 sẽ được dùng nhiều hơn
    • API không phục vụ lập trình thì Gemini 2.0 Flash rẻ hơn và cho hiệu năng tốt hơn
    • Ứng dụng thuê bao thì ChatGPT vẫn là số một, nhưng Grok đang cạnh tranh
  • GPT-4.5 nhỉnh hơn một chút ở "viết sáng tạo"

    • Anthropic đã phát hành các mô hình mới giải quyết những vấn đề thực tiễn hơn
  • Có vẻ như đang chạm đến giới hạn của công nghệ

  • Có ý kiến cho rằng hai câu này chẳng phải đang mâu thuẫn sao

    • Việc mở rộng kích thước mô hình không mang lại cải thiện năng lực rõ ràng
    • Bước nhảy từ GPT-4o lên GPT-4.5 đã khiến mô hình trở nên xuất sắc
  • Có người nghi ngờ liệu có ai thực sự nhìn vào vài phần trăm cuối cùng của benchmark hay không

    • Có thể là sai lầm nếu cho rằng benchmark chính xác 100%
  • Tất cả các mô hình GPT4o trên Azure dự kiến sẽ ngừng hỗ trợ vào tháng 5

    • Đang cân nhắc liệu có nên chuyển sang Anthropic hay không
    • Cần thông tin về thời điểm ra mắt các mô hình "o" mới