- GPT-5.4 Pro đã giải một bài toán kiểu Ramsey liên quan đến siêu đồ thị thông qua hợp tác với Kevin Barreto và Liam Price
- Will Brian, người đề xuất bài toán, đã kiểm chứng tính chính xác của lời giải, đồng thời toàn bộ lịch sử hội thoại và tài liệu thuyết minh cuối cùng của AI đã được công khai
- Lời giải loại bỏ sự kém hiệu quả của các cấu hình cận dưới trước đây và trình bày cấu trúc đối xứng của cận trên, qua đó đạt được mức độ khớp hiếm thấy trong lý thuyết Ramsey
- Sau đó, trong khung FrontierMath: Open Problems, nhiều mô hình đã giải được cùng bài toán, qua đó chứng minh tính hiệu quả của nó như một công cụ kiểm chứng năng lực suy luận toán học của AI
- Thành tựu này được đánh giá là một ví dụ cho thấy AI có thể đóng góp thực chất vào việc giải các bài toán toán học chưa được giải quyết
Giải bài toán kiểu Ramsey trên siêu đồ thị
- GPT-5.4 Pro đã giải bài toán kiểu Ramsey khó liên quan đến siêu đồ thị thông qua hợp tác với Kevin Barreto và Liam Price
- Will Brian, người đề xuất bài toán, đã xác minh tính chính xác của lời giải
- Toàn bộ lịch sử hội thoại trong quá trình giải và tài liệu thuyết minh cuối cùng của GPT-5.4 Pro đã được công khai
- Brian đánh giá lời giải này đã loại bỏ tính kém hiệu quả của cấu hình cận dưới hiện có, đồng thời cho thấy độ phức tạp và cấu trúc đối xứng của cấu hình cận trên
- Với kết quả cận dưới và cận trên khớp nhau một cách nhất quán, nó đạt được mức độ nhất quán hiếm thấy trong các bài toán lý thuyết Ramsey
- Ông dự định sẽ hệ thống hóa kết quả này thành một bài báo, và có thể bao gồm cả các nghiên cứu bổ sung bắt nguồn từ ý tưởng của AI
- Sau đó, Epoch AI đã hoàn thiện khung kiểm thử FrontierMath: Open Problems và áp dụng cùng bài toán đó cho nhiều mô hình
- Các mô hình Opus 4.6 (max), Gemini 3.1 Pro, GPT-5.4 (xhigh) cũng đã giải thành công bài toán
- Điều này cho thấy môi trường FrontierMath có hiệu quả trong việc đánh giá năng lực suy luận toán học của các mô hình AI
Định nghĩa bài toán
- Bài toán tập trung vào việc cải thiện cận dưới của dãy (H(n)), xuất hiện trong nghiên cứu về tính hội tụ đồng thời của các tập hợp chuỗi vô hạn
- Việc một siêu đồ thị ((V, \mathcal H)) chứa một phân hoạch (partition) có kích thước (n) nghĩa là tồn tại
(D \subseteq V), (\mathcal P \subseteq \mathcal H) sao cho (|D| = n), và
mỗi phần tử của (D) nằm trong đúng một phần tử của (\mathcal P)
- (H(n)) được định nghĩa là số đỉnh tối đa (k) của một siêu đồ thị không có đỉnh cô lập và không chứa phân hoạch nào có kích thước lớn hơn (n)
- Cận dưới đã biết của (H(n)) được cho là rất có thể chưa tối ưu, và được tin rằng có thể cải thiện thông qua một cấu hình siêu đồ thị mới
- Mục tiêu là tìm một thuật toán thỏa mãn (H(n) \ge c \cdot k_n) (với (c > 1))
- (k_n) được định nghĩa bởi truy hồi (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor})
Các giai đoạn cấu thành bài toán
-
Giai đoạn Warm-up
- Xây dựng siêu đồ thị cho các giá trị (n) đã có lời giải được biết đến
- Điều kiện: (|V| ≥ 64), (|H| ≤ 20), không có phân hoạch nào vượt quá kích thước 20
-
Giai đoạn Single Challenge
- Nhiệm vụ tìm một siêu đồ thị với cùng điều kiện cho các giá trị (n) chưa có lời giải được biết đến
- Điều kiện: (|V| ≥ 66), (|H| ≤ 20), không có phân hoạch nào vượt quá kích thước 20
-
Giai đoạn Full Problem
- Yêu cầu một thuật toán tổng quát hoạt động với mọi (n)
- Với đầu vào (n), phải tạo ra một siêu đồ thị thỏa mãn (H(n) ≥ c \cdot k_n)
- Khi (n ≤ 100), thuật toán phải chạy trong vòng 10 phút trên một laptop thông thường
Đánh giá của các nhà toán học
- Số nhà toán học quen thuộc với bài toán này ở mức khoảng 10 người, bao gồm nhiều nhà nghiên cứu trong đúng chuyên ngành
- Số nhà toán học thực sự từng thử giải bài toán được ước tính vào khoảng 5–10 người
- Thời gian dự kiến để một chuyên gia giải được bài toán là 1–3 tháng
- Nếu giải được, kết quả được đánh giá ở mức có thể công bố trên tạp chí học thuật chuyên ngành
- Do độ phong phú của bài toán, khả năng lời giải dẫn tới các nghiên cứu toán học mới là rất cao
- Dưới các điều kiện đã nêu, xác suất bài toán có thể được giải là 95–99%
1 bình luận
Ý kiến trên Hacker News
Thật đáng ngạc nhiên khi nhiều người khẳng định rằng “LLM không thể có sự sáng tạo thực sự”
Chỉ nói rằng “không có trong dữ liệu huấn luyện nên là bất khả thi” là chưa đủ. Đã có rất nhiều phản ví dụ rồi
Vậy thì cần có cơ sở để giải thích vì sao có những nhiệm vụ mới là khả thi, còn những nhiệm vụ khác lại bị cho là bất khả thi
Nếu thừa nhận rằng ‘tính mới’ nằm trên một phổ liên tục, thì tôi muốn biết ranh giới được vạch ở đâu, và loại bằng chứng nào sẽ khiến người ta đổi ý
Nhưng cũng có phản biện. Sau khi thấy mô hình giành huy chương vàng Olympic Toán, tôi đã bỏ lập luận thứ nhất
Và với việc bổ sung RL và bộ nhớ, có vẻ giới hạn thứ hai cũng có thể bị vượt qua
Có lẽ các LLM cỡ lớn cũng có thể nội tại hóa thông tin như con người
Ví dụ liên quan: bài viết trên blog METR
Con người định nghĩa “tính mới thực sự” quá hoành tráng — ví dụ như công thức siêu dẫn hay phát triển thuốc mới
Nhưng thực ra một cách buộc dây giày mới cũng ‘về mặt hình thức’ là mới
LLM có thể giải vô số vấn đề nhỏ nhặt kiểu này, nhưng có thể không phải là đổi mới có ý nghĩa đến mức khiến con người thán phục
Nó từ chối một cách chính xác với lý do overhead hiệu năng và đưa ra một cách tiếp cận hoàn toàn khác
Không phải vấn đề quá mới mẻ, nhưng vẫn là một lời giải khá sáng tạo, nên tôi thấy ấn tượng
Hình ảnh dự án
Không phải chỉ là ghi nhớ đơn thuần, mà là đã nội tại hóa phép toán được khái quát hóa thành các mạch bên trong mạng nơ-ron
Tôi từng nghĩ chỉ khi AI tự mình giải được các bài toán khó thì tôi mới tin, nhưng nếu kết quả lần này là thật thì giờ tôi có cảm giác mình đã thành tín đồ rồi
Tôi vẫn muốn thấy thêm nhiều trường hợp nữa, nhưng thế giới thực sự đang trở nên mới mẻ và thú vị
Nhưng ở những lĩnh vực định nghĩa mơ hồ như chất lượng mã nguồn thì ảo giác lại tăng lên
Vì không có hàm giá trị tự học như AlphaGo nên chỉ riêng RL sẽ có giới hạn
AI liên tục tạo ra nội dung ở mức ‘tạm được’, nhưng cảm xúc thật sự thì biến mất
Những điều tốt đẹp mà con người từng trao đổi với nhau thì ít đi, còn những điều tệ thì chỉ bị khuếch đại
Phần lớn con người cũng không giải được những bài như vậy, trong khi AI đã rất xuất sắc trong các công việc tri thức phổ thông
Nếu lấy tiêu chuẩn đó thì nó gần với định nghĩa AGI hay ASI hơn
Cần có thẩm định của chuyên gia về việc đó thực sự là bài toán gì
Tôi cảm thấy giả định nền tảng rằng con người là đặc biệt vẫn còn quá mạnh
Người ta không suy nghĩ đủ về việc lời giải thích kiểu “chỉ là thử nhiều lần rồi trúng” cũng có thể áp dụng cho con người
Ngay cả trong các cộng đồng coi trọng tư duy khoa học, chủ nghĩa ngoại lệ của con người vẫn bám rất sâu
AI không tự đặt mục tiêu hay nhận thức được thành tựu của mình
Thứ thu được sau khi bỏ ra chi phí khổng lồ có thể chỉ là một bước tiến toán học nhỏ nhặt
Tôi là người theo chủ nghĩa chức năng, nhưng không nghĩ thứ ‘trông giống trí tuệ’ của LLM là trí tuệ thật sự
Toàn bộ cuộc trò chuyện với GPT‑5.4 Pro và báo cáo kết quả đã được công bố
Toàn văn hội thoại / Tóm tắt kết quả
Ngoài ra, cách người dùng cập nhật lượng token tiêu thụ giữa chừng để mở rộng ngữ cảnh cũng rất thú vị
Việc Opus 4.6 tiêu tốn khoảng 250 nghìn token khiến tôi tưởng tượng số token như một chỉ số cho độ khó của bài toán
Nghĩ đến việc màn refactor React tôi làm hôm nay khó bằng khoảng nửa một bài toán nan giải toán học thấy cũng buồn cười
Có những bài toán mà trên toàn thế giới chỉ có 5–10 người từng thử
Giống như phần mềm dang dở vì thiếu động lực, bài toán toán học cũng có thể chưa được giải chỉ đơn giản vì quá ít người thử
Dù vậy, việc AI giải được những bài như thế vẫn là điều gần như kỳ diệu
Khi ngữ cảnh lớn lên thì chi phí cũng tăng, và nhà cung cấp cũng có thể nâng đơn giá
Năng lực của AI được quyết định bởi hàm chi phí (cost function) mà nó được huấn luyện theo
Rốt cuộc trí tuệ là quá trình tối thiểu hóa một hàm chi phí phức tạp
Những hướng tiếp cận như RLVR sẽ phát triển rất nhanh trong các lĩnh vực như toán học và lập trình, nơi có thể kiểm chứng tự động
Nhưng ở các lĩnh vực có thưởng xã hội hoặc độ bất định cao, tiến bộ có thể chậm hơn
Ví dụ, việc đưa vào số phức cũng có thể được xem là kết quả của tối ưu hóa biểu diễn
Các chuyên gia lĩnh vực đang dạy cho LLM cách họ giải quyết vấn đề của mình
Cuối cùng LLM sẽ mô phỏng các mẫu hình tư duy đó để giải bài toán
Tôi nghĩ có rất nhiều bài toán có thể giải bằng cách lấy mẫu lại các chứng minh hiện có
Những vòng lặp tìm kiếm mà con người sẽ phát điên lên nếu phải làm thì máy móc có thể kiên trì thực hiện
Không phải bước tiến lớn, nhưng nó có thể đóng vai trò biến phỏng đoán thành định lý
Trường hợp thật sự mở ra một góc nhìn hoàn toàn mới là hiếm
Cũng có thể chỉ là lãng phí token
Trang Open Problems của Epoch có 15 bài toán và phân loại độ khó
Bài vừa được giải lần này thuộc mức ‘moderately interesting’, tức là nằm về phía dễ nhất
Dù vậy, việc đây là bài toán đã được công khai từ trước khi giải vẫn rất đáng chú ý
Tôi tò mò không biết 3 bài còn lại cùng cấp độ đó sẽ được giải nhanh đến mức nào
Tiêu đề hơi dễ gây hiểu nhầm
Tiêu đề thực tế là “A Ramsey-style Problem on Hypergraphs”, và không chỉ GPT‑5.4 mà nhiều mô hình hiện đại khác cũng đã giải được
Dù vậy, đây vẫn là một thành tựu ấn tượng