- Một nhà nghiên cứu của OpenAI tuyên bố rằng GPT-5 giải quyết được vấn đề Erdős, nhưng bài đăng này đã bị rút lại ngay khi bị cộng đồng và các nhân vật trong ngành phê phán
- Tuyên bố đó dùng ngôn ngữ có thể được hiểu là AI đã tự mình tìm ra chứng minh thực chất cho một bài toán toán học được xem là chưa có lời giải suốt nhiều thập kỷ
- Trên thực tế, GPT-5 chỉ chứng minh ở mức tái khám phá các nghiên cứu sẵn có và không đưa ra lời giải mới cho các bài toán thực sự chưa được giải
- Sự việc này góp phần làm gia tăng lo ngại của ngành về việc giảm uy tín của OpenAI và các thông báo phóng đại thành tích AI chưa được xác thực
- Thực tế, điểm mạnh của GPT-5 là vai trò hỗ trợ như trợ lý tìm kiếm bài báo nghiên cứu và tổng hợp tài liệu
Tổng quan sự việc
- Gần đây, một nhà nghiên cứu của OpenAI đã đăng trên X (trước đây là Twitter) rằng GPT-5 đã có "thành tựu mang tính đột phá", khi "giải quyết 10 bài toán Erdős chưa giải" và có thêm 11 tiến triển
- Tuyên bố này được tiếp nhận theo hướng cho thấy GPT-5 đã tự suy ra bằng chứng toán học cho các vấn đề lý thuyết số khó.
- Một số nhà nghiên cứu OpenAI khác cũng đăng bài tương tự, ám chỉ rằng AI có thể hiện thực hóa những phát hiện khoa học đột phá.
Kiểm chứng và tranh luận trong cộng đồng
- Thomas Bloom, nhà toán học vận hành trang Erdosproblems.com, đã ngay lập tức bác bỏ và giải thích rằng các vấn đề được đánh dấu "open" trên website không thực sự là bài toán chưa giải
- Những bài toán đó đơn thuần chỉ là trường hợp mà Bloom chưa biết lời giải hoặc chưa kịp kiểm tra các công trình nghiên cứu trước đó
- GPT-5 chỉ tìm ra kết quả nghiên cứu đã tồn tại, chứ không phát hiện ra lời giải toán học mới
- Khi thực tế này được làm rõ, các nhà nghiên cứu OpenAI đã xóa bài đăng hoặc chỉnh sửa nội dung
- Cộng đồng và các nhân vật có tiếng tăm trong ngành, chẳng hạn như Demis Hassabis – CEO của DeepMind – đã gọi đây là "một việc ngượng", và Yann LeCun của Meta AI cũng chỉ ra rằng OpenAI đã rơi vào bẫy tự tuyên truyền
- Các nhà nghiên cứu đã thừa nhận sai sót và giải thích lại vai trò thực tế của GPT-5
Vấn đề niềm tin và phê phán trong ngành
- Sự kiện này làm gia tăng đánh giá rằng OpenAI bộc lộ vấn đề về độ tin cậy trong quy trình kiểm chứng
- Đặc biệt, khi kỳ vọng bị thổi phồng trong ngành AI cộng với cơn nóng đầu tư vào các mã liên quan, lo ngại về các thông báo thành tích chưa được xác thực trở nên rõ hơn
- Vẫn còn thắc mắc tại sao những nhà nghiên cứu hàng đầu ngành đã công khai những tuyên bố kịch tính mà không kiểm chứng, và câu hỏi về tính lành mạnh nội bộ của tổ chức cũng được nêu ra
Kết quả thực tế và vai trò của AI trong toán học
- Thực chất, GPT-5 đã thể hiện lợi ích khi đóng vai trò trợ lý tìm kiếm các bài báo và tài liệu nghiên cứu liên quan đến các bài toán toán học khó và có thuật ngữ đa dạng
- Nhà toán học Terence Tao kỳ vọng AI sẽ không phải là "lời giải cho các bài toán chưa giải mới nhất", mà hơn thế, có thể rút ngắn đáng kể việc rà soát tài liệu khổng lồ và thao tác tìm kiếm lặp lại
- Một số trường hợp tiến triển độc lập vẫn tồn tại, nhưng hiện tại điểm mạnh chủ yếu của GPT-5 nằm ở việc hỗ trợ tự động hóa tìm kiếm và sắp xếp bài báo
- Trong tương lai, AI tạo sinh có tiềm năng góp phần nâng tốc độ và tự động hóa trong toán học
- Tuy nhiên, kiểm chứng, phân loại và tích hợp kết quả bởi chuyên gia vẫn là điều bắt buộc
Kết luận
- Sự kiện này là trường hợp điển hình phơi bày vừa giới hạn vừa tiềm năng công nghiệp của AI tạo sinh, đồng thời cho thấy nguy cơ của việc phóng đại thành quả nghiên cứu AI
- Hệ quả là GPT-5 không phải là đột phá chuyển hướng cho các bài toán toán học chưa giải, mà tiềm năng nổi trội của nó được nhấn mạnh như một công cụ phụ trợ giúp sắp xếp tài liệu nghiên cứu
1 bình luận
Ý kiến Hacker News
Để công bằng với nhóm OpenAI và xem xét ngữ cảnh, tôi nghĩ tình huống này không đến mức ác ý như vậy
Tweet đã bị xóa ghi rằng: "GPT-5 đã giải được 10 bài toán Erdös (trước đó chưa được giải), và còn có tiến triển ở 11 bài khác, những bài toán đã không có lời giải suốt nhiều thập kỷ"
Nếu tweet này được đăng riêng lẻ thì tôi sẽ cho là rất dễ gây hiểu nhầm, nhưng thực tế đó là một tweet trích dẫn
Nguồn gốc đầu tiên được trích dẫn (https://x.com/MarkSellke/status/1979226538059931886) có nội dung kiểu như "đang đẩy chuyện này đi xa hơn"
Và nguồn gốc thứ hai mà tweet đó trích dẫn (https://x.com/SebastienBubeck/status/1977181716457701775) nói rằng GPT-5 rất giỏi tra cứu tài liệu nên "thực ra đã tìm ra một bài toán được giải từ 20 năm trước, và như vậy đã 'giải' được bài toán Erdos #339 vốn vẫn bị phân loại là bài toán mở"
Nếu đọc chuỗi này theo đúng thứ tự thì
SebastienBubeck: "GPT-5 rất giỏi tra cứu tài liệu, nên kiểu như đã giải được một bài toán vốn bị tưởng là còn mở bằng cách tìm ra lời giải đã tồn tại"
MarkSellke: "giờ nó làm thêm được 10 bài nữa"
kevinweil: "hãy nhìn kết quả tuyệt vời mà chúng tôi đã đạt được!"
Rốt cuộc đây là vấn đề của kiểu tweet trích dẫn: vì kevinweil trích qua nhiều tầng nên đã bỏ lỡ điểm xuất phát ban đầu (thực ra chỉ là tìm ra một lời giải đã tồn tại), và với người đọc thì cấu trúc đó gần như chắc chắn sẽ gây hiểu nhầm
Đây có vẻ là một sai sót hoàn toàn có thể hiểu được, và tôi thấy mức độ tranh cãi đang bị đẩy hơi quá
Về chuyện không xem xét đầy đủ ngữ cảnh của tweet trích dẫn mà Weil đăng, thực ra chính Weil cũng đã trực tiếp thừa nhận rằng bản thân đã hiểu nhầm bài đăng của Sellke (có thể xem tại https://x.com/kevinweil/status/1979270343941591525)
Sellke nói "được phân loại là bài toán mở", còn Weil lại nói "những bài toán trước đó chưa được giải" — đó là hai điều khác nhau
Người đầu tiên nói kiểu "đã 'giải' bài toán bằng cách nhận ra nó thực ra đã được giải từ 20 năm trước", còn người thứ hai thì nói "đã giải 10 bài toán Erdös trước đó chưa được giải"
Tôi nghĩ cách diễn đạt "trước đó chưa được giải" rõ ràng không còn đúng với ngữ cảnh thực tế nữa
Tôi cũng tự hỏi liệu mình có hiểu sai gì không
Nó khá giống với vụ vài tháng trước khi DeepMind công bố một bài báo nói rằng họ "làm phép nhân ma trận tốt hơn SOTA"
Khi đó người ta nói Gemini đã tìm ra một phương pháp tối ưu hóa mới, nhưng ngay sau khi công bố thì các nhà toán học đã chỉ ra ngay rằng đó là phương pháp đã có trong tài liệu từ 30-40 năm trước, và khả năng cao nội dung đó cũng đã nằm trong dữ liệu huấn luyện của Gemini
Về ý "GPT-5 rất giỏi tra cứu tài liệu, nên đã 'giải' được những bài có lời giải sẵn"
Tôi nghĩ đây là thiên lệch sống sót
Trên thực tế, GPT-5 cũng thường xuyên thất bại ngay cả với những lần tìm kiếm tương đối dễ
Bạn phải biết khá rõ kết quả có đúng không, hoặc tự mình làm bước xác minh
Cảm giác chẳng khác gì tung xúc xắc 1000 lần rồi lần nào ra double six thì cũng đăng bài khoe
Điều đó không có nghĩa là tôi là người tung xúc xắc giỏi nhất, cũng tương tự vậy
Có nhắc đến việc nhà toán học Thomas Bloom, người vận hành erdosproblems.com, đã phản bác ngay lập tức
Ông nhấn mạnh rằng ở đây không phải "chưa được giải (unsolved)", mà là "tôi không biết đáp án nên nó là open"
Tôi thấy việc một nhà toán học định nghĩa 'open' theo kiểu đó thật kỳ lạ
Cũng giống như tôi sẽ không gọi một bài tập trong giáo trình mà mình chưa biết lời giải là một 'câu hỏi mở'
Phản bác quan điểm cho rằng "GPT-5 hữu ích như một công cụ hỗ trợ rà soát tài liệu"
Theo tôi thì nó chỉ tạo ra kết quả trông cực kỳ thuyết phục nhưng lại giả
Ai cảm thấy hài lòng với kiểu kết quả đó thì hẳn cuộc sống của họ dễ hơn tôi rất nhiều
Tôi thường phải lục tìm hàng giờ trong thư viện để kiếm tài liệu như các bài báo về toán học kỹ thuật, rồi mới đặt hy vọng vào chatbot như phương án cuối cùng
Nhưng rốt cuộc kết quả vẫn kỳ quặc, tôi lại phải mất rất lâu để kiểm chứng lại, và cuối cùng chỉ còn cảm giác thất vọng kiểu "chuyện này sao có thể là thật được"
Tôi cũng nhận ra là không chỉ mình tôi gặp trải nghiệm như vậy
Theo trải nghiệm của tôi khi thường xuyên đào sâu tra cứu tài liệu, GPT bịa ra nguồn không có thật (hallucination) với xác suất khoảng 50%
Với các bài review ở mức cao hơn thì tỷ lệ hallucination khoảng 5%
Trong 50% nguồn thật, một nửa là các bài tôi đã quen thuộc, nửa còn lại là những bài tôi chưa biết
Điểm thực sự tốt là nó đôi khi tìm ra được những bài báo vốn rất khó tìm bằng cách thông thường, kể cả những thứ Google Scholar không tìm được
Đặc biệt, bạn có thể bắt gặp các nghiên cứu liên quan từ lĩnh vực khác, hoặc các bài chỉ có abstract và ít được trích dẫn, tức là nguồn rất đa dạng
Dù 75% tổng kết quả là vô dụng hoặc là hallucination, 25% còn lại vẫn mang lại giá trị quá lớn nên trên thực tế nó rất hữu ích
Kết luận rằng nó "hoàn toàn không hữu ích" có lẽ là hơi quá
GPT có thể rà qua 500.000 từ chỉ trong vài phút, rồi đưa ra tóm tắt, câu trả lời chi tiết, và cả căn cứ cho từng luận điểm
Tất nhiên không bao giờ nên tin tuyệt đối vào phần tóm tắt, và thông tin quan trọng thì bắt buộc phải bấm vào nguồn để xác minh
Nhưng dù vậy, nó vẫn là một công cụ tìm kiếm rất mạnh và là đòn bẩy năng suất đáng kể
Tôi không nhớ tên, nhưng có một nguyên lý kiểu này
Khi người ta đọc một bài báo về chủ đề mà mình biết rõ, họ nhìn ra ngay các lỗ hổng và sẽ nghĩ kiểu "sao cái này lại được đăng thành bài báo nhỉ"
Nhưng với các bài về chủ đề mình không biết thì lại dễ tin một cách không phê phán
Tôi có cảm giác với ChatGPT cũng đang xuất hiện một dạng niềm tin mù quáng tương tự
Thực ra thay vì cố ép dùng các chatbot như GPT-5 cho mục đích tìm kiếm/rà soát tài liệu, có lẽ dùng một công cụ tìm kiếm ngữ nghĩa thật sự mạnh sẽ tốt hơn
Mỗi khi giao cho chatbot nhiệm vụ tóm tắt hoặc trả lời, hallucination luôn đi kèm
Ngược lại, nếu là tìm kiếm tài liệu dựa trên embedding của LLM thì bản thân kết quả sẽ không có rủi ro bị hallucination, và có thể còn là cách tốt hơn để tìm các bài báo mà Google/Bing hiện tại cũng bỏ sót
Nếu đã có dịch vụ như vậy mà chỉ là tôi chưa biết thì cũng cần tính đến khả năng đó
Nếu ai quan tâm đến công cụ rà soát tài liệu, tôi xin giới thiệu một nền tảng công khai để tổ chức tài liệu mà tôi làm cho bạn bè học cao học
Nó sử dụng mô hình hỗn hợp phân cấp để xử lý tìm kiếm quy mô lớn và sắp xếp mạng lưới trích dẫn
Ví dụ sử dụng: https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all
Việc vấn đề của OpenAI lộ ra đúng vào cùng tuần DeepMind cho thấy một bước đột phá thực sự trong điều trị ung thư bằng AI tạo ra cảm giác tương phản khá tệ
Nó làm tôi nhớ câu của sếp cũ: "Đừng trở thành người khiến người ta phải đặt ra một chính sách mới"
Có lẽ OpenAI sẽ phải thay đổi chính sách truyền thông của mình sau vụ này
Tôi nghĩ nhân viên OpenAI hẳn hiểu khá rõ năng lực thực tế của các mô hình của họ, nhưng kể cả không phải vậy thì với mọi tuyên bố trên Internet cũng luôn phải cẩn trọng
Chính kiểu văn hóa này đã góp phần tạo ra môi trường thổi phồng AI như hiện nay
Điều bộc lộ ra từ vụ này là một sự thật đáng buồn: OpenAI không đầu tư nghiêm túc vào các bài toán toán học chưa được giải
Tôi nghĩ đó là một bước nhảy logic quá xa
Một tổ chức lớn như OpenAI chắc chắn có nhiều nhóm nghiên cứu ở các nhánh khác nhau đang thử nghiệm theo nhiều hướng
Khoảnh khắc OpenAI chuyển trục kinh doanh sang quảng cáo và nội dung người lớn là lúc tôi nghĩ họ đã thật sự "jumped the shark"
Thị trường vẫn chưa phản ánh điều đó
Chỉ vì một nhân viên đưa ra một tuyên bố sai mà tôi sẽ không vội đánh giá toàn bộ tổ chức từ đó
Tôi không thấy lạ nếu nhân viên OpenAI được yêu cầu công bố theo kiểu này, tức là bằng ngôn ngữ marketing
Đây không phải lần đầu; trước đó cũng đã có trường hợp họ tuyên bố GPT-5 đã "giải" được cái gì đó (xem https://x.com/SebastienBubeck/status/1970875019803910478)
Ngày càng có nhiều ví dụ cho thấy GPT-5 đủ khả năng giải các bài toán toán học chưa được giải ở mức độ nhỏ, thường kiểu bài mà một nghiên cứu sinh tiến sĩ có thể xử lý trong một hai ngày
Tác động của việc này dường như vẫn chưa được tiếp nhận đầy đủ
Tôi nhớ lời khuyên: "đừng quá tin vào chính thứ mà mình tạo ra"
[Uống nước tiểu hai lần]
Cụm từ "Hoisted by their own GPTards" của Yann LeCun khá ấn tượng
Yann đúng là thông minh và hiểu sâu tận gốc rễ của lĩnh vực, nhưng gần đây tôi thấy có xu hướng bi quan quá mức và cũng đã có không ít trường hợp lập trường công khai của ông nhanh chóng bị thực tế bác bỏ
Trước đây trong một buổi nói chuyện với các nhà nghiên cứu trẻ, ông từng đưa ra hai khẳng định mạnh
plan)Nhưng chỉ sau 1 năm, giờ AI đã thực sự làm được việc dùng công cụ, đạt giải ở IMO, lập kế hoạch theo kiểu tác tử, v.v.
Một nhận định khác của ông là LLM càng kéo dài hội thoại thì lỗi sẽ càng tích lũy, cuối cùng đi đến kết quả vô nghĩa; nhưng gần đây với long context kết hợp RL, trên thực tế cũng đã có nhiều ví dụ cho thấy điều đó được khắc phục phần lớn
Dù là thiên tài đi nữa, tôi nghĩ ý kiến của một cá nhân vẫn nên được tiếp nhận có chọn lọc
Có thể tôi đã bỏ lỡ ngữ cảnh nào đó, nhưng tôi khá bất ngờ khi Yann dùng một từ biến thể từ 'retard'
Bình thường tôi sẽ nghĩ kiểu ngôn ngữ đó là thứ ai như Elon Musk mới dùng
Tôi tò mò không biết ngữ cảnh khi đó là gì
Sau vụ bê bối tài trợ vòng tròn trị giá hàng trăm tỷ đô la, giờ khi đọc về ngành AI hay những màn cường điệu hóa nhân tạo, tôi không còn thấy gì đáng ngạc nhiên nữa