Dự án FrontierMath được OpenAI tài trợ

(lesswrong.com)

2 điểm bởi GN⁺ 2025-01-20 | 1 bình luận | Chia sẻ qua WhatsApp

Gần đây OpenAI công bố mô hình mới o3 và cho biết đã đạt hiệu năng đột phá trong lĩnh vực toán học
Đặc biệt, mô hình này đạt 25% trên benchmark FrontierMath, nơi các mô hình trước đó chỉ đạt khoảng 2%, nên đã thu hút sự chú ý lớn
Sau thông báo này, đã xuất hiện chỉ trích rằng quá trình xây dựng benchmark thiếu minh bạch
Từ vụ việc này có thể rút ra bài học cho các thảo luận về benchmark AI trong tương lai, cách đánh giá và vấn đề an toàn

Tổng quan sự việc

Trước tháng 11 năm 2024, Epoch AI bắt đầu xây dựng benchmark FrontierMath để đánh giá toán học
Họ thuê các nhà toán học bên ngoài biên soạn bài toán và trả thù lao khoảng 300–1000 USD
Khi đó không nêu rõ ai là bên tài trợ và ai có thể xem các bài toán cùng lời giải
Ngày 7 tháng 11 năm 2024, Epoch AI công bố phiên bản đầu tiên của bài báo trên arxiv, nhưng hoàn toàn không đề cập đến nguồn tài trợ
Ngày 20 tháng 12 năm 2024, OpenAI công bố mô hình o3 và thông báo rằng mô hình đạt 25% trên FrontierMath
Cùng ngày, bản v5 của bài báo Epoch AI được cập nhật trên arxiv và khi đó mới công bố rằng OpenAI tài trợ toàn bộ và có thể truy cập phần lớn các bài toán khó cùng lời giải

Chi tiết bổ sung

Ngay sau bản cập nhật tháng 12 đã có lo ngại về vấn đề này, và gần đây thêm nhiều thông tin liên quan đã được hé lộ
FrontierMath chia độ khó thành (a) mức Olympiad (25%), (b) mức trung bình (50%), (c) mức chuyên gia cần nhiều tuần để giải (25%)
Trong thông báo o3 đạt 25%, việc không công bố mô hình chủ yếu giải được bài ở mức độ khó nào có thể gây hiểu nhầm
OpenAI có quyền truy cập toàn bộ bài toán và lời giải, nhưng theo một thỏa thuận miệng thì được cho là không trực tiếp dùng bộ dữ liệu này để huấn luyện
Tuy vậy, vẫn có ý kiến rằng rất khó để bất kỳ ai biết chính xác mô hình được huấn luyện nội bộ theo cách nào

Vì sao đây là vấn đề

Nếu sở hữu hoặc có quyền truy cập các bài toán FrontierMath, điều đó có thể gián tiếp giúp cải thiện hiệu năng mô hình
Đặc biệt, có lo ngại rằng các bài toán khó chưa công khai có thể được dùng để tinh chỉnh việc kiểm định mô hình hoặc các kỹ thuật tìm kiếm
Vẫn chưa rõ việc công bố đạt 25% thực sự có nghĩa là mô hình giải được các bài toán khó hay chỉ chủ yếu giải các bài dễ hơn

Bộ dữ liệu có thể nâng cao năng lực ngay cả khi không huấn luyện trực tiếp

Cấu trúc nội bộ của o3 chưa được công bố rõ, nhưng một số nghiên cứu khác đang áp dụng cách “mở rộng quy mô ở giai đoạn suy luận”
Có nghiên cứu giới thiệu việc tự động học đánh giá chain-of-thought dựa trên MCMC, hoặc gắn mô hình phần thưởng (PRM) vào các bước trung gian để tăng cường tìm kiếm
Những benchmark khó như FrontierMath có thể hữu ích trong việc kiểm chứng các mô hình phần thưởng này
Nói cách khác, ngay cả khi không dùng trực tiếp để huấn luyện, bộ dữ liệu vẫn có thể được dùng để tinh chỉnh chiến lược tìm kiếm hoặc kỹ thuật kiểm chứng của mô hình
Nếu mục tiêu là đánh giá độc lập và công bằng, có ý kiến cho rằng tốt hơn nên chỉ đánh giá một lần và không sử dụng cho mục đích khác

Lo ngại về an toàn AI

Epoch AI được biết đến là một tổ chức theo dõi xu hướng phát triển AI và quan tâm đến an toàn
Trong số các nhà toán học đóng góp bài toán cho FrontierMath, có thể có những người sẽ không tham gia nếu biết rằng công việc của mình có thể được dùng để nâng cao năng lực AI
Cuối cùng, có chỉ trích cho rằng OpenAI đã gián tiếp thu thập bài toán từ những người không mong muốn điều đó để kiểm định và phát triển mô hình
Sự thiếu minh bạch này làm dấy lên lo ngại về an toàn AI và đạo đức nghiên cứu

Bình luận của meemi, một AI Safety Researcher

FrontierMath đã nhận tài trợ từ OpenAI
Có ý kiến chỉ ra rằng thông tin này đã không được công khai minh bạch với bên ngoài trước ngày 20 tháng 12
Bối cảnh là các phiên bản đầu trên Arxiv (v1–v4) không hề nhắc đến hỗ trợ từ OpenAI, và chỉ từ phiên bản công bố sau ngày 20 tháng 12 mới đề cập điều này
Chưa rõ Epoch AI đã có thỏa thuận gì với OpenAI, nhưng có khả năng việc được tài trợ đã bị giữ kín cho đến trước thời điểm công bố o3 (20 tháng 12)
Có đề cập rằng với các nhà toán học tham gia biên soạn bài toán, việc có tài trợ từ OpenAI đã không được truyền đạt một cách chủ động
Những người tham gia theo hợp đồng đã ký NDA và bị cấm chia sẻ bài toán cũng như lời giải qua email hoặc Overleaf, cho thấy yêu cầu bảo mật được duy trì rất nghiêm ngặt
Tuy nhiên, có chỉ trích rằng họ không được thông báo rõ ràng về việc OpenAI tài trợ hay khả năng dữ liệu sẽ được sử dụng như thế nào
Có ý kiến cho rằng ngay cả một số tác giả cũng có thể đã không biết OpenAI là bên tài trợ
Có vẻ như đa số mọi người và những người tham gia theo hợp đồng đều tin rằng “các bài toán và đáp án của benchmark này sẽ được giữ hoàn toàn bí mật và chỉ Epoch sử dụng”
Hiện tại Epoch AI và OpenAI chưa công khai thừa nhận rằng “OpenAI có quyền truy cập bài toán hoặc lời giải”, nhưng có tin đồn rằng OpenAI thực tế đang sử dụng chúng
Cũng có đề cập rằng chưa rõ có tồn tại thỏa thuận minh thị nào để hạn chế việc dùng bộ dữ liệu này cho mục đích huấn luyện hay không
Kết quả là tồn tại một góc nhìn chỉ trích rằng lẽ ra phải công bố rõ ràng hơn về nguồn tài trợ và khả năng sử dụng dữ liệu, đồng thời cung cấp đầy đủ thông tin cho những người làm hợp đồng biên soạn bài toán

Bình luận của Tamay từ Epoch AI

Tamay của Epoch AI trực tiếp thừa nhận vấn đề minh bạch
- Có điều khoản hợp đồng khiến họ không thể công khai sự tham gia của OpenAI trước khi o3 ra mắt
- Sau đó, ông thừa nhận rằng mức độ minh bạch là chưa đủ và nói rằng lẽ ra nên cung cấp thông tin cho các cộng tác viên sớm hơn
- Ông thừa nhận phía mình có lỗi khi không thể truyền đạt rõ ràng nguồn tài trợ và quyền truy cập dữ liệu
Cam kết cải thiện minh bạch trong các hợp tác sau này
- Trong tương lai, họ sẽ cố gắng để những người đóng góp ngay từ đầu có thể biết rõ nguồn tài trợ, quyền truy cập dữ liệu và mục đích sử dụng
- Với một số nhà toán học, họ có đề cập rằng có nguồn tài trợ từ phòng lab nghiên cứu, nhưng việc truyền đạt không được thực hiện một cách có hệ thống
- Ông cho rằng vấn đề nằm ở việc đã tiến hành mà không nêu tên phòng lab cụ thể đó, tức OpenAI
- Ông nói lẽ ra ngay từ đầu họ phải đàm phán quyết liệt hơn để có thể công khai mối quan hệ hợp tác này
Vấn đề bị hạn chế công khai cho đến thời điểm ra mắt o3
- Do nghĩa vụ hợp đồng, họ đã không thể công bố quan hệ đối tác với OpenAI cho đến gần thời điểm o3 ra mắt
- Những nhà toán học biên soạn bài toán có quyền được biết công việc của họ có thể được chuyển cho ai
- Ông cho biết mình suy ngẫm lại việc đã không thể giải thích đầy đủ cho cộng tác viên vì ràng buộc hợp đồng
Quyền truy cập dữ liệu và khả năng dùng cho huấn luyện
- OpenAI có thể truy cập một phần đáng kể các bài toán và lời giải của FrontierMath
- Tuy nhiên, ông nói có một thỏa thuận miệng rằng dữ liệu này sẽ không được dùng cho mục đích huấn luyện
- Nhân viên OpenAI công khai gọi FrontierMath là một “strongly held out set”
- Trên thực tế còn có một holdout set riêng biệt mà OpenAI không thể truy cập, dùng cho mục đích kiểm chứng độc lập
- Mục tiêu là ngăn việc huấn luyện quá mức hoặc overfitting, đồng thời duy trì phép đo hiệu năng khách quan
Mục đích ban đầu của FrontierMath
- Ngay từ đầu, FrontierMath đã được lên kế hoạch và công bố như một dự án phục vụ đánh giá
- Cũng theo ông, OpenAI ủng hộ quyết định duy trì một test set thực sự
- Ông nhấn mạnh rằng cả giới học thuật lẫn các phòng lab nghiên cứu đều cần có những test set thực sự không bị nhiễm bẩn, tức không bị dùng trong huấn luyện
[Chỉnh sửa] Phạm vi truy cập dữ liệu của OpenAI
- Để giảm hiểu nhầm, ông nói rõ rằng cuối cùng OpenAI không có quyền truy cập vào holdout set riêng biệt dùng cho kiểm chứng độc lập

1 bình luận

GN⁺ 2025-01-20

Ý kiến trên Hacker News

Chỉ ra rằng dù đã có cam kết bằng miệng rằng dữ liệu sẽ không được dùng để huấn luyện mô hình, những thỏa thuận như vậy thường vẫn có thể bị vi phạm
- Tỏ ra hoài nghi về việc OpenAI có thể truy cập dữ liệu benchmark nhưng chỉ đạt được thỏa thuận bằng miệng rằng sẽ không dùng nó cho huấn luyện
Đồng sáng lập Epoch thừa nhận OpenAI có thể truy cập các bài toán và lời giải của FrontierMath, nhưng cho biết hai bên đã thỏa thuận bằng miệng là không sử dụng chúng cho huấn luyện
- Đặt câu hỏi về độ đáng tin của thỏa thuận miệng, đồng thời chỉ ra có nhiều cách để OpenAI vừa tuân thủ thỏa thuận về mặt kỹ thuật vừa giành được lợi thế không công bằng trên benchmark
Chỉ trích những người tin nguyên xi vào hoạt động tiếp thị của OpenAI
- Nêu ví dụ việc bản demo Sora có bao gồm chỉnh sửa thủ công nhưng lại không đề cập đến điều đó
Tamay của Epoch AI thừa nhận đã không minh bạch hơn về sự tham gia của OpenAI
- Thông tin công bố bị hạn chế theo hợp đồng, và ông hối tiếc vì đáng lẽ nên đàm phán cứng rắn hơn để đem lại sự minh bạch sớm hơn cho những người đóng góp benchmark
Nhắc đến việc kết quả benchmark của OpenAI đã đánh mất độ tin cậy, trong khi các công ty AI khác đã có cơ hội đạt được những kết quả quan trọng trên FrontierMath
Lập luận rằng để xác minh LLM hay AI có thực sự thông minh hay không, cần chứng minh rằng câu hỏi không nằm trong tập huấn luyện
- Nếu không biết câu hỏi hoặc câu trả lời có nằm trong tập huấn luyện hay không thì không nên khẳng định AI là thông minh
Chỉ ra rằng ngay cả khi không cố tình gian lận benchmark, việc liên tục làm cùng một bài kiểm tra vẫn có thể dẫn đến overfitting hoặc p-hacking
- Giải thích rằng có thể khó xác định những thay đổi nhỏ là cải thiện thật hay chỉ là nhiễu, và các nhà nghiên cứu có thể tin rằng họ đã tìm ra cách tối ưu hóa dựa trên nhiễu
Bày tỏ sự khó chịu trước việc OpenAI gây hiểu lầm cho công chúng
- Nhắc đến việc hành động của CEO sẽ làm tổn hại danh tiếng của FrontierMath và Epoch AI
Nhấn mạnh rằng các công ty AI ngày càng có khả năng tự xây dựng hệ thống đánh giá riêng, các benchmark công khai đã cạn kiệt, và cần đầu tư nhiều hơn vào các benchmark frontier
Lập luận rằng không thể tin cậy các kết quả đánh giá do các công ty AI tự đưa ra

Dự án FrontierMath được OpenAI tài trợ

Tổng quan sự việc

Chi tiết bổ sung

Vì sao đây là vấn đề

Bộ dữ liệu có thể nâng cao năng lực ngay cả khi không huấn luyện trực tiếp

Lo ngại về an toàn AI

Bình luận của meemi, một AI Safety Researcher

Bình luận của Tamay từ Epoch AI

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News