Độ chính xác của o1-preview giảm khoảng 30% khi Putnam được biến đổi nhẹ

(openreview.net)

1 điểm bởi GN⁺ 2025-01-02 | 1 bình luận | Chia sẻ qua WhatsApp

Giới thiệu benchmark Putnam-AXIOM
- Putnam-AXIOM là một benchmark thử thách nhằm đánh giá khả năng suy luận toán học của các mô hình ngôn ngữ lớn (LLM).
- Bao gồm 236 bài toán cùng lời giải từng bước của cuộc thi toán học William Lowell Putnam.
- Để ngăn chặn ô nhiễm dữ liệu, nhóm tạo benchmark Putnam-AXIOM Variation bằng cách áp dụng biến đổi chức năng cho 52 bài toán.
- Các yếu tố của bài toán (biến, hằng số, v.v.) được thay đổi theo lập trình, cho phép tạo ra vô hạn bài toán mới chưa từng xuất hiện trực tuyến.
Ý nghĩa của benchmark và kết quả
- Đa số mô hình có độ chính xác giảm đáng kể trên các bài toán đã biến đổi so với bài toán gốc.
- Mô hình o1-preview của OpenAI đạt 41,95% độ chính xác trên Putnam-AXIOM Original, nhưng đã giảm khoảng 30% trên tập dữ liệu đã biến đổi.
Phản hồi của reviewer
- Reviewer 9XA: benchmark được thiết kế để giảm thiểu nhiễu trong bước công thức hóa bài toán, kiểm tra tính tương đương của câu trả lời, v.v., nhưng mức ngăn chặn ô nhiễm có thể chưa đủ. Việc áp dụng biến đổi chức năng chỉ cho 53 bài toán có thể làm giảm sức mạnh đánh giá.
- Reviewer krr4: tập dữ liệu gồm 236 ví dụ nên có thể chưa đủ thuyết phục về mặt benchmark. Hầu hết các mô hình đều có độ chính xác thấp, vì vậy mức độ khó cần được phân cấp rõ ràng hơn.
- Reviewer Nbvs: đây là đóng góp tốt khi cung cấp một bộ đề thử thách để đánh giá khả năng giải toán. Việc biến đổi bài toán có thể là chiến lược hữu ích để giảm rò rỉ dữ liệu trong hệ thống chấm điểm kiểu hộp hiện tại.
- Reviewer MsMi: đây là benchmark suy luận khó mới, ngay cả mô hình mạnh cũng không thực hiện tốt trên đó. Việc yêu cầu lệnh \boxed{} làm hạn chế tính biểu đạt của benchmark.
Câu hỏi và đề xuất bổ sung
- Câu hỏi về số lượng bài toán bị chấm sai do không sử dụng đúng lệnh \boxed{}.
- Câu hỏi về việc chỉnh sửa liên tục để duy trì một tập dữ liệu mà không có mô hình nào có thể ghi nhớ.

1 bình luận

GN⁺ 2025-01-02

Các ý kiến trên Hacker News

Tôi nhớ khi bài toán này mới xuất hiện, mọi người đã phấn khích vì ChatGPT trả lời đúng câu “10 pound lông vũ và 10 pound gạch, cái nào nặng hơn?”
Nhưng dĩ nhiên là nó trả lời đúng, và rất có khả năng bài đó đã có trong dữ liệu huấn luyện
Chỉ cần đổi danh từ hoặc đổi con số để một bên thực sự nặng hơn thì hiệu năng sẽ trở nên thất thường
Vừa rồi tôi hỏi trên chatgpt.com: “Một túi thỏi thép 9,99 pound và một túi bông mềm 10,01 pound, cái nào nặng hơn?”, thì ở câu trả lời đầu tiên nó nói thỏi thép nặng hơn, nhưng đến cuối lại nói bông nặng hơn một chút, đưa ra một câu trả lời vừa đúng vừa sai
Muốn đánh giá đúng năng lực kiểu này thì nhất thiết phải đi ra ngoài dữ liệu huấn luyện, và những bài toán nảy ra trong đầu trong vòng 5 giây thường là những thứ đã được thấy nhiều lần hoặc người khác cũng dễ nghĩ ra
Chỉ cần lệch khỏi lối mòn quen thuộc một chút, năng lực toán học trông sẽ kém ấn tượng hơn nhiều
- Nếu mở phiên mới trên ChatGPT Plus và chỉ xem câu trả lời đầu tiên, không gài bẫy gì, thì GPT-4, GPT-4o và GPT o1 đều trả lời chính xác rằng túi bông 10,01 pound nặng hơn túi thỏi thép 9,99 pound
  Chúng giải thích rằng đây là so sánh trọng lượng cùng đơn vị, bất kể vật liệu hay mật độ, nên 10,01 lớn hơn 9,99
- https://chatgpt.com/share/67756897-8974-8010-a0e0-c9e3b3e91f...
  Cho đến giờ, o1-mini đang xử lý tốt tất cả những nhiệm vụ mà mọi người trong luồng này nói rằng LLM không làm được
- Nếu thử mà không đăng ký gói trả phí, hiện tại nhiều khả năng bạn sẽ nhận câu trả lời được tạo bởi 4o-mini
  Đây không phải là các mô hình suy luận thuộc dòng o1, o1-mini hay o1-preview trước đây được bàn trong bài báo được liên kết
  Thậm chí có thể cũng không phải mô hình không suy luận chủ lực là 4o, và “4o auto” hiển thị trên tài khoản miễn phí có vẻ không phải tên mô hình mà là một cơ chế tự động chọn mô hình theo hướng tối ưu chi phí
  Nếu không có gói đăng ký ChatGPT, giờ cũng không còn có thể chọn một mô hình cụ thể với giới hạn sử dụng như trước nữa
- Tôi hỏi Claude 3.5 Sonnet câu đố kinh điển về bác sĩ, và dù nó thêm quá trình suy nghĩ nên câu trả lời có vẻ tốt hơn, vẫn thấy dấu hiệu rằng nó không thực sự hiểu
  Với câu hỏi: “Một phụ nữ và con trai bị tai nạn giao thông, người phụ nữ chết, bác sĩ nhìn thấy đứa trẻ và nói ‘Đứa trẻ này là con trai tôi nên tôi không thể phẫu thuật’. Làm sao có thể?”, nó trả lời “bác sĩ là cha của đứa trẻ” và giải thích đây là câu đố kinh điển cho thấy định kiến giới
  Nhưng ý định ban đầu của câu đố là hỏi rằng bác sĩ có thể là mẹ của đứa trẻ, và dù nó còn bổ sung khả năng cha mẹ đồng giới, nó vẫn lệch khỏi trọng tâm
- Biến thể đầu tiên tôi gặp là “1 pound lông vũ và 1 pound vàng, cái nào nặng hơn?”, và câu này khó hơn nhiều
  Câu trả lời tôi nghe được là vàng được cân theo hệ troy còn lông vũ theo hệ avoirdupois, nên một pound troy là 12 ounce còn một pound avoirdupois là 16 ounce, vì thế lông vũ nặng hơn
  Tất cả những điều đó đều đúng, nhưng câu trả lời chưa đầy đủ
  Cũng như pound avoirdupois nặng hơn pound troy, ounce avoirdupois nhẹ hơn ounce troy
  Chỉ là chênh lệch đó không đủ lớn để đảo ngược khác biệt 16 ounce so với 12 ounce
  Nếu không thừa nhận khác biệt giữa các loại ounce, đáp án chính thức cũng sai chẳng kém gì câu trả lời ngây thơ
Một thí nghiệm có lẽ khó làm trong thực tế nhưng tôi muốn thử là huấn luyện mô hình bằng toàn bộ tài liệu đã được số hóa trước năm 1905, tức là các bài báo, thư từ, sách, chương trình phát sóng, bài giảng, rồi hỏi về hệ thức tương đương khối lượng-năng lượng
Nếu nó đưa ra được câu trả lời chắc chắn, có lẽ cuộc tranh luận về việc nhận dạng mẫu có phải là một dạng trí tuệ hay không sẽ có thể kết thúc
- Một khi đã nghĩ rằng khối lượng và năng lượng có thể tương đương, chỉ bằng phân tích thứ nguyên thì số lựa chọn cho công thức cũng không nhiều
  Điều thú vị ở E=mc^2 không phải bản thân công thức, mà là tuyên bố rằng khối lượng là một dạng năng lượng và các quan sát xung quanh về vũ trụ
  Trực giác thật sự vào năm 1905 gần với việc đặt đúng câu hỏi và tưởng tượng rằng nguyên lý tương đương thật sự có thể đúng hơn
  Phần lớn toán học đã tồn tại trước năm 1905 và cũng có thể nằm trong dữ liệu huấn luyện AI: https://en.m.wikipedia.org/wiki/History_of_Lorentz_transform...
- Tôi đã nghe một ý tưởng tương tự trong một podcast có Adam Brown tham gia
  Ý tưởng là nếu AI có thể suy ra thuyết tương đối hẹp chỉ từ sách và bài báo trước Einstein, thì đó sẽ là một cột mốc kiểu “game changer” tiếp theo trong sự phát triển của suy luận nhân tạo
- Tranh chấp bằng sáng chế cũng nên được phán định theo cách này
  Nếu LLM có thể tìm ra, thì nên xem là không có tính mới
- Tôi còn nghi ngờ liệu dữ liệu trước năm 1905 có đủ để mô hình nói “hello world” một cách ổn định hay không
  Có lẽ không tồn tại lượng dữ liệu huấn luyện ở mức terabyte cần cho một LLM tử tế, mà chỉ ở mức gigabyte
Trong các nhiệm vụ thực tế, hiệu năng của LLM tạo cảm giác rất giống một học sinh nhồi nhét trước các kỳ thi kiểu châu Á
Nó có khả năng tuôn ra hoàn hảo, nhưng không có khái niệm về ý nghĩa
- o3 trả lời đúng 25% các bài toán FrontierMath chưa từng thấy
  Đúng là nó làm tốt hơn khi đáp án có trực tiếp trong tập dữ liệu, nhưng về độ mới của các bài bị giữ lại, nó đã vượt qua mức con người trung bình
- Cứ xem JEE Advanced là được
- Rốt cuộc đây gần như là thêm một bằng chứng rằng chúng ta đã thành công trong việc tái hiện hoàn hảo sự ngu ngốc của con người
Có vẻ chỉ cần thay đổi đầu vào rất nhẹ là mô hình quay lại câu hỏi mà nó dự đoán sẵn và trả lời sai
Nếu thay đổi lớn hơn một chút và thêm kỹ thuật prompt phổ quát kiểu “trước hết hãy tách thành các sự kiện đã biết, đưa vào kiến thức nền liên quan, rồi đánh giá từ nhiều góc độ để kết luận; đừng viết ngay kết luận đầu tiên hiển nhiên nhất”, thì câu trả lời sẽ tốt hơn nhiều
Điều này có vẻ gần với “LLM đưa ra câu trả lời tức thì kém khi bị đánh lừa khỏi mẫu nó dự đoán” hơn là “LLM là bộ suy luận ngớ ngẩn, không thể giải nổi bài này nếu không ghi nhớ”
Đúng là LLM có ghi nhớ, nhưng chuyện này có hai mặt
Nếu làm bài toán quá giống với bài đã ghi nhớ, nhận thức của nó có thể dao động giống như con người phản ứng theo bản năng với thứ trông như khuôn mặt rồi sau đó mới đánh giá lại
Thú vị, nhưng có vài điểm cần nói rõ
Thứ nhất, o1 vẫn vượt 40% ngay cả với các bài toán Putnam đã được biến đổi, đây là thành tích mà phần lớn sinh viên chuyên ngành toán cũng khó đạt được
Thứ hai, o3 đã giải được 25% bộ dữ liệu của Epoch AI
Cũng có một bài viết thú vị đặt câu hỏi rằng những bài đó thực sự khó đến mức nào, nhưng dù vậy vẫn rất ấn tượng
Kết luận công bằng có lẽ là các mô hình suy luận vẫn giải rất tốt những bài toán và lập trình thi đấu cực khó, nhưng mạnh hơn ở những bài chúng từng thấy
- Các bình luận trong thread này hoàn toàn xa rời nội dung bài báo, còn tiêu đề thì gần như nhằm kích động phẫn nộ và không phản ánh nội dung bài báo
  Việc có thể giải được một phần đáng kể những bài như vậy tự nó đã là một thành tích khá đáng kinh ngạc, kể cả khi đôi lúc bị đánh lừa bởi các biến thể nhỏ
  Việc ném ra những từ như “lừa đảo” hay “giả dối” gần giống với suy nghĩ cầu mong hoặc né tránh thực tế hơn
Tôi tự hỏi liệu việc các mô hình hiện đang được hard-code theo các benchmark ngẫu nhiên có phải là một bí mật công khai không
Việc hỏi chatbot các bài Putnam tự nó đã có vẻ kỳ lạ
- Vì mọi người cứ hỏi các mô hình này bài toán, rồi khi chúng trả lời đúng thì lại viện dẫn đó là bằng chứng rằng chúng thực sự có thể suy luận toán học
  Rất khó đánh giá mô hình biết gì, nên cũng khó phân biệt thời điểm nó chỉ nhả lại nguyên những nội dung đã được học cụ thể
- Tôi không nghĩ là hard-code, mà khả năng cao là các bài đó, dưới dạng nào đó, đã nằm trong dữ liệu huấn luyện
- Chúng cũng đang vượt qua những bài kiểm tra mà về mặt thiết kế là không thể hard-code
  Vẫn còn đủ loại khiếm khuyết và vấn đề về tính nhất quán, nhưng nổi giận vì ai đó đã cho nó học đáp án của 2+2 nên nó trả lời “2+2=4” thì thật ngớ ngẩn
- Công việc này giống như áp dụng bài báo GSM-Symbolic cho Putnam: https://arxiv.org/html/2410.05229v1
  Từ nay nên báo cáo hiệu năng LLM cả trên các benchmark đã bị nhiễu/biến đổi
Chúng là những bộ khớp mẫu rất hiệu quả
Đổi mẫu đi là chúng không hoạt động
Tôi nhớ ai đó, có lẽ @tszzl(roon), từng nói trên X rằng o1 hay o3 vẫn được huấn luyện theo cách truyền thống, và không có tính toán tại thời điểm kiểm thử hay tìm kiếm cây Monte Carlo như AlphaGo
Nếu điều đó đúng, thì về bản chất chúng vẫn dựa trên dữ liệu huấn luyện để dự đoán từ tiếp theo, và ngay cả với biến thể nhỏ cũng có khả năng đi theo lộ trình có vẻ hợp lý nhất rút ra từ huấn luyện
Tuy nhiên nếu tính toán tại thời điểm kiểm thử vẫn chưa được khám phá đúng mức, thì dư địa cải thiện hiệu năng vẫn còn dài
Một lý do khác khiến khó suy đoán là chúng ta không biết bao nhiêu trong số những thứ mình hỏi đã nằm trong dữ liệu huấn luyện
Ngay cả với các nhiệm vụ tương tự, có cái chúng làm tốt và có cái thất bại
- Gần đây tôi xem hai cuộc phỏng vấn với các nhà nghiên cứu OpenAI, trong đó họ giải thích rằng đột phá của o-series, khác với GPT series, là tập trung vào tính toán tại thời điểm kiểm thử để được thiết kế nhằm “suy nghĩ” nhiều hơn, đặc biệt là để tránh khớp mẫu
  Noam Brown https://youtu.be/OoL8K_AFqkw?si=ocIS0YDXLvaX9Xb6&t=195 và Mark Chen https://youtu.be/kO192K7_FaQ?si=moWiwYChj65osLGy
- Tôi nghĩ họ đang dùng tính toán tại thời điểm kiểm thử có thể mở rộng
  Trong buổi công bố o3, họ đã công khai riêng các con số độ chính xác với mức tính toán cao và thấp, và tôi thấy khó làm được như vậy trên cùng một mô hình nếu không có tính toán tại thời điểm kiểm thử
  Gói thuê bao 200 đô la cũng có lẽ là để cho chạy tính toán tại thời điểm kiểm thử lâu hơn trước khi buộc phải đưa ra câu trả lời
  Tuy nhiên nếu nhận định rằng không có tính toán tại thời điểm kiểm thử là đúng, thì nhìn vào các thử nghiệm mô hình 1B/3B của Hugging Face, dư địa cải thiện kết quả là cực lớn
- OpenAI đã công khai nói rằng o1 và o3 dùng tính toán tại thời điểm kiểm thử, đồng thời cũng công bố đồ thị thang log cho thấy khi lượng tính toán tăng theo hàm mũ thì hiệu năng cải thiện tuyến tính
  https://openai.com/index/learning-to-reason-with-llms/
  Điều được xác nhận chỉ là mô hình hoặc hệ thống thực hiện chuỗi suy nghĩ, nhưng nguồn gốc của hệ số hàm mũ và cải thiện hiệu năng suy luận rất có thể là cây suy nghĩ, tức tìm kiếm cây trên nhiều chuỗi suy luận
  roon hẳn là người có danh tính được biết rõ trong nội bộ OpenAI và là nhân viên, nên khó kỳ vọng anh ấy sẽ tiết lộ chi tiết triển khai trên Twitter
Bài gửi workshop này ổn, và benchmark vẫn có giá trị nhất định ngay cả khi không có phần diễn đạt lại bài toán
Nhưng phần chỉ diễn đạt lại một số ít bài thì đôi khi thực sự khiến con người bối rối hơn, do cách diễn đạt kém (fig 3) hoặc phá vỡ quy ước không cần thiết (fig 4; điểm trong mặt phẳng 2 chiều thường dùng P và tọa độ x,y)
Nếu họ cho thấy hiệu ứng của việc diễn đạt lại theo mức tăng nhiễu trên các bài mới nhất hoặc các bài có ngày sau thời điểm huấn luyện, thì sẽ giúp tách bạch một phần sự nhiễu loạn này
Tôi cũng tò mò o3 sẽ tốt hơn đến mức nào trên cùng benchmark đó
Và tiêu đề chính xác của bài gửi này là “Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning”
Trong bài báo có nhiều ví dụ về câu hỏi đã được sửa đổi
Vì đã có bước nhảy đáng kể từ o1-preview lên o1, tôi thử đưa vài mẫu vào o1 và o1-pro, và hiện tại dòng o1 đưa ra đáp án đúng cho các bài toán đã sửa đổi đó
Mức hiệu năng tốt nhất hiện nay thay đổi rất nhanh
- Bài báo nói rằng ngay cả khi LLM đưa ra đáp án đúng, nhiều lần nó vẫn nhảy cóc lớn mà không biện minh, hoặc đi qua các bước phi logic rồi cuối cùng tới lời giải đúng
  Tôi tò mò bạn có kiểm tra cả phần đó không
- Những người ủng hộ LLM thật sự mệt mỏi
  Đây đâu phải một đánh giá nghiêm ngặt, và bộ đó đã công khai từ tháng 10 nên rất dễ đã được thêm vào dữ liệu huấn luyện
Có quá nhiều bình luận tiêu cực mà bỏ qua việc o3 đã trả lời đúng 25% trên FrontierMath
Đây thật sự là một kết quả xuất sắc đến mức khó tin
Tất nhiên, nếu đáp án của bài toán nằm trực tiếp trong dữ liệu huấn luyện thì LLM sẽ làm tốt hơn
Nhưng điều đó không có nghĩa là khi đáp án không có trong dữ liệu huấn luyện thì nó không làm được
- EpochAI phải gửi câu hỏi cho OpenAI để chấm điểm mô hình, và không gửi đáp án
  Việc benchmark này nhảy từ 2% lên 25% chỉ sau một đêm là một hiện tượng khá thú vị
- Đúng là nó làm tốt trên FrontierMath, nhưng đó không phải chủ đề của thread này
  Vì vậy câu đó không liên quan lắm

Độ chính xác của o1-preview giảm khoảng 30% khi Putnam được biến đổi nhẹ

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News