Phân tích về o1 của Terence Tao

(mathstodon.xyz)

2 điểm bởi GN⁺ 2024-09-15 | 1 bình luận | Chia sẻ qua WhatsApp

Nhà toán học Terence Tao đã thử nghiệm mô hình GPT mới của OpenAI là o1 trên các bài toán nghiên cứu toán học và đánh giá rằng nó có năng lực hơn các mô hình trước, nhưng vẫn chưa đủ cho các vấn đề nghiên cứu tiên tiến nhất
Với các truy vấn toán học mơ hồ, mô hình đã tìm ra định lý liên quan là Cramer’s theorem và đưa ra câu trả lời thỏa đáng, cải thiện rõ rệt so với các câu trả lời mang tính ảo giác của GPT trước đây
Trong một bài toán giải tích phức khó, mô hình chỉ đi tới lời giải đúng khi được cung cấp nhiều gợi ý và dẫn dắt, cho thấy khả năng tạo ra ý tưởng cốt lõi vẫn còn yếu
Thử nghiệm hình thức hóa bằng Lean cho thấy việc phân rã bài toán ban đầu là hợp lý, nhưng thông tin về Lean và Mathlib đã cũ nên vẫn còn lỗi mã và vấn đề độ tin cậy khi gọi thư viện
Tao cho rằng AI có thể trước hết đảm nhận các tiểu nhiệm vụ nhàm chán nhưng có thể kiểm chứng, và khi kết hợp với trình hỗ trợ chứng minh hình thức thì có thể nâng cao đáng kể năng suất nghiên cứu toán học

Đánh giá tổng thể về GPT-o1

Mô hình GPT mới của OpenAI là GPT-o1 thực hiện một giai đoạn suy luận ban đầu trước khi chạy LLM
Phiên bản mà Tao tiếp cận là bản nguyên mẫu, và trong phản hồi sau đó ông cho biết mình chủ yếu thử nghiệm mô hình hiện được gọi là preview version
Nhìn chung, nó có năng lực hơn các vòng lặp trước, nhưng vẫn còn chật vật với các bài toán toán học nghiên cứu ở mức tiên tiến nhất

Thử nghiệm 1: truy vấn toán học mơ hồ và Cramer’s theorem

Thử nghiệm đầu tiên là lặp lại một thí nghiệm đã thực hiện trước đây
Truy vấn là một câu hỏi toán học được diễn đạt mơ hồ, chỉ có thể giải nếu tìm được định lý thích hợp trong tài liệu là Cramer’s theorem
Các GPT trước đây có nhắc đến một số khái niệm liên quan, nhưng chi tiết thì là những câu trả lời gần như vô nghĩa do ảo giác tạo ra
Mô hình mới đã xác định được Cramer’s theorem và theo Tao là đưa ra câu trả lời hoàn toàn thỏa đáng

Thử nghiệm 2: bài toán giải tích phức khó

Thử nghiệm thứ hai là đưa cho mô hình mới một bài toán giải tích phức khó mà trước đây Tao từng nhờ GPT-4 hỗ trợ viết chứng minh
Kết quả tốt hơn mô hình trước nhưng vẫn chưa đạt kỳ vọng
- Khi cung cấp nhiều gợi ý và dẫn dắt, mô hình có thể đi tới lời giải đúng và được trình bày tốt
- Nó không thể tự tạo ra ý tưởng khái niệm cốt lõi
- Vẫn xuất hiện những lỗi không hề nhỏ
Tao cho rằng trải nghiệm này giống như đang hướng dẫn “một mô phỏng tĩnh của một nghiên cứu sinh bình thường, không hoàn toàn bất tài”
Vì các mô hình trước gần với “một mô phỏng tĩnh của một nghiên cứu sinh thực sự bất tài”, nên mô hình lần này được xem là một bước cải thiện
Ông cho rằng nếu hiệu năng được cải thiện thêm một hoặc hai lần nữa và được tích hợp với các công cụ như computer algebra packages và proof assistants, nó có thể đạt tới mức “mô phỏng tĩnh của một nghiên cứu sinh có năng lực”
Khi đạt tới mức đó, nó có thể trở nên khá hữu ích ngay cả với các nhiệm vụ ở cấp độ nghiên cứu

Thử nghiệm 3: nhiệm vụ hình thức hóa bằng Lean

Thử nghiệm thứ ba là để mô hình mới bắt đầu công việc trong Lean nhằm suy ra một dạng của định lý số nguyên tố từ một dạng khác của định lý số nguyên tố
Yêu cầu không phải là bản thân chứng minh, mà là chia bài toán thành các bổ đề con và hình thức hóa các mệnh đề đó
Kết quả khá hứa hẹn
- Mô hình hiểu tốt nhiệm vụ
- Nó phân rã bài toán ban đầu một cách hợp lý
Nhưng các hạn chế cũng rất rõ ràng
- Dữ liệu huấn luyện thiếu thông tin cập nhật về Lean và thư viện toán học
- Mã tạo ra chứa nhiều lỗi
Tao cho rằng nếu một mô hình ở mức năng lực này được tinh chỉnh chuyên biệt cho Lean và Mathlib và tích hợp vào IDE, nó có thể rất hữu ích trong các dự án hình thức hóa

Thử nghiệm tìm kiếm ngữ nghĩa và tạo chiến lược sáng tạo

Năm 2010, Tao từng hỏi trên MathOverflow vì không tìm ra thuật ngữ đúng cho “multiplicative integral”, và đã nhận được câu trả lời thỏa đáng từ các chuyên gia con người
Khi đưa cùng câu hỏi đó cho o1, mô hình đã trả về một câu trả lời hoàn hảo
Tuy nhiên, vì bài đăng MathOverflow đó có thể đã nằm trong dữ liệu huấn luyện của mô hình, đây có thể không phải là đánh giá chính xác về năng lực tìm kiếm ngữ nghĩa
Dù vậy, ở một số truy vấn tìm kiếm ngữ nghĩa, nó vẫn cho thấy chất lượng câu trả lời ngang với các trang hỏi đáp
Trong một thử nghiệm khác, Tao cung cấp phần đầu của một bài viết blog gần đây và yêu cầu mô hình tìm yếu tố còn thiếu để biến tiến triển từng phần hiện có của một bài toán Erdos thành lời giải hoàn chỉnh
Kết quả này hơi gây thất vọng
- Mô hình đề xuất cùng chiến lược với nghiên cứu mới nhất đã được viết lại sẵn trong bài blog
- Nó không đưa ra được biến thể sáng tạo nào của chiến lược đó
Tao cho rằng các công cụ LLM có đôi chút khả năng tạo ngẫu nhiên các chiến lược sáng tạo, nhưng phương diện này vẫn còn yếu

Đính chính về phép ví von nghiên cứu sinh

Tao đính chính rằng khi đánh giá năng lực của công cụ AI, ông đã tạo ra ấn tượng sai lầm và có thể gây hại rằng có thể phân loại nghiên cứu sinh con người theo một mức “năng lực” tĩnh và một chiều
Ông cho rằng khả năng đóng góp vào một dự án nghiên cứu hiện có chỉ là một trong nhiều khía cạnh của quá trình học cao học và là phần tương đối nhỏ
Những sinh viên nổi trội về sáng tạo, tính độc lập, sự tò mò, khả năng giải thích, trực giác, chuyên môn, đạo đức làm việc, kỹ năng tổ chức và kỹ năng xã hội có thể trở thành các nhà toán học thành công và có ảnh hưởng hơn những sinh viên chỉ giỏi các nhiệm vụ kỹ thuật được giao
Sinh viên con người học hỏi và trưởng thành trong quá trình học tập, và những lĩnh vực ban đầu gặp khó khăn có thể trở nên thành thạo sau vài năm
Ngược lại, các công cụ AI hiện đại có thể phản ánh một phần phản hồi trong câu trả lời, nhưng từng mô hình riêng lẻ không thực sự tăng trưởng dài hạn, nên việc đánh giá chúng bằng các chỉ số hiệu năng tĩnh là hợp lý hơn
Tao xin lỗi vì đã dùng một khuôn khổ không phù hợp để đánh giá sinh viên con người theo tư duy cố định

Tính hữu dụng như công cụ hỗ trợ nghiên cứu và tỷ lệ chi phí

Chuẩn so sánh của Tao là mức độ mà công cụ có thể hỗ trợ các tiểu nhiệm vụ trong một dự án nghiên cứu toán học phức tạp do nhà toán học chuyên gia điều phối
Một nghiên cứu sinh có năng lực có thể tạo ra đóng góp giá trị hơn phần công sức ròng cần bỏ ra để đưa họ vào dự án và giám sát họ
Với các công cụ mới nhất, công sức cần để nhắc lệnh đúng và kiểm chứng đầu ra vẫn lớn hơn công sức tiết kiệm được từ đầu ra hữu ích
- Tao ước lượng tỷ lệ hiện tại vào khoảng 2x~5x
Ông cho rằng không có lý do gì để loại trừ khả năng trong vài năm tới tỷ lệ này giảm xuống dưới 1x
Nếu tỷ lệ xuống dưới 1x, điều đó có thể kích hoạt việc áp dụng rộng rãi hơn các công cụ này trong lĩnh vực
Với một số tiểu nhiệm vụ cụ thể, ông cho rằng tỷ lệ đã thấp hơn 1
- Tìm kiếm ngữ nghĩa
  - Chuyển đổi định dạng dữ liệu
  - Tạo mã tính toán số để hỗ trợ thăm dò nghiên cứu toán học

Những điểm còn thiếu trong Lean và Mathlib

Theo các thử nghiệm của Tao, điều còn thiếu nhất để trở nên hữu ích như một công cụ hình thức hóa là cách neo đầu ra vào phiên bản Lean và Mathlib mới nhất
Lean và Mathlib tiếp tục tiến hóa mỗi tháng
Có vẻ như mô hình được huấn luyện trên nhiều phiên bản Lean và Mathlib đã cũ hơn một năm, và theo ông các phiên bản này không tương thích 100% với nhau
Kết quả là cú pháp và các lời gọi thư viện do mô hình tạo ra khó có thể tin cậy
Tuy vậy, nó vẫn đủ gần để một người nắm rõ trạng thái hiện tại của Lean và Mathlib có thể sửa thủ công phần lớn các lỗi nhỏ

Tự động hóa có thể kiểm chứng và trình hỗ trợ chứng minh hình thức

Trường hợp sử dụng chính mà Tao hình dung là giải nhanh hơn các bài toán mà về nguyên tắc nhà toán học có thể tự xử lý bằng rất nhiều thao tác thủ công
AI sẽ điền trước các bước nhàm chán, còn chuyên gia con người sẽ rà soát đầu ra
Trong trường hợp này, ngay cả khi AI không thể hiện tư duy thật sự độc đáo, nó vẫn có thể nâng cao năng suất đáng kể
Ông cho rằng điều này cũng có thể giúp thực hiện những dự án nghiên cứu quy mô lớn hơn mức hiện nay
Nếu các công cụ này được tích hợp với trình hỗ trợ chứng minh hình thức, có thể tự động đánh giá với độ tin cậy cao tính đúng đắn của các nhiệm vụ yêu cầu cung cấp chứng minh cho các mệnh đề toán học
Tao cho rằng những nhiệm vụ như vậy chiếm một phần đáng kể trong các nhiệm vụ ở cấp độ nghiên cứu

Triển vọng hệ sinh thái công cụ AI cho nghiên cứu toán học

Tao kỳ vọng sẽ xuất hiện một hệ sinh thái công cụ AI xử lý nhiều loại nhiệm vụ nghiên cứu khác nhau
Trong đó có các công việc như tìm kiếm tài liệu, hình thức hóa chứng minh và giải các bài toán con ngắn
Hiện nay, các LLM độc quyền đa dụng rất lớn thu hút nhiều chú ý nhất, nhưng rồi sẽ có lúc chi phí biên về dữ liệu và tính toán cần cho các cải tiến bổ sung hoặc tinh chỉnh cho ứng dụng cụ thể trở nên quá đắt đỏ
Các mô hình và bộ dữ liệu nhẹ hơn, mã nguồn mở hơn do cộng đồng nghiên cứu phát triển để phù hợp với nhu cầu tùy chỉnh cũng có thể đóng vai trò quan trọng
Ông cho rằng các mô hình đa dụng có thể đóng vai trò giao diện thân thiện với người dùng để điều phối các công cụ hẹp hơn

1 bình luận

GN⁺ 2024-09-15

Ý kiến trên Hacker News

Nếu GPT được tinh chỉnh nhiều hơn cho trợ lý chứng minh Lean như với Python, tôi nghĩ tính hữu dụng của nó trong toán học cấp độ nghiên cứu sẽ tăng lên
Tôi làm trong lĩnh vực liên quan đến OR; ChatGPT 4o đã hấp thụ đủ tài liệu OR để có thể đưa ra các mô hình hóa quy hoạch nguyên hỗn hợp (MIP) khá dùng được cho nhiều “dạng bài toán”
Ví dụ, nếu đưa một bài toán logic kiểu “đưa i món đồ vào n bucket theo điểm số, nhưng muốn lấp đầy từng bucket theo thứ tự”, nó thực sự nhả ra một mô hình toán học có thể dùng được, và thường chỉ cần sửa chút ít
Nó cũng cảnh báo về những mô hình yếu có thể làm hỏng logic, nên cực kỳ hữu ích để tránh bẫy
Tất nhiên, nếu không hiểu tối ưu hóa MIP thì khó dùng nó tốt cho mục đích này, và phải chia nhỏ bài toán để GPT có thể suy luận từng bước; nhưng với người biết làm, 20 USD/tháng là hoàn toàn xứng đáng
Trên HN, những trường hợp phàn nàn rằng các LLM trả phí/tốt, tức Sonnet 3.5 và GPT-4o, là vô dụng nhìn chung có vẻ là do không biết cách dùng phát huy điểm mạnh của LLM, hoặc kỳ vọng phép màu one-shot vì bị thổi phồng, hoặc đúng là không hợp với lĩnh vực của họ
Với những người biết tận dụng điểm mạnh của LLM và biết kiểm chứng lỗi, nó tạo ra đòn bẩy đáng kể trong công việc
- Tôi hoàn toàn đồng ý về tính hữu dụng
  HN và Internet nói chung đã trở thành một biển những phản xạ hạ thấp và tán gẫu rằng LLM “vô dụng”, nhưng ngoài thực tế thì tôi đã nhiều tuần không tự viết một dòng code nào
  Tôi mô tả điều mình muốn bằng các đoạn văn, được dẫn dắt đi quanh các cạm bẫy, và nhận được code chạy được qua các vòng lặp đơn giản
  Đây hoàn toàn là một kỹ năng đã được học, và các mô hình, đặc biệt là công cụ xung quanh chúng, đã đạt tới ngưỡng cần thiết
  Chỉ cần kiên trì học và nắm cách làm việc với nó, bạn sẽ bước vào một thế giới năng suất hơn nhiều
  Chỉnh sửa: https://aider.chat/ + 3.5 Sonnet trả phí
- Tôi cũng làm công việc gần với OR, nhưng gặp vận kém hơn nhiều khi dùng 4o để lấy mô hình hóa MIP
  Nó đưa ra các câu trả lời có vẻ hợp lý và phần giải thích toán học khó nắm bắt, nhưng các phương trình không hoạt động và suy luận cũng không khớp với nhau
  Cảm giác như đang học một lớp toán với các chứng minh kỳ quặc, tự hỏi không biết mình có ngu không, rồi hóa ra giáo sư là một bệnh nhân sa sút trí tuệ trốn viện và ngay từ đầu đã nói nhảm
  Mới hôm qua tôi còn nhờ o1 xem liệu có đường đi đơn từ s đến t đi qua v bằng max flow hay không, và thuật toán trông rất thuyết phục của nó về cơ bản đã hỏng
  Lời giải của tôi có lấy một số kỹ thuật từ nỗ lực thất bại đó, nhưng dù tôi gợi ý nhiều lần, nó vẫn không tìm được câu trả lời hoạt động, cứ cố tìm luồng s→t, và không nhận ra rằng v→{s,t} mới là điểm cốt lõi
  Việc kiểm chứng suy luận đó cũng quá mệt mỏi về mặt tinh thần
  Những câu trả lời sai một cách tinh vi khó phát hiện và khó phạt hơn so với câu trả lời sai rõ ràng, đến mức tôi nghi rằng RLHF có lẽ đã chọn theo hướng làm mờ suy luận
- Hiện tôi đang dạy một môn MIP, nên đã hỏi 4o vài câu tôi giao cho sinh viên
  Nó có thể đưa ra các khối cơ bản như làm thế nào để biểu diễn x!=y, hay làm bài toán cái ba lô ra sao, nhưng hễ hỏi điều gì hơi thú vị một chút, không phải học thuộc sách giáo khoa, thì tôi nghĩ không mô hình nào trả lời đúng
  Tôi tò mò bạn đang làm thế nào để nhận được câu trả lời tốt hơn
  Có lẽ là vì ngay khi thấy câu trả lời sai, tôi vứt nó đi và tự viết
  Thực tế, tôi vừa yêu cầu nó mô hình hóa và giải thích x!=y khi x,y là biến nguyên trong phạm vi {1..9}; các ràng buộc thì đúng nhưng phần giải thích lại sai
- Tôi cũng làm OR, và trong tối ưu hóa MILP thì trải nghiệm của tôi hoàn toàn ngược lại
  Kết quả nghiên cứu cũng tương tự: một bài khảo sát lớn đầu năm nay cho thấy LLM nhìn chung trả lời đúng các bài trong sách giáo khoa, nhưng càng tăng độ phức tạp và tính mới thì càng ngày càng vô dụng
  Kết quả, nói tích cực nhất, là sáo mòn; còn khi đi vào công việc chi tiết thì nó trở thành những cái bẫy tinh vi gây hiểu lầm
  Hãy thử hỏi LLM một ràng buộc cụ thể làm gì, hoặc tệ hơn là yêu cầu nó giải thích mô hình toán học của một cú pháp đường cú pháp độc quyền trong CPLEX; nó sẽ hallucinate cả toán học, cú pháp lẫn lời giải thích
- Một cách phản công hay đối với việc chê bai LLM theo phản xạ là: “chẳng phải chính câu đó mới giống điều một con vẹt xác suất sẽ nói sao?”
  Một số người trên HN là kiểu người sẽ phớt lờ một con chó biết nói vừa viết code C chỉ vì có lỗi buffer overflow
Hãy tưởng tượng quay lại năm 2019 và đọc được rằng trải nghiệm tương tác với thứ như Alexa “đại khái giống như tư vấn cho một nghiên cứu sinh bình thường nhưng không hoàn toàn bất tài”
Với khác biệt chỉ trong 5 năm, mức này thật đáng kinh ngạc
- Có vẻ công việc đầu tiên mà AI sẽ cắt giảm mạnh là lập trình
  Đặc biệt, các cá nhân đóng góp giỏi nhưng làm việc từ xa có vẻ gặp rủi ro, và diễn đàn này rõ ràng có xung đột lợi ích
- Điểm quan trọng có lẽ là phần lớn mọi người còn chưa đạt tới mức trí tuệ của “một nghiên cứu sinh bình thường nhưng không hoàn toàn bất tài”
  Một nghiên cứu sinh khoa học bình thường, đặc biệt là kiểu không bỏ cuộc và tốt nghiệp, là một người rất ấn tượng so với đa số “chúng ta”
  Việc “chúng ta” có thể dùng một mức trí tuệ như vậy làm trợ lý cả ngày là một nâng cấp cuộc sống khổng lồ, miễn là chịu được chi phí token
- Cũng có thể tưởng tượng cảnh quay lại năm 1950 và đọc rằng tương lai là trò chuyện với bot để giải bài tập toán
- Vì vậy tôi nghĩ kỷ nguyên AI không phải là thổi phồng mà rất thực tế
  Jensen nói rằng AI đã đạt tới thời đại iPhone
  Trong 5–10 năm tới, AGI hay ASI sẽ chưa đến, dù người ta định nghĩa chúng thế nào, nhưng tôi thường thích gọi AI là trí tuệ hỗ trợ hoặc trí tuệ tăng cường hơn
  Nó sẽ cung cấp đủ giá trị để thúc đẩy doanh số máy tính và smartphone hiện nay trong ít nhất 5–10 năm, hoặc 3–4 chu kỳ thay thế
- Terry là một thiên tài có thể rút ra giá trị như vậy từ LLM
  Người bình thường thì vẫn chưa làm được như thế
  Họ cũng không giỏi đưa prompt cho mô hình, và ngay từ đầu các vấn đề trong cuộc sống của họ không dựa trên văn bản
Mô hình o1 thật sự đáng kinh ngạc
Trong một dự án về độ tương đồng vector tốc độ cao, tôi đã đạt được mức tăng tốc đáng kể trên mã Rust vốn đã được tối ưu hóa rất cao, và đã xác nhận bằng benchmark kỹ lưỡng cùng kiểm chứng độ chính xác
Không chỉ vậy, nó còn giúp tôi hình dung lại và khái niệm hóa một thước đo phụ thuộc thống kê mới dựa trên phân kỳ Jensen-Shannon, và nó hoạt động rất tốt
Nó cũng tạo cho tôi một bản triển khai siêu nhanh của normalized mutual information, phần mà ban đầu tôi muốn đưa vào thư viện nhưng chưa tìm được cách đủ nhanh cho các vector lớn, chẳng hạn từ 15.000 chiều trở lên
Nó không đưa ra ngay từ đầu đoạn mã Rust hoàn hảo có thể biên dịch được, nhưng khi tôi dán các cảnh báo trình biên dịch trong VS Code vào, nó thử thêm một lần nữa và sửa hết mọi lỗi
Trong khi đó, GPT-4o thường phải mất hàng chục lượt để sửa lỗi kiểu Rust, lỗi lifetime/borrow, v.v.; còn Claude 3.5 Sonnet thì kỳ lạ là về Rust lại cứ như ngớ ngẩn
Không chỉ tối ưu hiệu năng và viết mã tương đối ít lỗi, nó còn kết hợp cả khả năng giải quyết vấn đề sáng tạo, kiến thức toán học và thuật toán cốt lõi rất rộng cùng việc tổng hợp các kết quả nghiên cứu mới nhất, cũng như khả năng hiểu điều tôi muốn đạt được và thực sự làm được điều đó, nên cảm giác đúng là một game changer
Diff thay đổi file mã ở đây: https://github.com/Dicklesworthstone/fast_vector_similarity/...
- Phần lớn lý do trả 500.000 USD/năm để thuê một người là để họ làm việc với những hệ thống hiện hữu khổng lồ mà LLM vẫn chưa hiểu được
  Dù vậy, việc tối ưu một thư viện nhỏ và triển khai các hàm nhanh là một cải tiến lớn trong bộ công cụ của bất kỳ lập trình viên nào
- Giờ đã có một con số tiền để liên hệ và tham chiếu
Trải nghiệm của tôi với o1 rất khác, và theo tiêu chuẩn của tôi thì cũng không thể gọi là ở mức “sinh viên đại học giỏi”
Chẳng hạn, tôi hỏi một câu khá đơn giản ở đây mà nó hoàn toàn rối
https://moorier.com/math-chat-1.png
https://moorier.com/math-chat-2.png
https://moorier.com/math-chat-3.png
Toàn bộ cuộc trò chuyện chắc ở đây: https://chatgpt.com/share/66e5d2dd-0b08-8011-89c8-f6895f3217...
- Chỉ là giai thoại cá nhân, nhưng với tôi O1 tệ hơn 4o và Claude 3.5 Sonnet
  Tệ hơn nữa là nó chậm hơn và nói nhiều hơn
- Nếu nghĩ đến việc huấn luyện LLM bằng hình học, nhiều thông tin trong tài liệu nguồn hẳn nằm trong các hình vẽ đi kèm văn bản
  Mô hình này không đa phương thức, nên có thể hoàn toàn không được học từ các hình đính kèm
  Sẽ tốt nếu mọi người kiểm tra các bộ bài toán hình học và các bộ bài toán giải tích để so sánh sự khác biệt
- Tôi không hiểu vì sao họ lại khiến nó nói như nhân viên hỗ trợ khách hàng như vậy
  Trải nghiệm lý tưởng ở đây là câu trả lời ngắn gọn, súc tích, chứ không phải dài dòng và khúm núm
- Tôi tò mò không biết đã xác định được lỗi trong phép tính thể tích của truncated icosidodecahedron chưa
Điều mới mẻ với tôi là nhận định “trải nghiệm giống như cố vấn cho một nghiên cứu sinh bình thường nhưng không hoàn toàn bất tài” lại đúng trong nhiều lĩnh vực đến vậy
Tôi đã thu được giá trị lớn khi dùng LLM để sắp xếp và hiểu vấn đề
Trong những lĩnh vực tôi biết rất rõ, nó giúp xử lý rất nhiều việc lặt vặt nên rất hữu ích
Như Terence đã chỉ ra trong thí nghiệm thứ ba, nếu chia nhỏ vấn đề thì nó khá vững trong việc điền các chỗ trống nhỏ
Tuy nhiên cần có hiểu biết khái niệm, và cũng cần một phần kỹ năng prompt
Khi bước vào một lĩnh vực chưa biết, phải xây dựng prompt từng lớp
Nếu đã biết đáp án, tốt hơn là đào từ những thứ nhỏ và cụ thể rồi mở rộng ra ngoài; ngay cả khi đi từ ngoài vào trong, cũng nên bắt đầu một cách cụ thể và có trọng tâm
Tôi đã dùng nó để xuyên qua các tầng khái niệm của những chủ đề rất phức tạp mà mình hoàn toàn không biết, rồi kiểm chứng khái niệm bằng chuyên gia trên YouTube, bài báo nghiên cứu và các nguồn đáng tin cậy; đó là một công cụ đáng kinh ngạc
- Trải nghiệm của tôi cũng vậy
  Tôi xem LLM như một thực tập sinh hoặc junior làm giúp các việc chạy vạy mà bản thân tôi không có thời gian tự làm
  Phải giám sát, hỗ trợ và kiểm tra lỗi, nhưng cuối cùng vẫn thu được kết quả hữu ích
  Về mặt thái độ, có lẽ những người từng giám sát thực tập sinh hoặc mentor junior sẽ dễ khai thác giá trị từ LLM, đặc biệt là các mô hình trả phí
  Ngược lại, những cá nhân đóng góp kỳ cựu nhưng quen làm một mình, không biết cách khai thác giá trị từ người khác — như tôi ở giai đoạn đầu sự nghiệp — có thể dùng kém hiệu quả hơn
Việc nói rằng “phải có khả năng tạo ra những bước nhảy toán học sáng tạo như Terence Tao” có vẻ là một tiêu chuẩn khá cao đối với AI
Nó giống tình huống trong một buổi phỏng vấn lập trình, người phỏng vấn giải thích một bài toán mà đội của họ mất vài tháng mới giải được, rồi thất vọng nếu bạn không thể viết lời giải lên bảng trắng trong 40 phút mà không dùng Google
- Từ kinh nghiệm từng làm việc với những người như Terence Tao, dù tôi hoàn toàn không đạt tới trình độ đó, họ vẫn tìm kiếm bất kỳ kiểu sáng tạo nào
  Cái gì cũng được chấp nhận, không nhất thiết phải ở “trình độ của họ”
  Đọc những gì ông ấy viết và đối chiếu với kinh nghiệm của tôi, tôi cho rằng cách mô tả như vậy là không chính xác
  Trong bài giảng của ông ấy tại IMO hồi đầu năm cũng có điều này: ông ấy ấn tượng với một số tương tác, nhưng vẫn cảm thấy còn thiếu một dạng tia lửa sáng tạo nào đó
- Không cần suy ra một tiêu chuẩn cao như vậy
  Điều ông ấy thực sự nói rất cụ thể: “Kết quả ở đây hơi đáng thất vọng... về cơ bản, mô hình đã đề xuất những thứ giống như các chiến lược đã được xác định trong các công trình mới nhất về bài toán, và giống như chiến lược mà tôi đã viết lại trong bài blog, nhưng không đưa ra biến thể sáng tạo nào của chiến lược đó”
  Điểm mấu chốt là chính bài blog đó đã là một phần đầu vào của ChatGPT
  Ngoài ra, ông ấy cũng nói rõ rằng dù dự đoán AI sẽ hữu ích hơn trong tương lai, hiện tại ông chỉ dùng AI/ChatGPT để chỉnh định dạng tài liệu tham khảo và viết mã đơn giản kiểu “Hello World”
  Trên mạng có nhiều tuyên bố rằng ông ấy luôn dùng ChatGPT trong nghiên cứu, nhưng phần vượt ra ngoài mục đích lập trình có vẻ không đúng
  Tuy vậy, “có thể giúp được nghiên cứu của Terence Tao” đúng là một tiêu chuẩn cao
- Đây không chỉ là quan sát riêng về Terence Tao
  Nếu dùng ChatGPT để viết một chương trình phức tạp hơn mã hướng dẫn, hoặc viết một bài blog cơ bản, nó thiếu sáng tạo và thiết kế mã cũng rất tệ
- Suy nghĩ đầu tiên của tôi cũng chính xác là vậy
  Nếu người có thể được xem là có IQ cao nhất còn sống hiện nay thấy ấn tượng nhưng chưa hoàn toàn hài lòng vì máy tính không đưa ra được suy luận toán học tầm Nobel, thì bản thân điều đó đã là một chỉ dấu khổng lồ
  Vậy một nghiên cứu sinh toán năm nhất nên nghĩ thế nào?
  Trong một bài trước, Tao dường như đã gián tiếp đề cập đến điểm này khi gần như nói rằng “o1 gần như tương đương một học viên cao học”
Thật thú vị khi con người cũng có thể hưởng lợi từ suy luận kiểu chuỗi suy nghĩ
Thực ra tôi nghĩ mọi sinh viên học toán sẽ cải thiện năng lực rất nhiều nếu trước khi dùng các định nghĩa và thông tin liên quan, họ bị yêu cầu phải nhớ lại tất cả trước
Trong thực tế, kể cả giáo viên và nhà toán học cũng không làm vậy, vì việc hồi tưởng tốn công sức và chúng ta không muốn dùng nhiều nỗ lực hơn mức cần thiết để giải bài toán
Nếu hồi tưởng thất bại thì phải tra cứu thông tin, lại càng tốn công hơn, nên trên thực tế có một động lực mạnh để cứ “làm theo cảm giác”
AI không có rào cản cảm xúc về việc lãng phí nỗ lực, nên nó trở thành một tác nhân suy luận tốt hơn mức năng lực bẩm sinh của nó
- Việc trình bày quá trình giải trong bài thi giống một dạng suy luận “chuỗi suy nghĩ”, nhưng hơi khác
  Cả hai đều buộc ta chia quá trình thành từng bước, giúp duy trì logic và không bỏ qua các bước quan trọng
  Nhưng việc trình bày lời giải gần với chứng minh rằng quy trình là đúng hơn, còn suy luận “chuỗi suy nghĩ” khiến ta nhớ lại các định nghĩa và khái niệm liên quan trong lúc tiến hành, qua đó bảo đảm hiểu sâu hơn
  Cả hai đều nhằm tránh làm theo cảm giác, nhưng “chuỗi suy nghĩ” đào sâu hơn vào khía cạnh hồi tưởng mà con người dễ né tránh
- Tôi rất thích góc nhìn này
  Dù đã thấy rất nhiều bằng chứng rằng chuỗi suy nghĩ giúp ích cho LLM, tôi vẫn chưa nghĩ đến việc áp dụng nhiều hơn cho chính mình
  Tất nhiên tôi đã làm ở một mức độ nào đó, nhưng thường thì hoàn toàn không bằng LLM
  Có lẽ vì vậy mà viết lách thường được ca ngợi là một cách tư duy tuyệt vời
  Viết cho phép tạo ra chuỗi suy nghĩ dài hơn với ít nỗ lực hơn
- Tôi cứ nghĩ khi gặp bài toán bị kẹt thì ai cũng làm vậy
  Ý tôi là toán ở trình độ đại học, không phải toán phổ thông
  Khi giảng dạy, tôi cũng luôn bắt sinh viên quay lại các định nghĩa
  Tôi không thật sự giỏi nghiên cứu toán và đã rời đi sau khi làm tiến sĩ và hậu tiến sĩ, nhưng theo kinh nghiệm của tôi, nghiên cứu vừa là việc suy nghĩ sâu về một vấn đề, nắm bắt chuyện gì đang diễn ra và bằng cách nào đó chia nhỏ nó ra, vừa là việc rà soát mọi thứ mình biết liên quan đến vấn đề đó, tìm các bài toán tương tự để xem có thể mượn ý tưởng hay không
Tôi đang rất mong chờ việc sớm quay lại học toán như một sở thích tò mò độc lập
Lần này có thể dựa vào LLM để học nên chắc sẽ cực kỳ thú vị
Tình cờ là, giống Terence Tao, tôi cũng đã hỏi LLM các câu hỏi về giải tích phức khi đọc sách giáo khoa để hiểu tốt hơn
Khả năng diễn giải các câu hỏi toán học dạng mở, cũng như nhanh chóng tìm ra những liên hệ khái niệm xa nhưng hữu ích và liên quan, thật đáng kinh ngạc
Giáo sư Tao, người đoạt Huy chương Fields, tất nhiên nhìn các LLM toán học hiện nay từ trên xuống như những “học viên cao học không hoàn toàn bất tài”, nhưng ở mức năng lực hiện tại của tôi thì đó lại là đối tượng để ngước nhìn
Một ví dụ gây ấn tượng với tôi 6 tháng trước là tôi hỏi có thể nới lỏng định nghĩa nào để làm giải tích phức ngay cả trên các đa tạp không định hướng như chai Klein; đó là vấn đề tôi đã suy nghĩ từ lâu, và LLM lập tức nhận ra rằng các phương trình Cauchy-Riemann sẽ trở nên không nhất quán trên toàn cục
Theo một nghĩa nào đó, quy ước dấu tùy ý của CR định nghĩa một hướng trên đa tạp, và việc đảo hướng đa tạp tương đương với đổi i thành -i
Giờ tôi hiểu được điều này vì LLM đã gợi ý nên nhìn như vậy
Tất nhiên đây không phải suy nghĩ độc sáng của LLM, mà có lẽ là kiến thức toán học được viết đâu đó trong một giáo trình cao học cực kỳ chuyên biệt
Nhưng với tôi điều đó không quan trọng
Những câu hỏi kiểu này, khi gần như không biết phải bắt đầu từ đâu, tuyệt đối không thể trả lời nếu không có LLM hoặc một chuyên gia cấp tiến sĩ trong lĩnh vực
Không có công cụ nào khác giúp tiếp cận kiểu tìm kiếm ở tầng ngữ nghĩa này; đây là một công cụ rất mạnh nhưng xa lạ, và tôi đang suy nghĩ cẩn thận xem nên tận dụng nó tốt nhất như thế nào
- Cảm giác như đang dùng một loại công cụ tìm kiếm toàn văn dựa trên ngữ nghĩa cho gần như mọi sách giáo khoa trên Trái Đất, giống như có siêu năng lực
  Sẽ còn tốt hơn nếu nó có thể chỉ ra chính xác tài liệu tham khảo trong sách giáo khoa nơi tìm được câu trả lời
- Làm sao biết câu trả lời đó đúng hay sai?
- Tôi cũng thắc mắc nên đo hiệu năng kiểu này như thế nào
  Benchmark sẽ bị tối ưu hóa để vượt qua hoặc bị đưa vào dữ liệu huấn luyện, và cũng khó có đủ tín hiệu trong chatbot arena cho loại truy vấn như thế này
  Tôi nghĩ chỉ vài tháng nữa thôi, người dùng trung bình sẽ không phân biệt được khác biệt hiệu năng giữa các mô hình lớn
Hoàn toàn đồng ý với Terence Tao
Đây là một bước tiến thực sự
Tôi luôn tin rằng nếu có dữ liệu phù hợp để LLM học cách mô phỏng suy luận, thì có thể cải thiện hiệu năng
Nhưng nó vẫn là khớp mẫu, và tôi nghi ngờ cách tiếp cận này có thể không mấy hiệu quả trong việc tạo ra khả năng khái quát hóa thật sự
Vì vậy khi o1 được phát hành rộng rãi, rất có thể chúng ta sẽ thấy tình trạng ảo giác và suy luận sai tiếp diễn ở những bài toán đủ mới hoặc phức tạp, vượt ra ngoài “chương trình suy luận” hay “mẫu suy luận” mà mô hình đã học trong giai đoạn học tăng cường
https://www.lycee.ai/blog/openai-o1-release-agi-reasoning
Với tôi, mô hình o1 lúc hay lúc dở
Một mặt, ngày nào tôi thử thì nó cũng giải được trò NYT Connections[0][1], trong khi các mô hình khác, kể cả Claude Sonnet 3.5, thì không làm được
Mặt khác, nó bỏ sót các chi tiết quan trọng và ảo giác giống GPT-4o
Nhiều khi phải dắt tay sửa từng chút để nó đi đến đáp án đúng, nên đôi lúc tôi nghĩ tự mình làm có khi còn dễ hơn
Lần này còn tệ hơn vì phải chờ câu trả lời 20–60 giây
Có lẽ những lĩnh vực mà o1 xuất sắc lại là những thứ tôi không thật sự cần
Tôi làm về kỹ nghệ phần mềm chứ không phải STEM truyền thống, và o1 hiện vẫn chưa tốt hơn đủ nhiều để biện minh cho độ trễ
Một lĩnh vực tôi chưa khám phá là dùng nó cho kế hoạch triển khai hoặc kế hoạch thay đổi kiến trúc
Có vẻ nó sẽ tốt hơn ở đây, nhưng cần đưa đúng loại vấn đề cho nó
[0] https://www.nytimes.com/games/connections
[1] https://chatgpt.com/share/66e40d64-6f70-8004-9fe5-83dd3653a5...

Phân tích về o1 của Terence Tao

Đánh giá tổng thể về GPT-o1

Thử nghiệm 1: truy vấn toán học mơ hồ và Cramer’s theorem

Thử nghiệm 2: bài toán giải tích phức khó

Thử nghiệm 3: nhiệm vụ hình thức hóa bằng Lean

Thử nghiệm tìm kiếm ngữ nghĩa và tạo chiến lược sáng tạo

Đính chính về phép ví von nghiên cứu sinh

Tính hữu dụng như công cụ hỗ trợ nghiên cứu và tỷ lệ chi phí

Tìm kiếm ngữ nghĩa

Những điểm còn thiếu trong Lean và Mathlib

Tự động hóa có thể kiểm chứng và trình hỗ trợ chứng minh hình thức

Triển vọng hệ sinh thái công cụ AI cho nghiên cứu toán học

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News