2 điểm bởi GN⁺ 2024-09-15 | 1 bình luận | Chia sẻ qua WhatsApp

Giới thiệu về mathstodon.xyz

  • mathstodon.xyz là một phần của mạng xã hội phi tập trung dựa trên Mastodon, là một instance dành cho người dùng liên quan đến toán học.
  • Hỗ trợ render LaTeX trên giao diện web.
  • Quản trị viên: Christian Lawson-Perfect (@christianp)
  • Thống kê máy chủ: 3K người dùng hoạt động

Thử nghiệm GPT-o1 của Terence Tao

  • GPT-o1: phiên bản GPT mới của OpenAI, thực hiện một giai đoạn suy luận ban đầu trước khi chạy LLM.
  • Thử nghiệm 1: trong phần trả lời cho một câu hỏi toán học mơ hồ, mô hình đã xác định chính xác Cramer's theorem và đưa ra câu trả lời thỏa đáng.
    • Ở các phiên bản trước, mô hình có nhắc đến các khái niệm liên quan nhưng chi tiết lại sai.
  • Thử nghiệm 2: khi đối mặt với một bài toán giải tích phức tạp, mô hình đã suy ra lời giải đúng nhờ nhiều gợi ý và dẫn dắt, nhưng không tự tạo ra được ý tưởng khái niệm then chốt và mắc một vài sai sót.
    • Đã cải thiện so với các mô hình trước nhưng vẫn còn thiếu.
    • Với vài lần cải tiến nữa trong tương lai, có khả năng trở nên hữu ích cho công việc ở cấp độ nghiên cứu.
  • Thử nghiệm 3: trong công việc hình thức hóa kết quả bằng Lean, mô hình hiểu vấn đề khá tốt và thực hiện phân rã ban đầu tốt, nhưng do thiếu thông tin Lean mới nhất nên có nhiều lỗi trong mã.
    • Có thể rất hữu ích trong một IDE tích hợp các mô hình chuyên biệt cho Lean và Mathlib.

Thảo luận thêm

  • Sự phát triển của các công cụ AI: kỳ vọng vào sự xuất hiện của một hệ sinh thái công cụ AI có thể xử lý nhiều dạng công việc nghiên cứu khác nhau.
    • Hiện tại, các LLM lớn, đa dụng đang thu hút sự chú ý, nhưng các mô hình mã nguồn mở nhẹ được tinh chỉnh cho những ứng dụng cụ thể cũng được kỳ vọng sẽ đóng vai trò quan trọng.
  • So sánh AI và nghiên cứu sinh: thảo luận về việc liệu công cụ AI có thể đóng góp ở mức của nghiên cứu sinh hay không.
    • Hiện tại vẫn cần nhiều công sức hơn so với nghiên cứu sinh, nhưng trong vài năm tới, khả năng tỷ lệ đó giảm xuống 1 hoặc thấp hơn là có thể xảy ra.

# Tóm tắt của GN⁺

  • Terence Tao đã thử nghiệm mô hình GPT-o1 mới của OpenAI để đánh giá năng lực giải quyết bài toán toán học.
  • GPT-o1 đã cải thiện so với các phiên bản trước nhưng vẫn còn một số giới hạn.
  • Với vài lần cải tiến nữa trong tương lai, mô hình có khả năng trở nên hữu ích cho công việc ở cấp độ nghiên cứu.
  • Kỳ vọng vào sự xuất hiện của một hệ sinh thái đa dạng các công cụ AI có thể hỗ trợ công việc nghiên cứu.
  • Hiện tại, các LLM lớn, đa dụng đang được chú ý, nhưng các mô hình mã nguồn mở nhẹ tối ưu cho ứng dụng cụ thể cũng được kỳ vọng sẽ đóng vai trò quan trọng.

1 bình luận

 
GN⁺ 2024-09-15
Ý kiến Hacker News
  • Có kỳ vọng rằng nếu GPT được tinh chỉnh cho Lean (công cụ hỗ trợ chứng minh) giống như với Python, thì nó sẽ hữu ích hơn cho toán học ở cấp độ nghiên cứu

    • Trong các lĩnh vực liên quan đến nghiên cứu vận trù học (OR), ChatGPT 4o đã học đủ nhiều tài liệu OR để đưa ra các công thức lập trình hỗn hợp số nguyên (MIP) hữu ích
    • Khi đưa ra các bài toán logic, nó tạo ra các công thức toán học hữu ích và chỉ cần chỉnh sửa đôi chút
    • Nó cảnh báo về những công thức yếu nơi logic có thể thất bại, giúp tránh vấn đề
    • GPT giải quyết được những vấn đề mà trước đây phải đau đầu cả cuối tuần, giúp tiết kiệm rất nhiều thời gian
    • Với những ai hiểu tối ưu hóa MIP và có thể chia bài toán thành các phần nhỏ, phí đăng ký $20/tháng của ChatGPT là hoàn toàn xứng đáng
    • Nhiều người không biết cách tận dụng LLM tốt hoặc kỳ vọng quá mức nên cảm thấy thất vọng
    • Những ai hiểu điểm mạnh của LLM và có thể kiểm tra sai sót của nó thì nhận được trợ giúp rất lớn trong công việc
  • Hãy tưởng tượng quay lại năm 2019 và đọc một bài viết nói rằng trải nghiệm tương tác với Alexa “giống như đang xin lời khuyên từ một nghiên cứu sinh bình thường nhưng không hoàn toàn bất tài”

    • Chỉ trong 5 năm đã có khác biệt khổng lồ
  • Mô hình o1 rất đáng kinh ngạc

    • Trong một dự án tối ưu hóa mã Rust, nó mang lại cải thiện tốc độ lớn và còn xác minh được tính đúng đắn
    • Nó hình dung và triển khai một phép đo phụ thuộc thống kê mới dựa trên phân kỳ Jensen-Shannon
    • Nó triển khai nhanh thông tin tương hỗ chuẩn hóa, thứ vốn khó tìm được cách cài đặt nhanh khi xử lý các vector lớn (ví dụ: hơn 15.000 chiều)
    • Ban đầu nó không đưa ra được mã Rust hoàn hảo, nhưng chỉ sau một lần thử đã sửa được toàn bộ lỗi
    • GPT-4o cần nhiều lần thử để sửa lỗi kiểu trong Rust
    • Claude3.5 sonnet rất kém về Rust
    • Nó giúp rất nhiều trong các tác vụ cực kỳ thách thức
    • Không chỉ tối ưu hiệu năng và viết mã tương đối ít lỗi, nó còn kết hợp giải quyết vấn đề sáng tạo với lượng kiến thức toán học và thuật toán đồ sộ để hiểu và hiện thực hóa mục tiêu
  • Trải nghiệm với mô hình O1 rất khác nhau

    • Nó cũng tỏ ra bối rối ngay cả với những câu hỏi đơn giản
  • Điều mới mẻ là LLM ở nhiều chủ đề khác nhau “giống như đang xin lời khuyên từ một nghiên cứu sinh bình thường nhưng không hoàn toàn bất tài”

    • Nó rất hữu ích để xử lý các công việc nhỏ trong những lĩnh vực mà người dùng đã có nhiều kinh nghiệm
    • Nếu chia vấn đề thành các phần nhỏ, nó làm việc khá chắc chắn
    • Cần có hiểu biết khái niệm, và kỹ năng viết prompt là quan trọng
    • Người dùng sử dụng LLM để hiểu các chủ đề phức tạp và xác nhận khái niệm thông qua việc chuyên gia kiểm chứng
  • Con người cũng có thể hưởng lợi từ kiểu suy luận “chuỗi suy nghĩ”

    • Nếu mọi sinh viên học toán đều có thể ghi nhớ các định nghĩa và thông tin liên quan, năng lực của họ sẽ được cải thiện đáng kể
    • AI có thể suy luận tốt hơn vì không có rào cản cảm xúc
  • Đồng ý với ý kiến của Terence Tao

    • LLM có thể cải thiện hiệu năng thông qua đối sánh mẫu, nhưng có thể không hiệu quả trong việc tạo ra khả năng khái quát hóa thực sự
    • Với các bài toán mới hoặc phức tạp, hiện tượng ảo giác và suy luận sai vẫn có thể xảy ra
  • Có nhiều kỳ vọng vào việc học lại toán như một sở thích độc lập

    • LLM giúp rất nhiều trong việc giải quyết các câu hỏi phân tích phức tạp
    • Khả năng của LLM trong việc nhanh chóng tìm ra các kết nối khái niệm thật đáng ngạc nhiên
    • Khi được hỏi liệu có thể làm giải tích phức trên đa tạp không định hướng bằng cách nới lỏng một định nghĩa nào đó hay không, LLM đã ngay lập tức nhận ra rằng phương trình Cauchy-Riemann không nhất quán trên toàn cục
    • Nếu không có LLM, có lẽ đã không thể trả lời câu hỏi này
  • Ý kiến của Terence Tao gây ngạc nhiên

  • Daniel Litt tuy ấn tượng với o1-preview, nhưng vẫn chưa gặp may trong việc giải các bài toán thú vị

    • Với các tác vụ đơn giản, nó đáng tin cậy hơn và có thể giúp tiết kiệm thời gian ở các công việc không phải toán học