1 điểm bởi GN⁺ 2024-03-26 | 1 bình luận | Chia sẻ qua WhatsApp

Các mô hình ngôn ngữ lớn học những kỹ năng ngoài dự kiến nhanh đến mức nào?

  • Một nghiên cứu mới về năng lực của các mô hình ngôn ngữ lớn (Large Language Models, LLMs) cho rằng cái gọi là 'năng lực tăng vọt' thực ra phát triển dần dần và có thể dự đoán được.
  • Các nhà nghiên cứu mô tả những năng lực này như hành vi 'tăng vọt', ví như hiện tượng chuyển pha trong vật lý khi chất lỏng biến thành băng.
  • Tuy nhiên, nhóm nghiên cứu tại Đại học Stanford cho rằng sự xuất hiện đột ngột của những năng lực này chỉ là hệ quả của cách các nhà nghiên cứu đo lường hiệu năng của LLM.

Đo lường hiệu năng của các mô hình ngôn ngữ lớn

  • Các mô hình ngôn ngữ lớn phân tích những tập dữ liệu văn bản khổng lồ để tìm ra các liên kết giữa những từ thường xuyên xuất hiện cùng nhau.
  • Kích thước của mô hình được đo bằng số lượng tham số, và càng có nhiều tham số thì LLM càng có thể tìm ra nhiều liên kết hơn.
  • GPT-2 có 1,5 tỷ tham số, GPT-3.5 có 350 tỷ, và GPT-4 sử dụng 1,75 nghìn tỷ tham số.

Sự phát triển dần dần của các năng lực ngoài dự kiến

  • Nhóm nghiên cứu tại Đại học Stanford cho rằng năng lực của LLM không xuất hiện một cách đột ngột và khó đoán, mà phát triển dần dần và có thể dự đoán được.
  • Ví dụ, trong phép cộng số có ba chữ số, GPT-3 và LAMDA không thể tính đúng khi số lượng tham số còn ít, nhưng khi tham số tăng lên thì đột nhiên có thể thực hiện phép cộng.
  • Thay vì đánh giá LLM chỉ bằng độ chính xác, nhóm nghiên cứu sử dụng cách đo có chấm điểm từng phần và phát hiện rằng LLM dần dần dự đoán đúng thứ tự của các chữ số.

Quan điểm của các nhà khoa học khác

  • Một số nhà khoa học khác chỉ ra rằng nghiên cứu này không hoàn toàn xóa bỏ khái niệm 'tăng vọt'.
  • Vẫn chưa rõ tiêu chí đo lường nào, hoặc cách nào có thể dự đoán khi nào hiệu năng của LLM sẽ cải thiện mạnh.
  • Một số nhà khoa học cho rằng các báo cáo trước đây về hiện tượng 'tăng vọt' là chính xác, và nhấn mạnh rằng với những năng lực như số học thì đáp án đúng mới là tất cả.

Ý kiến của GN⁺

  • Nghiên cứu này có thể tạo ảnh hưởng quan trọng tới các cuộc thảo luận về độ an toàn và những rủi ro tiềm ẩn của trí tuệ nhân tạo. Nếu năng lực của LLM phát triển theo cách có thể dự đoán, đây có thể là một chỉ dấu quan trọng cho việc phát triển và quản lý AI an toàn.
  • Khi kết quả nghiên cứu được áp dụng vào phát triển AI thực tế, các nhà phát triển cần nhận thức tầm quan trọng của cách đo lường hiệu năng và phải thiết kế các phương pháp đánh giá tinh vi hơn.
  • Bài viết này có thể giúp hiểu những thay đổi và tiến bộ đang diễn ra ở tuyến đầu của nghiên cứu AI, đặc biệt khi nó đưa ra một góc nhìn mới về cách đánh giá hiệu năng của các mô hình AI.
  • Từ góc nhìn phản biện, cũng cần thừa nhận rằng kết quả nghiên cứu không giải thích được mọi sự cải thiện hiệu năng của tất cả LLM, và ở các mô hình lớn hơn, phức tạp hơn thì hiện tượng 'tăng vọt' vẫn có thể xảy ra.
  • Liên quan đến công nghệ này, dòng GPT của OpenAI đã được sử dụng rộng rãi trên thị trường, và nghiên cứu này có thể truyền cảm hứng cho việc phát triển những LLM khác tương tự GPT.

1 bình luận

 
GN⁺ 2024-03-26
Ý kiến Hacker News
  • Một vài vấn đề liên quan đến nghiên cứu

    • Cách đánh giá được dùng trong nghiên cứu có thể không phản ánh đúng năng lực kỹ thuật.
    • Dù có các tiêu chí đo lường của tác giả, một số năng lực tiềm ẩn vẫn xuất hiện.
    • Dự đoán kết quả dựa trên dữ liệu quá khứ thì dễ, nhưng điều quan trọng là trên thực tế đã xuất hiện những kết quả ngoài dự kiến.
    • Bài báo này có giá trị, nhưng không nên mở rộng kết luận quá mức.
  • Khó khăn của việc dự đoán tương lai

    • Dự đoán tương lai chỉ trở nên dễ sau khi mọi chuyện đã xảy ra.
    • Năng lực bậc cao phụ thuộc vào nhiều năng lực con và rất khó dự đoán.
    • Để dự đoán, cần xác định trước các thành phần nền tảng cần thiết và mô phỏng xem chúng phải đạt đến mức nào.
    • Loại dữ liệu và chất lượng dữ liệu cũng quan trọng, và có thể có những thay đổi đột ngột giữa các phiên bản mô hình.
  • Sự thay đổi kết quả khi thay đổi tiêu chí đo lường

    • Nếu dùng tiêu chí đo lường khác, hiện tượng quan sát được có thể biến mất.
    • Nếu quan sát riêng lẻ các phân tử nước, ta có thể thấy cấu trúc tinh thể hình thành dần dần thay vì một khối băng đột ngột xuất hiện.
  • Tiêu đề bài báo: "Are Emergent Abilities of Large Language Models a Mirage?"

  • Quan sát về sự thay đổi đột ngột của năng lực

    • Các nghiên cứu khác cũng phát hiện những bước nhảy vọt đột ngột về năng lực.
    • Mô hình có thể đang dần trở nên thông minh hơn, và cách đo không cho điểm với câu trả lời đúng một phần có thể khiến người ta bỏ lỡ tiến bộ này.
  • Cách tiếp cận chấm điểm từng phần và huấn luyện mô hình

    • Việc cho điểm từng phần là tốt, nhưng huấn luyện để đạt được câu trả lời chính xác vẫn rất quan trọng.
    • Mô hình càng lớn thì càng dễ đạt đến điểm hội tụ.
    • Khi kích thước mô hình tăng lên, có thể thấy năng lực như thể đột ngột xuất hiện.
  • Sự xuất hiện dần dần của năng lực

    • Việc năng lực xuất hiện không nhất thiết cần những cú nhảy vọt đột ngột hay tính không thể dự đoán.
    • Năng lực mới có thể xuất hiện một cách dần dần.
  • Giới hạn của mô hình ngôn ngữ lớn (Large Language Models, LLMs)

    • LLMs là một cỗ máy đánh giá khả năng.
    • Chỉ mở rộng quy mô LLMs thôi thì không thể tạo ra trí tuệ nhân tạo tổng quát (Artificial General Intelligence, AGI).
  • Sự lẫn lộn về tiêu chí đo lường

    • Cách đo dùng khoảng cách chỉnh sửa (edit distance) có thể không phù hợp.
    • Đây có vẻ là một cách khá lạ để kiểm tra liệu mô hình có hiểu số học hay không.
    • Có thể tốt hơn nếu xem xét chênh lệch giữa giá trị thực tế và giá trị kỳ vọng.
    • Liên kết bài báo: arXiv:2206.07682