Quiet-STaR: Có thể dạy mô hình ngôn ngữ tự suy nghĩ trước khi nói

(arxiv.org)

2 điểm bởi GN⁺ 2024-03-17 | 1 bình luận | Chia sẻ qua WhatsApp

Quiet-STaR là phương pháp dùng văn bản web thông thường làm tín hiệu huấn luyện thay vì các bộ dữ liệu QA có đáp án đúng, nhằm huấn luyện mô hình ngôn ngữ tạo ra lập luận nội bộ trước khi nói
Nếu STaR trước đây chỉ chọn và học các lập luận dẫn đến đáp án đúng, thì Quiet-STaR thưởng cho các lập luận cải thiện việc dự đoán văn bản tương lai, qua đó tận dụng suy luận ngầm trong văn bản phi cấu trúc
Phương pháp lấy mẫu lập luận song song ở mọi vị trí token, rồi trộn dự đoán có lập luận và không có lập luận để học theo hướng dự đoán văn bản tiếp theo thực tế tốt hơn
Kết quả tiếp tục tiền huấn luyện Mistral 7B trên OpenWebMath và C4 cho thấy độ chính xác tăng từ 5,9%→10,9% với GSM8K và 36,3%→47,2% với CommonsenseQA mà không cần tinh chỉnh theo từng tác vụ
Hiệu quả thể hiện rõ hơn ở các token khó dự đoán, và có xu hướng cho thấy số token dùng cho suy nghĩ nội bộ càng dài thì cải thiện hiệu năng suy luận trực tiếp càng lớn

Dùng văn bản thông thường làm đối tượng học suy luận

Khi viết hoặc nói, con người thường tạm dừng để suy nghĩ; phần lớn ý nghĩa của văn bản nằm ở những lý do và hàm ý không được thể hiện rõ giữa các câu
Các cách tiếp cận tập trung vào suy luận trước đây chủ yếu tập trung vào việc trả lời câu hỏi hoặc hoàn thành công việc của agent, nhưng Quiet-STaR xem rằng suy luận tồn tại ngầm trong hầu như mọi dạng bài viết
Ví dụ về suy luận ngầm gồm:
- Các bước trung gian không được nêu rõ trong chứng minh
- Lý thuyết suy đoán trạng thái tâm trí của đối phương trong hội thoại

Mở rộng STaR sang mô hình hóa ngôn ngữ

STaR(Self-Taught Reasoner) là phương pháp lấy mẫu lập luận trong bộ dữ liệu câu hỏi-trả lời dựa trên một số ít ví dụ, chỉ học các lập luận dẫn đến đáp án đúng, từ đó lặp lại để giải các bài toán khó hơn
STaR có hạn chế là phụ thuộc vào dữ liệu được tuyển chọn kỹ lưỡng như các bộ dữ liệu QA chất lượng cao
- Những bộ dữ liệu như vậy chỉ có thể bao quát một số tác vụ suy luận nhất định
- Có những trường hợp cần cung cấp chính lập luận hoặc cung cấp một tác vụ suy luận cụ thể
Thay vì các tác vụ như QA toán học cụ thể, Quiet-STaR huấn luyện mô hình ngôn ngữ tạo ra các lập luận hữu ích cho việc suy luận văn bản tương lai từ văn bản Internet quy mô lớn
Cách tiếp cận này được xây dựng trên trực giác của mô hình mô hình hóa ngôn ngữ rằng “mô hình ngôn ngữ là người học đa nhiệm không giám sát”

Quy trình huấn luyện: think, talk, learn

Quiet-STaR hoạt động theo ba bước
- think: tạo song song các lập luận giải thích văn bản tương lai sau mọi token trong văn bản
- talk: kết hợp dự đoán token tiếp theo khi có lập luận và khi không có lập luận
- learn: dùng phần thưởng dựa trên REINFORCE để tăng khả năng của các lập luận giúp dự đoán văn bản tương lai, và loại bỏ các lập luận gây hại
Trong quá trình huấn luyện, với một thought, mô hình đánh dấu điểm bắt đầu và kết thúc của suy nghĩ bằng các meta token có thể học được như START và END
Sau khi tạo lập luận, mixing head quyết định mức độ phản ánh dự đoán dựa trên lập luận đó vào dự đoán token tương lai

Các thách thức triển khai để mô hình suy nghĩ ở mọi token

Với văn bản thông thường, cần tạo lập luận cho từng token nên chi phí tính toán lớn
Để giảm chi phí này, nhóm đề xuất và triển khai thuật toán lấy mẫu song song theo từng token, tạo lập luận ở mọi vị trí token trong chuỗi
Phương pháp cũng xử lý vấn đề mô hình ngôn ngữ ban đầu không biết cách tạo hoặc sử dụng suy nghĩ nội bộ
- Giới thiệu các meta token tùy chỉnh biểu thị điểm bắt đầu và kết thúc suy nghĩ
- Giúp mô hình học thời điểm cần tạo lập luận và thời điểm cần dự đoán dựa trên lập luận đó
Để tránh học thiển cận chỉ nhìn vào một token tiếp theo duy nhất, phương pháp sử dụng hàm mất mát không thiển cận (non-myopic loss) bao gồm nhiều token phía trước
Kỹ thuật teacher-forcing mở rộng được dùng để đưa cả các dự đoán vượt ra ngoài từng token tiếp theo riêng lẻ vào quá trình học

Thiết lập thí nghiệm và kết quả

Thí nghiệm được thực hiện bằng cách áp dụng Quiet-STaR cho Mistral 7B
Các bộ dữ liệu văn bản web OpenWebMath và C4(Colossal Clean Crawled Corpus) được dùng cho tiếp tục tiền huấn luyện
Hiệu năng suy luận trực tiếp zero-shot được cải thiện mà không cần tinh chỉnh theo từng tác vụ
- GSM8K: 5,9%→10,9%
- CommonsenseQA: 36,3%→47,2%
Trên cả GSM8K và CommonsenseQA, mức cải thiện hiệu năng tăng nhất quán khi số token suy nghĩ dùng trong huấn luyện Quiet-STaR dài hơn
Với văn bản tự nhiên, perplexity của các token khó dự đoán được cải thiện
Các lập luận được tạo ra đặc biệt giúp ích nhiều hơn một cách không cân xứng cho các token khó dự đoán

Đóng góp của Quiet-STaR

Quiet-STaR khái quát hóa STaR để học suy luận từ nhiều loại dữ liệu văn bản phi cấu trúc, thay vì các tác vụ suy luận được tuyển chọn
Thuật toán lấy mẫu song song giúp quy trình huấn luyện tạo lập luận ở mọi vị trí token trong một chuỗi cho trước có thể mở rộng
Các meta token tùy chỉnh biểu thị điểm bắt đầu và kết thúc suy nghĩ được dùng để mô hình học thời điểm tạo lập luận và thời điểm dự đoán dựa trên lập luận
mixing head quyết định hậu nghiệm mức độ đưa dự đoán token tiếp theo từ một thought cụ thể vào dự đoán hiện tại
Hàm mất mát mô hình hóa ngôn ngữ bao gồm nhiều token phía trước giúp cải thiện hiệu quả của suy nghĩ
Khi sử dụng suy nghĩ trên nhiều tác vụ, mô hình dự đoán tốt hơn các token khó so với mô hình được huấn luyện trên cùng văn bản web, và mức cải thiện lớn hơn với thought dài hơn

1 bình luận

GN⁺ 2024-03-17

Ý kiến trên Hacker News

Ví dụ, có vẻ trực giác là một mạng sâu 50 tầng chỉ có thể suy luận khoảng 50 bước đối với các câu hỏi mang tính ký hiệu
Những gì trông phức tạp hơn là vì mô hình thực hiện 50 bước trong một hoặc nhiều không gian con mà nó đã học, và một “bước” đó có thể làm được nhiều việc hơn một bước của con người
Con người có thể suy luận xa hơn thế, nhưng để làm vậy cần suy nghĩ và cân nhắc thực sự, đôi khi cần cả sổ ghi chú
Kỳ vọng ChatGPT nhân hai số 4 chữ số chính xác mà không hề suy nghĩ hay dùng “giấy” là điều khá đáng ngạc nhiên, và thực tế cũng không nhiều người làm phép tính như vậy trong đầu
- Nói vậy đúng, nhưng cũng phải xét đến yếu tố tự hồi quy
  Trong ví dụ này, mỗi lần chạy mô hình là 50 bước, và với mỗi token đầu ra, mô hình được chạy một lần
  Vì vậy việc tính xem mô hình thực sự có thể “nghĩ” đến mức nào phức tạp hơn
  Dĩ nhiên, một khi token đã được xuất ra thì theo thiết lập mặc định mô hình đã cam kết với token đó, nhưng điều đó không có nghĩa là nó không tiếp tục “nghĩ” khi tạo các token sau
  Ngữ cảnh và các token đã xuất trước đó là đầu vào cho bước mô hình tiếp theo, nên có thể xem chúng như cuốn sổ ghi chú đã nói
- Bài báo này đi theo trực giác đó để khảo sát giới hạn của transformer trên các tác vụ tổng hợp. Bao gồm cả những tác vụ cần nhiều bước suy luận như phép nhân: https://arxiv.org/abs/2305.18654
  Kết quả thí nghiệm gợi ý rằng các mô hình ngôn ngữ lớn dùng transformer có xu hướng giải suy luận tổng hợp nhiều bước bằng cách quy về khớp đồ thị con đã tuyến tính hóa, thay vì bằng năng lực giải quyết vấn đề một cách có hệ thống
  Ngoài ra, bằng lập luận lý thuyết về các bài toán suy luận trừu tượng nhiều bước, bài báo cho thấy hiệu năng của sinh tự hồi quy có thể giảm nhanh khi độ phức tạp của tác vụ tăng lên
- Ở đây đang bỏ sót một chi tiết quan trọng là số lượng token. Dù độ sâu mạng chỉ có 50 “bước”, nó vẫn có thể dùng thêm token
  Giả sử băng ghi không cạn, không có lý do gì để mô hình ngôn ngữ lớn chỉ bị giới hạn ở các phép toán đơn giản
- Nếu nghĩ đến cách lan truyền ngược hoạt động, cách giải thích này không hợp lý lắm. Các tầng không bị giới hạn phải hoạt động độc lập với nhau
  Xét việc mô hình có tính tự hồi quy thì cách giải thích này cũng không khớp
Edsger Dijkstra có văn phong tiếng Anh chính xác, và dù tiếng mẹ đẻ là tiếng Hà Lan, tôi cho rằng ông sử dụng tiếng Anh tốt hơn nhiều người bản ngữ
Trong một EWD nào đó, ông nhớ lại rằng khi còn nhỏ ông được dạy “đừng bắt đầu nói trước khi đã biết mình sẽ kết thúc câu như thế nào”
Có lẽ có quan hệ nhân quả giữa hai quan sát này
- Khi còn trẻ, tôi sống ở nước ngoài một thời gian ngắn và tham gia lớp học ngôn ngữ; trong cùng lớp có một người đàn ông trung niên nói ngôn ngữ mới rất vụng, nhưng luôn có khả năng làm mọi người cười
  Tôi tò mò ông ấy làm thế nào, và một hôm khi ăn trưa cùng nhau, ông ấy nghiêm túc giải thích cho tôi
  Ông ấy nói rằng ông không bao giờ thốt ra dù chỉ một câu nếu chưa nói trọn vẹn câu đó trong đầu, nghĩ đi nghĩ lại từng từ để trau chuốt câu, rồi tưởng tượng người nghe sẽ phản ứng thế nào, và chỉ nói khi hình dung được phản ứng mình muốn
  Lời khuyên đó đồng thời cũng chỉ ra rất đúng rằng tôi hay nói mà không nghĩ, và có cảm giác như ông ấy đã đọc đúng rồi trả lời một câu hỏi mà tôi chưa hỏi
  Khi thử phương pháp này, công sức bỏ ra được đền đáp tương xứng, nhưng tôi không biến nó thành thói quen được, và đến giờ miệng tôi vẫn thường đi trước suy nghĩ
- Với tôi điều đó nghe như địa ngục. Đó là cách làm mất hoàn toàn tính ứng biến và cảm giác hiện diện trong khoảnh khắc
  Trước đây tôi từng cố nghĩ một cách ám ảnh xem mình sẽ nói gì trước khi nói, và dù tôi vốn khá vụng về trong giao tiếp xã hội, điều đó chẳng giúp được gì
  Tôi thích viết vì nó mang tính bất đồng bộ, cho phép sắp xếp và chỉnh sửa suy nghĩ cho chính xác, nhưng trong các tình huống xã hội thì nó là trở ngại lớn
- Tôi thấy có hai điểm. Thứ nhất, viết và nói khác nhau. Viết là bất đồng bộ nên có thể suy nghĩ và sửa trước khi viết
  Thứ hai, khi nói bằng ngôn ngữ không phải tiếng mẹ đẻ, ta suy nghĩ sâu hơn về những gì sắp nói. Ít dùng thành ngữ hơn, tập trung hơn vào việc ý nghĩa có được truyền đạt đúng không, và dường như nhạy cảm hơn với khả năng làm người đối diện khó chịu
  Chuyện này cũng không mới. Các lĩnh vực như khoa học cũng từng được thực hiện nhiều bằng những ngôn ngữ không phải tiếng mẹ đẻ của nhà nghiên cứu, như tiếng Pháp, tiếng Đức, tiếng Latinh
  Thuật ngữ chuyên ngành theo từng lĩnh vực cũng góp phần. Nếu cứ nói “Kubernetes is een open-bron houder orkestratiesysteem voor het automatiseren van de inzet, schalen, en het beheer van zachte waren” với khán giả nói tiếng mẹ đẻ của tôi, một nửa trong số họ sẽ bối rối
- Tôi thích đọc các EWD của ông ấy. Một giáo sư từng làm việc với ông ấy có lần nói rằng khi thi, ông bắt sinh viên dùng bút mực
  Có phải để giảm khả năng sinh viên mắc lỗi không?
- Tôi cũng học tiếng Anh qua sách giáo khoa, nên một trong những điều kỳ lạ nhất là người bản ngữ thường xuyên nhầm “their, there, they’re” trong đời thường
  Tôi chưa từng nghĩ đó là lỗi mình có thể mắc, và nó giống như nhầm giữa ‘wet’ và ‘vet’ vậy
  Rõ ràng có khác biệt trong cách dùng ngôn ngữ giữa người bản ngữ và người không bản ngữ
Vài ngày trước tôi có một ý nghĩ: việc các mẫu suy luận chuỗi suy nghĩ trong các hệ thống dựa trên mô hình ngôn ngữ lớn góp phần cải thiện hiệu năng có vẻ có thể đặt song song với mô hình hai hệ thống của tâm trí trong cuốn Thinking, Fast and Slow của Kahneman.
Tôi đã không đọc lại cuốn sách đó vài năm rồi, nhưng nhớ là ông nói ta chủ yếu dùng “System 1” cho những suy nghĩ cần ít nỗ lực và ít tính toán. Ví dụ như 1+1=? hoặc “bầu trời thì ____”.
Ngược lại, “System 2” được dùng cho các tác vụ có chủ ý, có ý thức và đòi hỏi tải nhận thức lớn. Những thứ cần sự tập trung hoặc tài nguyên não bộ, như phép nhân lớn, bài toán suy luận, dùng công cụ, hay ra quyết định nói chung.
Lời phê phán rằng “mô hình ngôn ngữ lớn chỉ là vẹt xác suất nên không có trí thông minh” thực ra giống như một quan sát rằng mô hình chỉ được trang bị để dùng “System 1”.
Khi nhắc mô hình ngôn ngữ lớn suy nghĩ từng bước, ta cho nó một không gian làm việc để ghi lại suy nghĩ của mình và khiến nó xét lại những thứ đó trong dự đoán token tiếp theo, nên nó trở thành một dạng System 2 sơ khai, tức một sandbox để suy xét.
Con người khi dùng System 2 cũng giữ một mô hình thế giới kiểu diorama ở phía trước tâm trí và mô phỏng môi trường sẽ phản ứng ra sao nếu mình thực hiện một hành động cụ thể. Ta hình dung bạn bè sẽ trả lời thế nào, tấm thép sẽ uốn ra sao dưới lực, mã sẽ hỏng thế nào, lốp xe sẽ bám đường ra sao, rồi khám phá cây khả năng để chọn hành động có phần thưởng lớn nhất.
Tôi không phải chuyên gia, nhưng có vẻ bài báo này cũng nhìn ra một khung tương tự. Đặc biệt, các mô hình hành vi trong robot học có thể sẽ được đưa vào cơ chế suy xét/mô phỏng lặp lại trong tương lai.
- Xin nói trước rằng điều này có thể nghe như hoàn toàn bịa đặt, giai thoại phi khoa học, hoặc một câu chuyện ngây thơ/chưa chín chắn. May là không ai cần phải tin cả.
  Vài tuần trước, trong trạng thái không hoàn toàn thức cũng không hoàn toàn ngủ, tôi rơi vào một vòng lặp nhận ra quá trình bộ não suy nghĩ nhanh phun ra từ ngữ và khái niệm với tốc độ như ánh sáng, còn bộ não suy nghĩ chậm biến chúng thành câu chữ thực sự.
  Nó giống như nhìn chuỗi suy nghĩ dưới dạng một danh sách ý tưởng; danh sách đó được lấp đầy nhanh đến vô lý rồi được tóm lược thành một “suy nghĩ” hoàn chỉnh gồm danh sách từ ngữ được chọn lựa cẩn thận.
  Từ đó, tôi tin vào quan điểm rằng thứ chúng ta nhận thức là suy nghĩ chính là đầu ra đã được chọn lọc từ quá trình brainstorm ngay trước đó.
- Tôi sẽ không nói mô hình ngôn ngữ lớn hoàn toàn không có trí thông minh. Vì chúng dựa trên dự đoán, và tôi tin năng lực mà chúng ta nhận ra là trí thông minh chính là năng lực dự đoán. Vỏ não cũng tiến hóa để dự đoán.
  Dù vậy, trí thông minh không phải có hoặc không, mà nằm trên một phổ. Định nghĩa của tôi là “mức độ năng lực dự đoán đúng các kết quả tương lai dựa trên kinh nghiệm quá khứ”, và nó phụ thuộc vào các cơ chế mà một hệ thống, dù sinh học hay nhân tạo, có thể dùng để nhận diện mẫu và dự đoán.
  Trí thông minh cũng phụ thuộc vào kinh nghiệm, vì ta không thể nhận ra những gì chưa từng trải nghiệm và do đó cũng không thể dự đoán. Tuy nhiên, có lẽ sẽ tốt hơn nếu có từ vựng tách biệt năng lực dự đoán và kinh nghiệm thay vì gộp cả hai vào “trí thông minh”.
  Khi so sánh bộ máy dự đoán của mô hình ngôn ngữ lớn với não người, còn thiếu rất nhiều thứ. “Suy nghĩ trước khi nói” là một trong số đó, và cách tiếp cận Q* hoặc kiểu cây suy nghĩ sẽ giúp ích ở đây.
  Có thể các cấu trúc lặp như vòng đồi thị-vỏ não cũng được lồng vào cách tiếp cận mô hình ngôn ngữ lớn/Transformer, nhưng tôi cho rằng mảnh ghép còn thiếu mang tính quyết định để đạt năng lực ngang người là học trực tuyến: khả năng hành động, quan sát kết quả và học từ đó.
  Với cách tiếp cận hiện nay, ta có thể tạo ra AGI “học từ sách”, nhưng kỹ năng thì không thể học nếu không luyện tập và thử nghiệm. Dù là lập trình viên hay gì đi nữa, chỉ đọc sách hoặc phân tích sản phẩm do người khác tạo ra là không đủ; cần hiểu các dự đoán và hành động của chính mình tạo ra kết quả gì trong thực tế rồi học từ đó.
- Andrej Karpathy cũng dẫn cùng cuốn sách và nói cùng ý chính trong video “[1hr Talk] Intro to Large Language Models” hồi tháng 11/2023.
  Liên kết tới đoạn liên quan: https://youtu.be/zjkBMFhNj_g?t=2120
- Chẳng phải phần lớn lập luận trong cuốn sách đó đã bị phản bác rồi sao? Tôi biết là một số đã được chính tác giả phản bác.
  Tôi đọc thấy thú vị và cũng cảm thấy có nhiều insight, nhưng sau đó một người bạn trong lĩnh vực đó nói với tôi rằng cuốn sách không chính xác và tác giả đã “rút lại” một số luận điểm.
- Người ta thường nói mô hình ngôn ngữ lớn không thật sự suy nghĩ, mà chỉ phản xạ tạo ra từ ngữ, chính xác hơn là luồng token, dựa trên văn bản đã đọc trước đó hoặc một phần cửa sổ phản hồi của chính nó. Điều đó đúng.
  Nhưng khi nói, tôi cũng có trải nghiệm là mình không biết mình sẽ nói gì cho đến khi nghe chính điều mình vừa nói.
  Đôi khi tôi cân nhắc và lập kế hoạch bằng cách thử câu chữ trong đầu, nhưng phần lớn thời gian, tôi có vẻ giống một mô hình ngôn ngữ lớn đang chỉ tạo ra luồng token.
Lại là một bài về học tăng cường có baseline quá tệ. GSM8k có định dạng đầu ra khá đặc thù, nhưng họ lại dùng Mistral tinh chỉnh không theo chỉ thị, 0-shot.
Sau cải tiến, độ chính xác là 11%, trong khi prompting few-shot đạt 37%[1]. GPT-4 có thể đạt khoảng 97% bằng prompting.
[1]: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderb...
- Với một nhà khoa học nghiêm túc, lấy các phương pháp và baseline đã biết rồi cải thiện chúng cũng là khoa học tốt.
  Cũng có thể mở rộng lên hiệu năng tối tân, nhưng mục tiêu có thể chỉ là đo tác động của thay đổi của họ trong một thiết lập đơn giản.
  Việc trộn lẫn nhiều tổ hợp hệ thống để tạo ra hiệu năng tối tân thì cứ để cho các kỹ sư làm.
Có liên quan đến Q* được đồn đại của OpenAI, tức mô hình q-star, không? Các tác giả bài này có vẻ không liên quan.
Chỉ là tên trùng ngẫu nhiên thôi à?
- Có vẻ họ chơi chữ với cùng một thuật ngữ được thổi phồng.
- Tôi cũng nghĩ vậy. Bài báo STaR mà bài này mở rộng đã ra năm 2022, nên ít nhất q-star cũng có khả năng dựa trên nó.
  Dù vậy, chữ Q có thể mang nghĩa khác.
Đây là mảnh ghép còn thiếu để huấn luyện AI có năng lực suy luận.
Có rất nhiều tác vụ biết đáp án nhưng thiếu các bước suy luận. Dùng phương pháp này có thể đạt được năng lực đó với ít dữ liệu chú thích hơn.
Điều thú vị là các suy nghĩ được tạo ra có thể khó hiểu với con người nhưng lại hữu ích hơn nhiều để tìm đáp án đúng.
Nếu vậy, chúng ta đã tạo ra một thứ thông minh hơn mình.
Sáng nay tôi đã thử một thứ về cơ bản là tương tự ở mức prompt, nhưng kết quả rất tệ. Tuy nhiên, ý tưởng thô trong đầu tôi còn đi xa hơn: đưa vào các meta token điều khiển luồng để giúp mô hình ngôn ngữ lớn tự khám phá lại ngữ cảnh của chính nó
Từ góc nhìn này, có thể hình dung lại ngữ cảnh như một mind map có cấu trúc và tự chỉnh sửa; ngữ cảnh tuyến tính tại một thời điểm T cụ thể sẽ là dấu vết thực thi cho đến hiện tại của quá trình khám phá mind map đó
Một số meta token có thể có tác dụng phụ như nhấn mạnh, cấu trúc hóa, tóm tắt, quên đi một phần ngữ cảnh, v.v.
Như vậy có thể cho phép đầu ra có cấu trúc native, triển khai bộ nhớ, v.v. mà không cần các định dạng cú pháp như json hay cấu trúc lập trình kiểu LMQL
Mục tiêu không chỉ là trao cho mô hình ngôn ngữ lớn năng lực logic/suy luận, mà còn trao cho nó phương tiện để tạo ra kiến trúc nhận thức của riêng mình
Nếu dùng token ... trong đầu ra có cấu trúc để triển khai cả bộ nhớ hay scratchpad, ta còn có thêm khả năng kiểm tra những cấu trúc nhận thức như vậy
Tất nhiên tôi hoàn toàn không biết phải triển khai thế nào. Vì tôi chỉ là khách du lịch trong lĩnh vực machine learning
Họ không trích dẫn bài báo về tính toán biến thiên được học trong RNN áp dụng cho mô hình hóa ngôn ngữ [1], vốn ra đời trước công trình của họ gần 8 năm
[1] https://openreview.net/pdf?id=S1LVSrcge
Microsoft cũng có thứ tương tự vào thời điểm đó cho nhận dạng ảnh. Cách làm là dùng CNN cho đầu vào và thực hiện tính toán biến thiên ở bước phân loại
Dùng Base Mistral 7B để đánh giá gần như là không phù hợp. Một nhóm ở Intel cũng đã cố dùng đúng chiêu này với NeuralChat https://huggingface.co/Intel/neural-chat-7b-v3#quantitative-...
Câu “phần lớn ý nghĩa của văn bản nằm giữa các dòng chữ. Nếu không hiểu vì sao những câu đó xuất hiện trong tài liệu, người đọc chỉ có một sự hiểu biết nông” có vẻ không đúng với cách tôi đọc, cũng như với hầu hết những người tôi biết
Hầu như lúc nào chúng ta cũng có một mô hình thế giới, và ở mức nào đó biết vì sao những câu như vậy xuất hiện trong sách
Khi đọc giáo trình cơ học chất lưu, có thể tôi không hiểu phần toán, nhưng tôi vẫn biết những câu đó là các phát biểu toán học nhằm giúp học lý thuyết và chúng tuân theo một khuôn mẫu để giảng dạy các khái niệm quan trọng
Ví dụ, các khái niệm được xây dựng dựa trên những khái niệm trước đó. Phương trình Bernoulli xuất hiện vì trước đó đã có định luật bảo toàn năng lượng, và nó ở đó vì giả định rằng tôi hiểu điều sau

Quiet-STaR: Có thể dạy mô hình ngôn ngữ tự suy nghĩ trước khi nói

Dùng văn bản thông thường làm đối tượng học suy luận

Mở rộng STaR sang mô hình hóa ngôn ngữ

Quy trình huấn luyện: think, talk, learn

Các thách thức triển khai để mô hình suy nghĩ ở mọi token

Thiết lập thí nghiệm và kết quả

Đóng góp của Quiet-STaR

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News