Tác động tiêu cực của Chain-of-thought trong các tác vụ mà suy nghĩ làm suy giảm hiệu năng của con người

(arxiv.org)

1 điểm bởi GN⁺ 2024-11-01 | 1 bình luận | Chia sẻ qua WhatsApp

Chain-of-thought(CoT) thường được dùng như một chiến lược mặc định để cải thiện hiệu năng của LLM·LMM, nhưng khi chuyển 6 loại bài kiểm tra tâm lý học mà con người mắc lỗi vì suy ngẫm bằng ngôn ngữ sang bài đánh giá mô hình, hiệu năng ở một số tác vụ giảm mạnh
Mức giảm nổi bật ở học thống kê ngầm, nhận diện khuôn mặt khó diễn đạt bằng ngôn ngữ, và học quy tắc có ngoại lệ; OpenAI o1-preview trong bài học ngữ pháp nhân tạo có độ chính xác tuyệt đối thấp hơn GPT-4o zero-shot tới 36.3%
Trong nhận diện khuôn mặt, cả 6 LMM được thử nghiệm đều có hiệu năng thấp hơn ở điều kiện CoT; trong phân loại xe có ngoại lệ, GPT-4o cần số vòng lặp để học nhãn đúng tăng 331% so với direct prompting
Ở các tác vụ phán đoán bất nhất logic, trực giác không gian và tổng hợp sở thích đa chiều, CoT không gây hại một cách nhất quán; kiến thức logic sẵn có, ngữ cảnh dài và trải nghiệm cảm giác-vận động khác con người đã tạo ra khác biệt về kết quả
Các trường hợp con người suy nghĩ quá mức là đầu mối giúp tìm tác vụ CoT thất bại hiệu quả hơn ngẫu nhiên, nhưng việc dùng CoT hay không cần được quyết định dựa trên cả năng lực mô hình lẫn cấu trúc tác vụ

Rủi ro khi CoT trở thành mặc định

Chain-of-thought(CoT) là kỹ thuật prompting yêu cầu mô hình “hãy suy nghĩ từng bước” hoặc đưa cấu trúc suy luận trung gian vào câu trả lời
Các nghiên cứu meta quy mô lớn cho thấy CoT đặc biệt cải thiện hiệu năng ở các tác vụ toán học·suy luận ký hiệu, nhưng cũng ghi nhận suy giảm hiệu năng ở các lĩnh vực như phân loại văn bản
Trong các LLM·LMM mới nhất như dòng OpenAI o-series, giao diện web Claude và các mô hình thinking, suy luận tại thời gian suy luận đang dần trở thành thành phần mặc định
Phần còn thiếu là các mẫu hình chi tiết về những tình huống mà CoT làm suy giảm hiệu năng một cách có hệ thống
Nghiên cứu này dùng các bài toán tâm lý học nơi việc “suy nghĩ” lại có hại với con người làm đầu mối để tìm ra các tác vụ mà CoT cũng trở nên có hại với mô hình

6 loại đánh giá lấy từ tâm lý học con người

Các tác vụ tiêu biểu mà tư duy ngôn ngữ của con người làm suy giảm hiệu năng được tổng hợp thành 6 nguyên mẫu, rồi mở rộng từng nguyên mẫu thành bài đánh giá cho LLM·LMM
3 loại có suy giảm hiệu năng CoT rõ rệt:
- Học thống kê ngầm: phân loại xem chuỗi được tạo bởi ngữ pháp nhân tạo có thuộc cùng một mẫu hay không
- Kích thích khó biểu đạt bằng ngôn ngữ: nhìn mặt rồi tìm đúng người trong các ảnh ứng viên
- Học quy tắc có ngoại lệ: học nhãn gồm quy tắc chung gần như đúng và các ngoại lệ thông qua phản hồi lặp lại
3 loại mà suy giảm hiệu năng CoT không nhất quán:
- Tác vụ suy luận ngôn ngữ tự nhiên phán đoán các câu mâu thuẫn về mặt logic
- Tác vụ trực giác không gian ước lượng mực nước khi nghiêng cốc
- Tác vụ tổng hợp sở thích chọn phương án tốt nhất trong các căn hộ ứng viên có nhiều đặc trưng
6 bộ dữ liệu mở rộng được công bố tại human overthinking benchmark

Ba tác vụ mà CoT dao động mạnh

Học thống kê ngầm: phân loại ngữ pháp nhân tạo
- Các “từ” nhân tạo được tạo bằng finite-state grammar(FSG), và mô hình sau khi xem 15 ví dụ học sẽ phân loại xem chuỗi mới có đến từ cùng ngữ pháp hay không
- Tổng cộng 4,400 bài toán phân loại được tạo từ 100 FSG; với mỗi FSG, trong 44 từ thì 22 từ thuộc ngữ pháp và 22 từ được tạo bằng cách thay một ký tự của từ gốc
- Các mô hình được thử gồm OpenAI o1-preview, GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro, Llama 3·3.1 70B/8B Instruct
- CoT làm giảm độ chính xác ở phần lớn mô hình
  - o1-preview thấp hơn GPT-4o zero-shot 36.3% về độ chính xác tuyệt đối trên tập con 440 bài toán
  - GPT-4o giảm từ 87.50% zero-shot xuống 64.40% với CoT, tức giảm 23.10 điểm phần trăm
  - Claude 3 Opus giảm từ 70.70% xuống 62.70%, tức 8.00 điểm phần trăm
  - Gemini 1.5 Pro giảm từ 68.00% xuống 61.95%, tức 6.05 điểm phần trăm
  - Llama 3.1 70B Instruct giảm từ 65.90% xuống 57.10%, tức 8.80 điểm phần trăm
  - tree-of-thought và in-context reasoning steering có cải thiện hiệu năng phần nào, nhưng không thể thu hẹp đáng kể khoảng cách với hiệu năng zero-shot của GPT-4o
Nhận diện khuôn mặt: kích thích thị giác khó ngôn ngữ hóa
- Tác vụ verbal overshadowing kinh điển được chuyển sang cho LMM bằng cách yêu cầu chọn đúng người giống ảnh khuôn mặt ban đầu trong 5 ảnh ứng viên
- Bộ dữ liệu gồm 500 bài toán và 2,500 khuôn mặt duy nhất; các khuôn mặt ứng viên trong mỗi bài chia sẻ cùng mô tả về chủng tộc, giới tính, nhóm tuổi, màu mắt, độ dài tóc, màu tóc và kiểu tóc
- Ảnh được tạo bằng stable-image-ultra; 1 cặp ảnh cùng một người và 4 ảnh của người khác nhưng có cùng mô tả được dùng làm ứng viên
- Cả 6 LMM được thử đều suy giảm hiệu năng dưới CoT
- GPT-4o: 64.00% → 51.20%
- Claude 3 Opus: 44.00% → 29.60%
- Claude 3.5 Sonnet: 97.80% → 94.80%
- Gemini 1.5 Pro: 66.00% → 54.60%
- InternVL2 26B: 9.20% → 6.00%
- InternVL2 Llama3 76B: 15.77% → 13.77%
- Mức giảm tương tự cũng xuất hiện ở thiết lập giảm độ khó và thiết lập phân loại nhị phân, cho thấy CoT không chỉ làm nhiễu thứ tự ảnh mà còn ảnh hưởng tới chính quá trình suy luận
Học quy tắc có ngoại lệ: phân loại nhãn xe
- Trong tác vụ phân loại xe, mô hình gán nhãn nhị phân cho danh sách xe, nhận phản hồi sau mỗi dự đoán và lặp lại cho đến khi phân loại đúng toàn bộ nhãn trong một lượt
- Mỗi xe có 1 đặc trưng tương quan 80% với nhãn, 3 đặc trưng không liên quan đến nhãn, và 1 đặc trưng dùng để nhận diện riêng chiếc xe
- Nếu mô hình học quy tắc chung gần đúng thì sẽ thất bại ở ngoại lệ, còn nếu học được ánh xạ giữa đặc trưng nhận diện riêng và nhãn thì có thể đúng toàn bộ
- 2,400 xe được chia thành 240 danh sách, mỗi danh sách 10 xe, và đánh giá tối đa 15 vòng lặp
- CoT làm tăng mạnh số vòng lặp học nhãn ở mọi mô hình được đánh giá
- GPT-4o: direct 2.9 vòng → CoT 12.5 vòng, tăng 331%
- Claude 3.5 Sonnet: 2.3 vòng → 6.4 vòng, tăng 178%
- Claude 3 Opus: 2.4 vòng → 5.5 vòng, tăng 129%
- GPT-4o với direct prompting đạt phân loại hoàn chỉnh ở vòng lặp thứ 2~3, nhưng CoT trung bình sau 15 vòng vẫn chỉ dừng ở mức đúng 8/10 nhãn
- Nếu dùng steering prompt mạnh để yêu cầu khớp biển số, CoT cũng đạt mức zero-shot, nhưng CoT mặc định không chọn được không gian suy luận tối ưu

Ba tác vụ cho thấy khác biệt giữa con người và mô hình

Phán đoán bất nhất logic
- Trong thí nghiệm trên người, khi buộc người tham gia giải thích trước vì sao một cặp câu mâu thuẫn có thể cùng tồn tại, hiệu năng phán đoán mâu thuẫn thực tế giảm đi
- Đánh giá trên mô hình được mở rộng thành 3,216 bài toán dùng các cặp entailment từ SNLI, MNLI và bộ dữ liệu tổng hợp
- GPT-4o và Llama 3.1 70B Instruct cải thiện mạnh ở điều kiện CoT
- GPT-4o: MNLI 53.2% → 93.9%, SNLI 51.4% → 94.3%
- Llama 3.1 70B Instruct: MNLI 55.6% → 81.6%, SNLI 50.4% → 82.3%
- Người tham gia ban đầu được tuyển sao cho không có chuyên môn logic hình thức, nhưng LLM có thể đã tiếp xúc với kiến thức về câu đố logic và thao tác logic trong dữ liệu huấn luyện, nên CoT kết hợp với token bổ sung có thể nâng hiệu năng
- Ở các mô hình có hiệu năng zero-shot cao như Gemini 1.5 Pro và Claude 3 Opus, có xuất hiện một số suy giảm hiệu năng với CoT
Trực giác không gian
- Tác vụ nghiêng cốc yêu cầu chọn mực nước trong chiếc cốc rỗng sao cho khi nghiêng hai cốc cùng một góc, nước chạm mép ở cả hai bên
- Tác vụ gốc trên người dùng cách vẽ trực tiếp mực nước, nhưng đánh giá LMM được đổi thành bài toán ảnh trắc nghiệm với các lựa chọn A~D
- Tổng cộng 100 bài toán được tạo cùng với ảnh vẽ bằng mã, và GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro, InternVL2 Llama3 76B được đánh giá
- Không quan sát thấy khác biệt có ý nghĩa giữa zero-shot và CoT
- GPT-4o: 38% → 40%
- Claude 3.5 Sonnet: 42% → 38%
- Claude 3 Opus: 42% → 38%
- Gemini 1.5 Pro: 35% → 36%
- InternVL2 Llama3 76B: 39% → 31%
- Lợi thế của điều kiện phi ngôn ngữ ở con người bắt nguồn từ mô phỏng thị giác-vận động, nhưng trong thiết lập này khó có thể xem LMM là có biểu diễn dựa trên trải nghiệm vận động giống con người
Tổng hợp sở thích đa chiều
- Tác vụ chọn căn hộ yêu cầu xem nhiều đặc trưng của 4 căn hộ rồi chọn căn tốt nhất
- Trong thí nghiệm trên người, điều kiện làm nhiệm vụ gây xao nhãng sau khi tiếp nhận nhiều thông tin trong thời gian ngắn lại cho lựa chọn tốt hơn so với điều kiện suy ngẫm
- Đánh giá mô hình tạo ra 80 đặc trưng căn hộ cùng các câu tích cực·tiêu cực·trung tính cho từng đặc trưng, sau đó GPT-4o chấm mức ảnh hưởng của từng câu từ -5 đến 5 để tạo 300 bài toán lựa chọn
- Với GPT-4o, Claude 3.5 Sonnet và Claude 3 Opus, CoT nhìn chung làm tăng hiệu năng; còn Llama 3.1 70B Instruct có hiệu năng thấp vì thường không trả lại câu trả lời đúng định dạng ở điều kiện CoT
- Khác với trí nhớ làm việc của con người, mô hình có thể tham chiếu nhiều câu trong ngữ cảnh, nên CoT có thể hoạt động như cách cộng dồn tầm quan trọng của các đặc trưng

Kiểm chứng heuristic và giới hạn

Để kiểm tra liệu các tác vụ được chọn dựa trên các trường hợp con người suy nghĩ quá mức có thực sự tìm ra thất bại của CoT tốt hơn hay không, nghiên cứu dùng 378 phép so sánh zero-shot và CoT từ Sprague et al. 2025 làm chuẩn bootstrap
Khi rút ra 50 chênh lệch số liệu theo mô hình từ 6 tác vụ để so sánh, không có mẫu nào trong 100,000 lần lấy mẫu lại có mức suy giảm hiệu năng trung bình lớn hơn kết quả nghiên cứu
Ngay cả khi chỉ xét tần suất xảy ra suy giảm hiệu năng, chỉ có 11 trong 100,000 lần lấy mẫu lại suy giảm ở mức tương đương hoặc lớn hơn, nên giá trị p ước tính nhỏ hơn 0.00011
Heuristic dựa trên tâm lý học con người giúp tìm các trường hợp CoT thất bại tốt hơn ở cả độ lớn hiệu ứng lẫn tần suất xuất hiện
Tuy nhiên, heuristic này không bao quát mọi trường hợp CoT có hại, và có thể bỏ sót những thất bại không thú vị với con người nhưng quan trọng với mô hình

Hàm ý cho triển khai và đánh giá CoT

CoT là một cách hiệu quả để mở rộng năng lực mô hình, nhưng trong một số thiết lập cụ thể nó có thể làm giảm hiệu năng mạnh, nên việc áp dụng mặc định cần được xem xét theo từng tác vụ
Trong các tác vụ mà ngôn ngữ khó biểu đạt khác biệt cảm nhận tinh vi, các tác vụ cần nắm bắt ngầm các mẫu thống kê phức tạp, và các tác vụ học quy tắc có nhiều ngoại lệ, suy luận trung gian bằng ngôn ngữ có thể trở thành yếu tố cản trở
Không thể đồng nhất trực tiếp kết quả của con người và mô hình, và việc nhân cách hóa mô hình như con người không nằm trong phạm vi của nghiên cứu này
Cần phản ánh cả khác biệt giữa con người và mô hình vào đánh giá
- Mô hình có thể dùng ngữ cảnh dài hơn con người
- Mô hình có thể đã tiếp xúc với các mẫu logic và cách giải bài toán trong dữ liệu huấn luyện
- Mô hình có thể không chia sẻ mô phỏng dựa trên trải nghiệm vận động của con người
Trong tương lai, các cách dẫn dắt suy luận khác như prompting so sánh·tương tự cũng có thể được đánh giá bằng cách cùng xem xét kết quả tâm lý học con người và các ràng buộc của mô hình

1 bình luận

GN⁺ 2024-11-01

Ý kiến trên Hacker News

Rất giống một cách rợn người với vấn đề tôi gặp khi xây dựng quy trình làm việc người + LLM cho các tình huống rủi ro cao, độ phức tạp cao ở Pioneer
Con người thông minh, thực hiện rất nhiều phán đoán và tính toán một cách vô thức/ngầm định, và cũng dùng rất nhiều lối tắt tinh thần
Vì vậy khi cố tự động hóa bằng cách bám sát quy trình thực tế, phần tư duy ngầm định bị lôi ra bề mặt và mọi thứ chậm hẳn lại, nên chúng tôi cũng phải thay đổi khá sáng tạo cách xây dựng quy trình LLM
- Có vẻ ngôn ngữ đang bị nhầm lẫn với logic hay lẽ thường
  Điều này đã thấy trong tâm thần học hay báo chí hiện đại, nhưng nhờ LLM mà càng rõ: để tạo ra ngôn ngữ đúng ngữ pháp và trôi chảy tự nhiên thì chỉ cần mô hình “thế giới” của ngôn ngữ, còn hiểu biết thực tế, hiểu biết không gian, tín hiệu xã hội, logic thường thức, logic toán học gần như là tùy chọn
  Tôi muốn đề xuất gọi nền tảng ngôn ngữ của LLM là Word Model. Không phải gõ nhầm đâu
  Việc cố chưng cất world model từ Word Model có vẻ là một điểm khởi đầu tốt cho bản làm lại hiện đại của hang động Plato
- Đây không phải vấn đề về tốc độ, mà là độ chính xác của mô hình bị thụt lùi ở một số tác vụ khi dùng COT
  
  Trong các thí nghiệm diện rộng trên cả ba thiết lập, chúng tôi phát hiện nhiều mô hình hiện đại khác nhau suy giảm hiệu năng đáng kể so với mô hình đối ứng zero-shot khi sử dụng reasoning ở thời điểm suy luận. Ví dụ, OpenAI o1-preview giảm độ chính xác tuyệt đối tới 36.3% so với GPT-4o
  Nói cách khác, vấn đề được xác định ở đây là COT trên một số tác vụ kém hiệu quả hơn cả hoàn tất hội thoại không chỉnh sửa, chứ không chỉ đơn thuần làm mọi thứ chậm đi
Trước đây khi thử nghiệm tôi đã thấy LLM gặp kiểu vấn đề này
Tôi bảo nó sắp xếp ba loại trái cây theo thứ tự từ lớn đến nhỏ, hình như là cam, việt quất và bưởi
Với prompt đơn giản thì nó làm đúng dễ dàng, nhưng thêm câu kiểu “hãy nghĩ từng bước” thì nó thường bắt đầu giải bài bằng lời và lại sai
- Tôi tự hỏi điều này liên hệ đến cách chúng ta học toán đến mức nào
  Ta phần nào tiếp thu đáp án của các bài toán đơn giản một cách bản năng, và đến một lúc nào đó cũng hình thành trực giác với những thứ như tích phân hay vi phân
  Nhưng ngay khi bị yêu cầu giải thích tại sao, hoặc tệ hơn là phải chứng minh, thì mọi thứ khó hơn nhiều, dù đáp án ban đầu có thể đúng
- LLM không hề suy nghĩ; nó chỉ nén Internet thành một định dạng nén mất dữ liệu khéo léo rồi gắn vào một giao diện tốt để truy xuất ra
  Chuỗi suy nghĩ giống như nén đi nén lại nhiều lần để mong tăng chất lượng JPG. Không có trong đó thì là không có
- Suy nghĩ xem nó sai thế nào chắc sẽ thú vị
  Có lẽ ngay đầu đoạn “nghĩ từng bước” nó đã đi tới một kết luận sai, có khi còn là kết luận được suy ra khá tinh vi, và vì LLM rất kém trong việc quay lại sửa sai nên cuối cùng nó đi đến một kết luận sai nhưng nhất quán nội tại
  Với tôi, nhiều dạng COT trông như cách làm LLM chậm lại để ngăn việc chốt kết luận quá sớm; nhưng ngược lại, nếu kết luận sai xuất hiện từ sớm thì nó có thể phản tác dụng trong một bối cảnh còn tệ hơn so với khi không dùng COT
- Tôi luôn thấy thú vị khi thêm các điều kiện như màu sắc, mùi, vị trí vào bài toán sắp xếp thì kết quả lại khác
  Về bản chất, tôi hiểu điều đó là các điều kiện này tác động lên không gian xác suất, từ đó làm suy yếu những mẫu hình nổi sinh mà chúng ta thường đánh giá quá cao
- Câu trả lời của Claude là thế này
  Nếu liệt kê ba loại trái cây từ lớn đến nhỏ thì sẽ là bưởi, cam, việt quất
  Bưởi thường có đường kính khoảng 4–6 inch nên rõ ràng là lớn nhất trong ba loại, cam thường 2–3 inch, còn việt quất khoảng 0.5 inch nên nhỏ nhất
Nhìn theo cách khác, đây là một thuật toán tự động hoàn thành rất mạnh đang lặp đi lặp lại việc mở rộng các tài liệu sẵn có dựa trên tập huấn luyện
Đôi khi nếu can thiệp để buộc phong cách tài liệu chuyển sang một định dạng ít phổ biến hơn trong đối đáp hỏi-đáp, kết quả cuối cùng có thể kém mong muốn hơn
- Có lẽ một nửa HN sẽ nghĩ như vậy, còn nửa kia sẽ nhìn theo kiểu này
  Một bộ não nhân tạo ngay trước thời điểm kỳ dị lại vừa cho thấy thêm một dấu hiệu đang tiến gần ý thức. Hiệu năng của quá trình chuỗi suy nghĩ giống hệt con người, và đây là thêm một bằng chứng nữa cho thấy AGI sẽ đến trước năm 2030
- Cách đóng khung này dài hơn, khó nắm bắt hơn rất nhiều, và truyền tải ít thông tin hơn
Hơn nữa, chuỗi suy nghĩ rất tốn chi phí tính toán
Rõ ràng nó khó mà cung cấp miễn phí theo kiểu các sản phẩm Web 2.0 đời trước
Có vẻ không thể vắt ra AGI từ xác suất token chỉ bằng prompt lặp đi lặp lại
Khi nhìn lại sau này, nếu phải chọn một bài báo đã thúc đẩy sự sụp đổ và phát nổ của bong bóng AI, thì có khi chính là bài này
Phần “những tác vụ mà nghĩ ngợi khiến con người làm tệ hơn” thật thú vị

Ba trường hợp đó là học thống kê ngầm định, nhận thức thị giác, và phân loại mẫu có ngoại lệ
Thật hấp dẫn khi thấy bộ não thằn lằn của chúng ta lại giỏi suy luận thống kê ngầm định hơn
- Chỉ cần nghĩ đến việc chỉ với bộ não thằn lằn thôi, ta đã tính được quỹ đạo của quả bóng và vị trí cần đặt tay nhanh đến mức nào khi bắt bóng
- Tôi thấy theo định nghĩa thì suy nghĩ chẳng phải luôn là suy luận tường minh sao
  Và một phép ước lượng Fermi được cân nhắc kỹ có lẽ sẽ luôn thắng kiểu ước chừng bằng não thằn lằn. Chỉ là ở vùng trung gian thì hai bên dường như can thiệp bất lợi vào nhau
- Đây đúng là thứ tôi đang tìm
  Những việc mà ta nên tin vào trực giác thay vì suy nghĩ
Nó cho thấy điều thú vị về xử lý thông tin trong cả hệ sinh học lẫn hệ AI
Cả hai đều nén thông tin. Não bộ tạo ra các mẫu thần kinh hiệu quả thông qua trải nghiệm, còn AI phát triển các biểu diễn nội bộ thông qua huấn luyện
Khi bị buộc phải diễn đạt thành lời, phần mã hóa hiệu quả này bị “giải nén” và có thể làm mất những mẫu tinh tế
Vì vậy những tác vụ như nhận thức thị giác, vốn được tối ưu để diễn ra gần như tức thì bằng xử lý song song, nếu chuyển sang chuỗi suy nghĩ tuần tự thì chỉ làm hiệu năng giảm đi
95% × 95% = 90.25%
Thật sự rất thú vị. Rốt cuộc thì những tác vụ nào mà suy nghĩ lại khiến con người kém đi?
- Vận động viên khi bắt đầu nghĩ về chuyển động, chiến lược hay chiến thuật của mình sẽ chơi tệ đi rất nhiều
  Những vận động viên đỉnh cao làm tốt nhất khi ở trong trạng thái nhập tâm, không nghĩ gì cả và để cơ thể cùng trí nhớ cơ bắp tự vận hành
  Khoảnh khắc bạn nghĩ đến một chỉnh sửa vi mô kiểu phải nâng khuỷu tay cao hơn, bạn bắt đầu kiểm soát cơ thể một cách có ý thức, mà cách này chậm hơn và kém hài hòa hơn lối tự động, vô thức tới hơn một bậc độ lớn
  Sự sáng tạo hay ý tưởng mới cũng tương tự. Nếu bạn cố tình nghĩ từng bước về một thứ gì đó thì sẽ khó tìm ra lời giải mới lạ và đột phá hơn
  Có lý do khiến khoảnh khắc “à ha!” thường đến khi đang tắm: tiềm thức đang xử lý vấn đề thay vì bị ép đi theo một lộ trình tư duy cụ thể
  Có vẻ có khá nhiều lĩnh vực mà việc ép quá trình suy nghĩ đi qua một khuôn mẫu nhất định sẽ cản trở việc sử dụng toàn bộ tài nguyên và năng lực của bộ não
- Câu trả lời nằm ngay trong bài. Một trong các ví dụ là ngữ pháp
  Nhiều người được cho là sẽ làm tệ hơn ngay khi cố giải thích ngữ pháp bằng lời
- Với mật khẩu mạnh cũng vậy, nếu cố đánh vần từng ký tự trong đầu bạn có thể tự quên mất nó
  Nhưng khi ngồi trước bàn phím và thư giãn, bạn lại gõ chính xác hoàn toàn một cách tự động
Điều này làm tôi nhớ đến câu thần chú từng nghe trong lớp cờ vua
Nghĩ lâu thì nghĩ sai
- Nguyên văn của Bent Larsen là “Biến dài là biến sai”

Tác động tiêu cực của Chain-of-thought trong các tác vụ mà suy nghĩ làm suy giảm hiệu năng của con người

Rủi ro khi CoT trở thành mặc định

6 loại đánh giá lấy từ tâm lý học con người

Ba tác vụ mà CoT dao động mạnh

Học thống kê ngầm: phân loại ngữ pháp nhân tạo

CoT làm giảm độ chính xác ở phần lớn mô hình

Nhận diện khuôn mặt: kích thích thị giác khó ngôn ngữ hóa

Học quy tắc có ngoại lệ: phân loại nhãn xe

Ba tác vụ cho thấy khác biệt giữa con người và mô hình

Phán đoán bất nhất logic

Trực giác không gian

Tổng hợp sở thích đa chiều

Kiểm chứng heuristic và giới hạn

Hàm ý cho triển khai và đánh giá CoT

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News