1 điểm bởi GN⁺ 2 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Trong một nghiên cứu của Stanford Law School, các giáo sư luật đã áp đảo trong việc ưu tiên câu trả lời do AI tạo ra hơn câu trả lời của đồng nghiệp cho câu hỏi của sinh viên, cho thấy kết quả có thể ảnh hưởng đến cách cung cấp giáo dục luật
  • Trong đánh giá mù với 16 giáo sư luật từ các trường luật Mỹ tham gia, đã có khoảng 3.000 lượt so sánh ẩn danh được thực hiện, và AI ghi nhận tỷ lệ thắng 75% trong so sánh trực tiếp với câu trả lời của giáo sư
  • Những người tham gia đã tạo ra 40 câu hỏi mà sinh viên có thể hỏi sau giờ học luật hợp đồng hoặc trong giờ office hours và tự trả lời chúng, sau đó đánh giá câu trả lời của AI và đồng nghiệp mà không biết nguồn gốc
  • Các giáo sư đánh dấu câu trả lời của AI là có hại về mặt giáo dục với tỷ lệ 3,5%, trong khi câu trả lời của đồng nghiệp là 12%, và hệ thống AI cho thấy hiệu suất tương đương với giảng viên con người tốt nhất trong nghiên cứu
  • Kết quả không trực tiếp ủng hộ việc triển khai toàn diện gia sư AI, nhưng cung cấp cơ sở để thảo luận về cách triển khai có trách nhiệm ngay cả trong các lĩnh vực coi trọng phán đoán như luật học

Thiết kế nghiên cứu và kết quả chính

  • Nghiên cứu “Law Professors Prefer AI Over Peer Answers” do giáo sư Julian Nyarko của Stanford Law School dẫn dắt đã kiểm chứng liệu mô hình ngôn ngữ lớn có thể đóng vai trò gia sư hiệu quả cho môn luật hợp đồng hay không
  • Có 16 giáo sư luật từ các trường luật Mỹ tham gia nghiên cứu, và những người tham gia đã tạo ra 40 câu hỏi tiêu biểu về luật hợp đồng mà sinh viên có thể hỏi sau giờ học hoặc trong giờ office hours rồi tự trả lời chúng
  • Các giáo sư đánh giá mà không biết câu trả lời đến từ AI hay từ một giáo sư tham gia khác, và trong khoảng 3.000 lượt so sánh ẩn danh, câu trả lời của AI đạt tỷ lệ thắng trực tiếp 75%
  • Nhóm nghiên cứu đã điều chỉnh độ dài và cấu trúc của câu trả lời AI cho phù hợp với câu trả lời của con người, sử dụng nhiều phương pháp đánh giá, đồng thời yêu cầu các giáo sư đánh giá liệu câu trả lời có thể gây hiểu lầm hoặc khiến sinh viên bối rối hay không
  • Hệ thống AI đạt hiệu suất tương đương với giảng viên con người tốt nhất trong nghiên cứu, và tỷ lệ bị các giáo sư đánh dấu là có hại về mặt giáo dục là 3,5% với câu trả lời AI so với 12% với câu trả lời của đồng nghiệp

Ý nghĩa và giới hạn đối với giáo dục luật

  • Luật học là lĩnh vực thường không có đáp án rõ ràng, nơi các lập luận đối lập đều có thể thuyết phục, nên phán đoán, suy luận tinh tế và khả năng xử lý sự mơ hồ là rất quan trọng
  • Nhóm nghiên cứu cũng xem xét nhiều mô hình AI, bao gồm các hệ thống gia sư thương mại và NotebookLM của Google, và hiệu năng có khác nhau giữa các mô hình
  • Ngay cả khi giới hạn ngữ cảnh ảnh hưởng đến câu trả lời của AI, các giáo sư vẫn thường ưu tiên câu trả lời của AI hơn các phương án thay thế do con người viết
  • Các trường luật đang phải cân nhắc việc tích hợp công cụ AI vào giáo dục luật trong khi vẫn duy trì các tiêu chuẩn học thuật nghiêm ngặt, đồng thời xem xét các rủi ro như ảo giác, phụ thuộc quá mức và suy giảm năng lực tư duy phản biện
  • Nghiên cứu đã đánh giá chất lượng câu trả lời do công cụ AI tạo ra, nhưng cách triển khai nào cải thiện việc học của sinh viên hiệu quả nhất vẫn là câu hỏi mở; cuộc thảo luận cần chuyển từ việc AI có thể đưa ra câu trả lời chính xác và chất lượng cao hay không sang cách triển khai có trách nhiệm để thực sự mang lại lợi ích cho sinh viên

1 bình luận

 
Ý kiến trên Hacker News
  • Nghiên cứu này khá đáng ngờ. Cần đào sâu thêm, nhưng với người đọc thì rõ ràng phải có khá nhiều dấu hiệu cảnh báo vang lên rất to
    Figure 2 (trang 6) trông có nhiều vấn đề. Chỉ có 16 giáo sư mà mỗi người lại bị đem ra so sánh 3 nghìn lần, kết quả theo từng giáo sư cũng rất thất thường. Phương sai rất lớn nên trông giống dấu hiệu cho thấy nghiên cứu không có sức mạnh thống kê đủ ý nghĩa
    Ngoài ra, trong kết quả chính chỉ có model của Google, nên cũng thấy một sự thiên lệch khá rõ. Các model khác xuất hiện ở chỗ khác, vậy tại sao lại vắng mặt ở phần kết quả cốt lõi thì thật khó hiểu
    Tôi không phải chuyên gia pháp lý, nhưng khá rành về thống kê, và tôi có thể tự tin nói bài này có mùi không ổn. Chưa thể khẳng định là nhảm nhí, nhưng cờ đỏ thì ở khắp nơi

    • Đúng là vậy, nhưng 2 năm trước còn là kiểu “AI là một công cụ ấn tượng nhưng sẽ không thay thế lao động tri thức”, giờ đã thành “nghiên cứu nói nó đánh bại lao động tri thức hàng đầu có thể có lỗi phương pháp luận”. Chắc 2 năm nữa là xong thật
    • Hơn thế nữa, toàn bộ cấu trúc nghiên cứu này có vẻ vô nghĩa. Họ dựng nó theo dạng hỏi/đáp rồi để con người đánh giá câu trả lời, mà đó lại đúng nghĩa là công việc LLM được huấn luyện để làm. Rốt cuộc chỉ là thuyết phục con người bấm nút “câu trả lời này tốt hơn”
    • Tách riêng khỏi chuyện cả bài có thể khá mơ hồ, điều thú vị là tỷ lệ gây hại của Instructor 3 và 8 còn thấp hơn LLM khá nhiều, nhưng mức độ được ưa thích lại không phải cao nhất. Mức độ gây hại biến động ngược chiều với mức độ ưa thích, nhưng không hoàn hảo. Có vẻ ngay cả trong lựa chọn của chuyên gia thì một mức độ cuốn hút nào đó vẫn có ảnh hưởng
    • Con số 3 nghìn có vẻ xuất phát từ đây, và đã được giải thích trong bài
      Các giáo sư, với vai trò người chấm, đã thực hiện 2.918 so sánh mù theo kiểu buộc phải chọn một đáp án, số trung vị theo từng người chấm là 200, và mỗi lần họ chọn giữa câu trả lời đã được ẩn danh của giảng viên và câu trả lời của LLM xem họ muốn đưa cái nào cho sinh viên
    • Xem các bài báo gần đây thì ngày càng thấy kiểu “phỏng vấn 8 người rồi rút kết luận dựa trên ý kiến chuyên gia”. Lĩnh vực AI và an ninh mạng đặc biệt đầy những thứ như vậy
      Tôi còn thấy cả bài lấy phỏng vấn và protocol ném vào ChatGPT rồi lấy kết quả ra, thế mà vẫn được gọi là “phương pháp luận”. Nó còn qua phản biện đồng cấp và được xuất bản luôn
  • Có lẽ có thể giải thích chuyện này giống phim Hollywood. Nếu một bộ phim được làm để làm hài lòng số đông nhất có thể, thì khả năng nó được người ta chọn sẽ cao hơn những phim khác
    Giáo sư luật là con người nên cá tính, niềm tin và quan điểm riêng sẽ hiện ra trong bài viết, còn LLM thì được huấn luyện để làm hài lòng công chúng rộng nhất. Nhưng điều đó không có nghĩa là câu trả lời tốt hơn. Cũng như Captain America không nhất thiết là phim hay hơn American Beauty

  • Với tư cách là kỹ sư phần mềm, tôi có chút trực giác về việc giao loại công việc nào cho agent thì sẽ nguy hiểm
    Nhưng khi giao cho AI soạn thảo tài liệu pháp lý, tôi lại chưa có trực giác tương tự đã được hiệu chỉnh về những gì có thể xảy ra sai sót. Những việc như lập di chúc thoạt nhìn có vẻ vô hại, nhưng thực ra tôi không chắc. Hệ thống pháp lý nổi tiếng là đầy cạm bẫy

    • Tôi đã dùng khá nhiều AI LLM đa dụng, như Claude hay GPT thông thường, để soạn thảo tài liệu pháp lý. Cạm bẫy lớn nhất là trích dẫn án lệ bị bịa ra
      Nó rất dễ chèn vào những câu trích dẫn nghe có vẻ thuyết phục từ các vụ án khác, trông như chứng minh hoàn hảo cho lập luận mình muốn, rồi còn bịa cả tên vụ án nghe như thật như United States v. Shenzhou Electronics Inc. Có lần tôi rà lại vài lượt, không thấy trích dẫn giả nào nên yên tâm, vậy mà sang đơn tiếp theo nó lại đột nhiên nhét vào ba cái
      Dù vậy, luật sư nào không dùng LLM cho nghiên cứu thì đang tụt lại phía sau. Nó giỏi đến mức khó tin trong việc tìm ra những án lệ ngách mà một mình bạn gần như chắc chắn sẽ không bao giờ tìm thấy. Trước đây việc tìm kiếm thường phụ thuộc nhiều vào khớp chính xác từ khóa, mà trong nghiên cứu pháp lý điều đó về bản chất nhiều khi vô dụng. Bạn cần một thứ có thể tìm với các điều kiện mơ hồ hơn, và AI làm việc đó rất tốt. Chỉ là kết quả thì nhất định phải kiểm chứng. LLM của Lexis Nexis hay Westlaw có lẽ sẽ tốt hơn mô hình đa dụng
      LLM là một trợ lý pháp lý tuyệt vời. Nếu làm công việc pháp lý thì chỉ riêng việc dùng nó để tung ý tưởng cũng đã nên làm. Cũng rất tốt khi giao cho nó đóng vai luật sư phản biện ở phía đối lập. Một người bạn của tôi luôn bắt nó đóng vai luật sư bên kia để kiểm tra hết mọi phản biện có thể xuất hiện
      Cũng giống hệt phát triển phần mềm. Nếu đầu ra bạn tạo ra là thứ quan trọng thì phải kiểm tra đầu ra
    • Có lẽ điều này đúng với hầu hết các nghề nghiệp chuyên môn. AI phát huy hiệu quả nhất khi được dùng bởi người vốn đã rất hiểu kỹ năng hay nghề đó
      Cảm giác giống như so sánh việc tôi, một quản trị viên hệ thống, đi tìm kiếm với việc Jane bên phòng kế toán đi tìm kiếm. Người dùng cuối không có nền tảng kỹ thuật dễ làm vấn đề tệ hơn nhiều, hoặc dễ cài thứ gì đó đáng ngờ từ các kết quả tìm kiếm đầy quảng cáo. Tôi hay nhân viên helpdesk thì ít có khả năng làm vậy hơn
      Tôi sẽ không tin vào việc dùng AI để viết tài liệu pháp lý quan trọng mà không có tư vấn của luật sư. Tương tự, tôi cũng không muốn phụ thuộc vào việc luật sư của tôi dùng AI để viết code cho tôi
    • Với tư cách vừa là luật sư vừa là kỹ sư phần mềm, cảm nhận của tôi đến nay là tỷ lệ lỗi của LLM trong code và trong soạn thảo tài liệu pháp lý khá giống nhau. Chỉ là trong bối cảnh pháp lý thì vấn đề nghiêm trọng hơn nhiều. Vì tài liệu pháp lý không có nhiều cơ chế an toàn mang tính cấu trúc như trong code
      Tài liệu pháp lý không có kiểm thử tự động, kiểu tĩnh, môi trường test, ghi log/quan sát được, hay sandbox
      Độ trễ thời gian giữa lúc soạn xong và lúc “triển khai” cũng khiến vòng lặp gỡ lỗi kém hiệu quả hơn nhiều và đắt đỏ hơn. Với code, bạn có thể triển khai lên môi trường production chỉ trong vài giây, nhìn lỗi trong log rồi debug ngay. Nhưng lỗi trong hợp đồng hay tài liệu nộp tòa thường phải ít nhất vài ngày, và nhiều khi vài năm sau mới bị phát hiện; đến lúc đó thì thường đã không thể sửa được nữa. Vì vậy lỗi vừa khó phát hiện hơn vừa khó xử lý hơn
      Hệ quả của lỗi nhìn chung cũng lớn hơn rất nhiều. Một phần vì có thể không sửa được, và một phần vì lỗi pháp lý có thể đặt sinh mạng, tự do, hoặc tài sản đáng kể của ai đó vào tình thế rủi ro. Tất nhiên bug trong các hệ thống an toàn trọng yếu có thể tệ ngang hoặc còn tệ hơn sai sót pháp lý, nên đây không phải ranh giới tuyệt đối. Dù vậy, nói chung thì phần lớn phần mềm có mức rủi ro thấp hơn phần lớn tài liệu pháp lý
      Ngược lại, có vẻ LLM làm tốt phần phong cách và cấu trúc cơ bản của tài liệu pháp lý hơn là code. Chẳng hạn như bám theo định dạng IRAC, gắn trích dẫn cho mệnh đề pháp lý, hay viết câu dễ hiểu. Dĩ nhiên, hallucination vẫn là vấn đề. Nếu quy sang code thì điều này tương ứng với các thông lệ tốt như comment tốt, tính kết dính, dùng nhất quán các mẫu thiết kế, độ bao phủ kiểm thử, tên biến rõ ràng, DRY
      Việc nó làm tốt hơn ở những chỉ dấu mang tính định tính này có thể là vì ngay cả tài liệu pháp lý dài nhất cũng thường đơn giản hơn về cấu trúc và có ít dòng văn bản hơn một codebase lớn, phức tạp. Hoặc cũng có thể vì LLM được huấn luyện bằng văn bản ngôn ngữ tự nhiên nhiều hơn code, hay vì ngôn ngữ tự nhiên dễ dung thứ hơn code. Những khác biệt nhỏ trong cách diễn đạt hay ngữ pháp có thể không ảnh hưởng lớn đến cách diễn giải tài liệu, trong khi một lỗi chỉ một ký tự trong code có thể gây tác động rất lớn
    • Nói rằng lập di chúc là vô hại thì hoàn toàn không đúng. Nếu bạn là người thi hành di sản phải xử lý một di chúc AI bị làm hỏng thì chắc chắn không hề vô hại. Mùa xuân này tôi đã giải quyết di sản của cha mình, và ngay cả một di sản đơn giản nhất cũng là một quy trình bực bội và rối rắm
    • Tôi không xem việc lập di chúc là vô hại. Nếu viết sai, người thân gần gũi sẽ phải gánh một mớ rắc rối lớn và có thể phải trải qua thủ tục chứng thực di chúc kéo dài hàng tháng hoặc hàng năm
  • Ngay cả khi nghiên cứu cụ thể này có dở đi nữa thì nhìn chung cũng không quá đáng ngạc nhiên
    Trong công việc pháp lý có những mảng phân tích lượng lớn văn bản, rút ra kết luận rồi dựa trên đó viết ra văn bản khác. Đó đúng nghĩa là sở trường của LLM
    Những kiểu luật sư đó phải là những người đứng đầu hàng chờ thất nghiệp. Không phải lập trình viên, thực sự không cùng đẳng cấp để so sánh

    • Về mặt lý thuyết, việc một thứ là sở trường của LLM không có nghĩa là LLM có thể làm được công việc đó. Bỏ qua các niềm tin có sẵn, chuyện này vẫn cần được chứng minh. Luật là một hệ thống liên quan trực tiếp đến sinh mạng và phải trải qua mức độ kiểm chứng cao nhất
    • Nói đó là sở trường của LLM thì đúng. Nhưng xét về mặt ứng dụng LLM, lập trình có nhiều lợi thế hơn pháp lý
      Có thể thực thi logic và tạo vòng lặp bằng đầu ra. Dễ thiết lập học tăng cường hữu ích hơn, cũng dễ tạo dữ liệu học tổng hợp hơn. Việc dùng công cụ và song song hóa agent cũng được hỗ trợ tự nhiên. Tích hợp API cũng dễ hơn nếu so với số ít API mà hệ thống tòa án cung cấp
      Lập trình mã hóa tường minh các tầng trừu tượng ở mức hàm và mô-đun, nên dễ biểu diễn thành đồ thị tri thức, suy luận và xây dựng chồng lên hơn là với các mảnh văn bản
    • Cả trong lập trình lẫn pháp lý đều thấy cùng một vấn đề của AI
      AI giống như lớp vảy trên vết thương. Nó tạm thời vá chỗ hở và lao vào lấp chỗ trống, nhưng sẽ không phải lời giải cuối cùng
      Các mô hình đã cho thấy cả phần mềm lẫn pháp lý đều tồn tại một nhu cầu khổng lồ chưa được đáp ứng về năng lực đọc hiểu. Giờ lựa chọn là xử lý các nguyên nhân cấu trúc tạo ra nhu cầu chưa được đáp ứng đó, hoặc phủ chồng nhiều lớp vảy AI lên để che đi
    • Đối tượng của nghiên cứu này là người trong giới học thuật. Không phải hạ thấp họ hay công việc của họ, nhưng nó rất khác với công việc giao dịch hay tố tụng ở BigLaw
      Nó tập trung nhiều hơn vào việc phân tích và tóm tắt văn bản có sẵn, và bản thân những văn bản đó cũng dễ được dùng hơn cho việc huấn luyện LLM. Chẳng hạn như luật, án lệ, tạp chí luật và giáo trình
      Vì vậy đây có lẽ là loại công việc pháp lý dễ LLM hóa nhất, nhưng đồng thời cũng có thể là loại có giá trị thấp nhất. Các giáo sư luật đâu được trả như luật sư BigLaw. Cách tiếp cận này sẽ không mở rộng nguyên trạng. Không có nghĩa AI không thể đột phá vào BigLaw, nhưng đó sẽ là một thách thức khác
  • Tôi hiểu vì sao thảo luận về bài này lại đi theo hướng đó, nhưng bản thân nghiên cứu tập trung vào khả năng LLM hoạt động như gia sư cho sinh viên luật. Mở rộng sang chuyện LLM có thay thế luật sư hay không thì thú vị, nhưng đó không phải nội dung nghiên cứu đề cập
    Nếu đóng khung là dùng LLM làm gia sư pháp lý và giảm chi phí giáo dục luật, thì đây có vẻ là một kết quả tích cực về mặt xã hội. Hơn nữa, nếu các hệ thống LLM hiện đại có thể truy cập tài liệu tham khảo pháp lý, thì trực giác cũng cho thấy chúng có thể trả lời toàn diện câu hỏi do sinh viên đặt ra và cung cấp gợi ý hoặc tham chiếu trực tiếp đến tài liệu học tập hay nguồn gốc. Kết quả nghiên cứu dường như cũng theo hướng đó
    Các tác giả nhấn mạnh một cách rõ ràng và có chủ đích rằng nhiều câu hỏi pháp lý không phải là những đáp án tính toán tách biệt mà cần được đặt trong ngữ cảnh. Kết quả nghiên cứu gợi ý rằng các hệ thống dựa trên LLM, thông qua “việc tạo ra thuật toán khớp tối ưu xác suất” của các mô hình ngôn ngữ hiện đại, có thể đặt câu hỏi của sinh viên vào ngữ cảnh phù hợp, giải thích các đánh đổi hay độ phức tạp nội tại trong câu hỏi, và quan trọng là giải thích sự phức tạp đó cho sinh viên theo tiêu chuẩn chuyên môn của nhà giáo dục pháp lý
    Trên thực tế, tôi hy vọng kết quả này có thể mang lại cho độc giả HN thêm chút tự tin rằng khi đặt câu hỏi pháp lý cho LLM, họ có thể mong đợi một câu trả lời giải thích được sự phức tạp của luật liên quan đến câu hỏi đó. Đó là tin tốt, và nếu có thời gian thì đây rất có thể là bước chuẩn bị tối thiểu mà chúng ta nên làm trước khi thực sự tham vấn luật sư
    Mặt khác, tôi không nghĩ nghiên cứu này phát đi tín hiệu rằng LLM đã sẵn sàng để thực sự cung cấp tư vấn pháp lý trực tiếp. Nó giống với việc giáo trình luật không thể thay thế tư vấn pháp lý, hay chính xác hơn là việc bạn tình cờ tìm thấy một vụ việc pháp lý gần giống hoàn cảnh của mình cũng không đảm bảo cùng một kết quả

    • Có vẻ nó cho thấy LLM đủ thông minh để được sử dụng trong bối cảnh giáo dục pháp lý
  • Figure I.1 nói lên rất nhiều điều. Độ dài câu trả lời lại là biến dự đoán mạnh nhất cho tỷ lệ thắng. Điều này có thể là do lỗi phương pháp luận của nghiên cứu
    Các giáo sư được yêu cầu trả lời ngắn gọn. Kiểu như “xin viết ngắn gọn. Dự kiến mỗi câu trả lời sẽ không mất quá 3 phút để soạn”, nên có lẽ họ đã bị thiên về viết ngắn. Trong bối cảnh đã chủ ý viết súc tích, các giáo sư cũng có thể đã không bỏ nhiều công sức cho câu trả lời viết ra. Đây không phải kiểu tiêu đề mà các tác giả đang nghĩ tới

  • Tôi ngạc nhiên là Stanford Law lại đồng ý với một tiêu đề thông cáo báo chí cường điệu như vậy. Có lẽ nên là kiểu “Đối với các câu hỏi hợp đồng năm nhất điển hình, các giáo sư luật ưu tiên câu trả lời do AI tạo ra hơn câu trả lời do giáo sư tạo ra” mới đúng chăng

    • Tiêu đề đã chỉnh sửa đó là chính xác. Thật lạ khi các học giả lại nghe như các CEO phòng thí nghiệm hàng đầu đang thổi phồng định giá doanh nghiệp bằng những tuyên bố khoa trương
  • Phỏng đoán tốt nhất của tôi là Gemini đã được huấn luyện trên chính giáo trình mà các câu hỏi này muốn kiểm tra, nên có thể mạnh hơn ở khả năng nhớ lại tường minh đối với chính các câu hỏi đó hoặc các câu hỏi liên quan
    Nhìn vào phần phương pháp luận của bài báo thì đây là một khóa nhập môn khá hạn chế

    • Ngoài ra, nghiên cứu này được thực hiện tại viện HAI của Stanford, có vẻ mang thiên lệch rõ rệt, và lạ là bài báo lại thiếu tuyên bố xung đột lợi ích
      Chỉnh sửa: Tôi vừa biết Google là một trong những nhà tài trợ lớn của HAI. Vậy thì nghiên cứu này ít nhất cũng được tài trợ một phần bởi Google. Có lẽ đó cũng là lý do các tác giả không thể tuyên bố là không có xung đột lợi ích
  • Lĩnh vực pháp lý về bản chất cực kỳ phù hợp với các mô hình ngôn ngữ AI. Về cơ bản, mọi thứ đều dựa trên văn bản liên kết với nhau
    Tôi nghĩ ở đây có thể sẽ có một làn sóng sa thải còn lớn hơn cả trong ngành IT. Tuy nhiên cũng có khả năng vận động hành lang mạnh hơn sẽ xuất hiện, và họ sẽ cố thổi phồng mạnh giá trị công việc của mình để ngăn người ngoài xâm nhập

    • Với tư cách là luật sư, tôi thấy trực giác đó về LLM là đúng. Luật là kiểu trò chơi ngôn ngữ mà LLM làm tốt
      Nhưng làn sóng đó đã bắt đầu rồi, và sẽ cực kỳ lớn. Khách hàng doanh nghiệp đang yêu cầu sử dụng AI. Họ không muốn trả tiền cho việc một associate bỏ ra vài giờ viết bản nháp rồi partner xem lại. Họ muốn partner cấp cao nhất dùng AI rồi chỉ việc hiệu đính
  • Điều mà LLM không thể làm là giải thích vì sao nó đã nói như vậy khi bị phản vấn. Nó chỉ ảo giác ra lời giải thích tốt nhất về lý do ai đó có thể đã nói điều mình vừa nói, và cũng có thể đưa ra những lý do nghe có vẻ hợp lý cho việc người khác lẽ ra đã nói điều khác
    Câu hỏi như “Vì sao lại nói điều này mà không nói điều kia?” không khiến cơ sở của lời nói được nêu rõ, mà chỉ khiến nó tạo ra một phát biểu mới phức tạp hơn

    • Đúng trong những trường hợp đơn giản
      Nhưng có những kỹ thuật cấu trúc ngữ cảnh cho LLM giúp cố định kết quả hoàn chỉnh vào một cấu trúc dữ liệu. Cấu trúc dữ liệu đó giữ nguyên cấu trúc của các lập luận nâng đỡ kết luận chứa trong câu trả lời hoàn chỉnh. Việc tổ chức logic trong ngôn ngữ là một lĩnh vực rất phong phú nên có nhiều mẫu khác nhau, và thứ tôi thích nhất là Claim Dependency Graph, mô hình hóa quan hệ giữa các mệnh đề nguyên tử bằng các cạnh của đồ thị
      Có rất nhiều phép toán có thể thực hiện trên cấu trúc này, và “hãy tái dựng cách đi đến kết luận này” rõ ràng cũng là một trong số đó
    • Con người có động cơ thực sự để định hình khuôn khổ của những suy nghĩ được biểu đạt. Còn LLM thì sẽ tạo ra những suy nghĩ được sinh mới để đáp lại dòng chảy của câu hỏi
    • Có lẽ điều tương tự cũng đúng với con người. Trong đối thoại, chúng ta thường trả lời theo bản năng và chỉ dựng lên sự hợp lý hóa ngược lại khi được yêu cầu
      Ngay cả với những suy nghĩ đã được cân nhắc kỹ hơn, nếu may mắn ta có thể nhớ được “dấu vết suy luận”, nhưng khả năng tự phản tư của chúng ta cũng chỉ đến vậy. Trừ khi là nhà thần kinh học, chúng ta thậm chí còn không biết mình có bao nhiêu nơ-ron, càng không biết chúng tạo ra suy nghĩ như thế nào
      Suy luận có động cơ lại càng cản trở sự tự phản tư, và khi cộng thêm sự thiếu trung thực cùng lỗi giao tiếp thì ngay cả lượng thông tin hạn chế còn lại cũng không thể được truyền đạt đúng cho nhau
      Nghiên cứu về khả năng diễn giải mô hình đã tiến bộ rất nhiều. Theo cách nhìn còn gây tranh cãi, thậm chí có thể nói rằng hiện nay ta đã giải thích được quá trình ra quyết định của AI tốt hơn của não người
    • LLM ảo giác vì con người cũng ảo giác
      Cách yêu cầu LLM chú thích nguồn, cũng như với con người, có thể làm tăng mạnh việc đối sánh mẫu mô phỏng logic một cách gần sát
      Tôi hiểu câu hỏi “Vì sao lại nói điều này mà không nói điều kia” là gì. Chỉ là tôi cũng đã thấy những cách hỏi khác để LLM không phản ứng thái quá theo hướng ngược lại