Nghiên cứu của Stanford Law cho thấy AI đạt kết quả tốt hơn cả giáo sư luật
(law.stanford.edu)- Trong một nghiên cứu của Stanford Law School, các giáo sư luật đã áp đảo trong việc ưu tiên câu trả lời do AI tạo ra hơn câu trả lời của đồng nghiệp cho câu hỏi của sinh viên, cho thấy kết quả có thể ảnh hưởng đến cách cung cấp giáo dục luật
- Trong đánh giá mù với 16 giáo sư luật từ các trường luật Mỹ tham gia, đã có khoảng 3.000 lượt so sánh ẩn danh được thực hiện, và AI ghi nhận tỷ lệ thắng 75% trong so sánh trực tiếp với câu trả lời của giáo sư
- Những người tham gia đã tạo ra 40 câu hỏi mà sinh viên có thể hỏi sau giờ học luật hợp đồng hoặc trong giờ office hours và tự trả lời chúng, sau đó đánh giá câu trả lời của AI và đồng nghiệp mà không biết nguồn gốc
- Các giáo sư đánh dấu câu trả lời của AI là có hại về mặt giáo dục với tỷ lệ 3,5%, trong khi câu trả lời của đồng nghiệp là 12%, và hệ thống AI cho thấy hiệu suất tương đương với giảng viên con người tốt nhất trong nghiên cứu
- Kết quả không trực tiếp ủng hộ việc triển khai toàn diện gia sư AI, nhưng cung cấp cơ sở để thảo luận về cách triển khai có trách nhiệm ngay cả trong các lĩnh vực coi trọng phán đoán như luật học
Thiết kế nghiên cứu và kết quả chính
- Nghiên cứu “Law Professors Prefer AI Over Peer Answers” do giáo sư Julian Nyarko của Stanford Law School dẫn dắt đã kiểm chứng liệu mô hình ngôn ngữ lớn có thể đóng vai trò gia sư hiệu quả cho môn luật hợp đồng hay không
- Có 16 giáo sư luật từ các trường luật Mỹ tham gia nghiên cứu, và những người tham gia đã tạo ra 40 câu hỏi tiêu biểu về luật hợp đồng mà sinh viên có thể hỏi sau giờ học hoặc trong giờ office hours rồi tự trả lời chúng
- Các giáo sư đánh giá mà không biết câu trả lời đến từ AI hay từ một giáo sư tham gia khác, và trong khoảng 3.000 lượt so sánh ẩn danh, câu trả lời của AI đạt tỷ lệ thắng trực tiếp 75%
- Nhóm nghiên cứu đã điều chỉnh độ dài và cấu trúc của câu trả lời AI cho phù hợp với câu trả lời của con người, sử dụng nhiều phương pháp đánh giá, đồng thời yêu cầu các giáo sư đánh giá liệu câu trả lời có thể gây hiểu lầm hoặc khiến sinh viên bối rối hay không
- Hệ thống AI đạt hiệu suất tương đương với giảng viên con người tốt nhất trong nghiên cứu, và tỷ lệ bị các giáo sư đánh dấu là có hại về mặt giáo dục là 3,5% với câu trả lời AI so với 12% với câu trả lời của đồng nghiệp
Ý nghĩa và giới hạn đối với giáo dục luật
- Luật học là lĩnh vực thường không có đáp án rõ ràng, nơi các lập luận đối lập đều có thể thuyết phục, nên phán đoán, suy luận tinh tế và khả năng xử lý sự mơ hồ là rất quan trọng
- Nhóm nghiên cứu cũng xem xét nhiều mô hình AI, bao gồm các hệ thống gia sư thương mại và NotebookLM của Google, và hiệu năng có khác nhau giữa các mô hình
- Ngay cả khi giới hạn ngữ cảnh ảnh hưởng đến câu trả lời của AI, các giáo sư vẫn thường ưu tiên câu trả lời của AI hơn các phương án thay thế do con người viết
- Các trường luật đang phải cân nhắc việc tích hợp công cụ AI vào giáo dục luật trong khi vẫn duy trì các tiêu chuẩn học thuật nghiêm ngặt, đồng thời xem xét các rủi ro như ảo giác, phụ thuộc quá mức và suy giảm năng lực tư duy phản biện
- Nghiên cứu đã đánh giá chất lượng câu trả lời do công cụ AI tạo ra, nhưng cách triển khai nào cải thiện việc học của sinh viên hiệu quả nhất vẫn là câu hỏi mở; cuộc thảo luận cần chuyển từ việc AI có thể đưa ra câu trả lời chính xác và chất lượng cao hay không sang cách triển khai có trách nhiệm để thực sự mang lại lợi ích cho sinh viên
1 bình luận
Ý kiến trên Hacker News
Nghiên cứu này khá đáng ngờ. Cần đào sâu thêm, nhưng với người đọc thì rõ ràng phải có khá nhiều dấu hiệu cảnh báo vang lên rất to
Figure 2 (trang 6) trông có nhiều vấn đề. Chỉ có 16 giáo sư mà mỗi người lại bị đem ra so sánh 3 nghìn lần, kết quả theo từng giáo sư cũng rất thất thường. Phương sai rất lớn nên trông giống dấu hiệu cho thấy nghiên cứu không có sức mạnh thống kê đủ ý nghĩa
Ngoài ra, trong kết quả chính chỉ có model của Google, nên cũng thấy một sự thiên lệch khá rõ. Các model khác xuất hiện ở chỗ khác, vậy tại sao lại vắng mặt ở phần kết quả cốt lõi thì thật khó hiểu
Tôi không phải chuyên gia pháp lý, nhưng khá rành về thống kê, và tôi có thể tự tin nói bài này có mùi không ổn. Chưa thể khẳng định là nhảm nhí, nhưng cờ đỏ thì ở khắp nơi
Các giáo sư, với vai trò người chấm, đã thực hiện 2.918 so sánh mù theo kiểu buộc phải chọn một đáp án, số trung vị theo từng người chấm là 200, và mỗi lần họ chọn giữa câu trả lời đã được ẩn danh của giảng viên và câu trả lời của LLM xem họ muốn đưa cái nào cho sinh viên
Tôi còn thấy cả bài lấy phỏng vấn và protocol ném vào ChatGPT rồi lấy kết quả ra, thế mà vẫn được gọi là “phương pháp luận”. Nó còn qua phản biện đồng cấp và được xuất bản luôn
Có lẽ có thể giải thích chuyện này giống phim Hollywood. Nếu một bộ phim được làm để làm hài lòng số đông nhất có thể, thì khả năng nó được người ta chọn sẽ cao hơn những phim khác
Giáo sư luật là con người nên cá tính, niềm tin và quan điểm riêng sẽ hiện ra trong bài viết, còn LLM thì được huấn luyện để làm hài lòng công chúng rộng nhất. Nhưng điều đó không có nghĩa là câu trả lời tốt hơn. Cũng như Captain America không nhất thiết là phim hay hơn American Beauty
Với tư cách là kỹ sư phần mềm, tôi có chút trực giác về việc giao loại công việc nào cho agent thì sẽ nguy hiểm
Nhưng khi giao cho AI soạn thảo tài liệu pháp lý, tôi lại chưa có trực giác tương tự đã được hiệu chỉnh về những gì có thể xảy ra sai sót. Những việc như lập di chúc thoạt nhìn có vẻ vô hại, nhưng thực ra tôi không chắc. Hệ thống pháp lý nổi tiếng là đầy cạm bẫy
Nó rất dễ chèn vào những câu trích dẫn nghe có vẻ thuyết phục từ các vụ án khác, trông như chứng minh hoàn hảo cho lập luận mình muốn, rồi còn bịa cả tên vụ án nghe như thật như United States v. Shenzhou Electronics Inc. Có lần tôi rà lại vài lượt, không thấy trích dẫn giả nào nên yên tâm, vậy mà sang đơn tiếp theo nó lại đột nhiên nhét vào ba cái
Dù vậy, luật sư nào không dùng LLM cho nghiên cứu thì đang tụt lại phía sau. Nó giỏi đến mức khó tin trong việc tìm ra những án lệ ngách mà một mình bạn gần như chắc chắn sẽ không bao giờ tìm thấy. Trước đây việc tìm kiếm thường phụ thuộc nhiều vào khớp chính xác từ khóa, mà trong nghiên cứu pháp lý điều đó về bản chất nhiều khi vô dụng. Bạn cần một thứ có thể tìm với các điều kiện mơ hồ hơn, và AI làm việc đó rất tốt. Chỉ là kết quả thì nhất định phải kiểm chứng. LLM của Lexis Nexis hay Westlaw có lẽ sẽ tốt hơn mô hình đa dụng
LLM là một trợ lý pháp lý tuyệt vời. Nếu làm công việc pháp lý thì chỉ riêng việc dùng nó để tung ý tưởng cũng đã nên làm. Cũng rất tốt khi giao cho nó đóng vai luật sư phản biện ở phía đối lập. Một người bạn của tôi luôn bắt nó đóng vai luật sư bên kia để kiểm tra hết mọi phản biện có thể xuất hiện
Cũng giống hệt phát triển phần mềm. Nếu đầu ra bạn tạo ra là thứ quan trọng thì phải kiểm tra đầu ra
Cảm giác giống như so sánh việc tôi, một quản trị viên hệ thống, đi tìm kiếm với việc Jane bên phòng kế toán đi tìm kiếm. Người dùng cuối không có nền tảng kỹ thuật dễ làm vấn đề tệ hơn nhiều, hoặc dễ cài thứ gì đó đáng ngờ từ các kết quả tìm kiếm đầy quảng cáo. Tôi hay nhân viên helpdesk thì ít có khả năng làm vậy hơn
Tôi sẽ không tin vào việc dùng AI để viết tài liệu pháp lý quan trọng mà không có tư vấn của luật sư. Tương tự, tôi cũng không muốn phụ thuộc vào việc luật sư của tôi dùng AI để viết code cho tôi
Tài liệu pháp lý không có kiểm thử tự động, kiểu tĩnh, môi trường test, ghi log/quan sát được, hay sandbox
Độ trễ thời gian giữa lúc soạn xong và lúc “triển khai” cũng khiến vòng lặp gỡ lỗi kém hiệu quả hơn nhiều và đắt đỏ hơn. Với code, bạn có thể triển khai lên môi trường production chỉ trong vài giây, nhìn lỗi trong log rồi debug ngay. Nhưng lỗi trong hợp đồng hay tài liệu nộp tòa thường phải ít nhất vài ngày, và nhiều khi vài năm sau mới bị phát hiện; đến lúc đó thì thường đã không thể sửa được nữa. Vì vậy lỗi vừa khó phát hiện hơn vừa khó xử lý hơn
Hệ quả của lỗi nhìn chung cũng lớn hơn rất nhiều. Một phần vì có thể không sửa được, và một phần vì lỗi pháp lý có thể đặt sinh mạng, tự do, hoặc tài sản đáng kể của ai đó vào tình thế rủi ro. Tất nhiên bug trong các hệ thống an toàn trọng yếu có thể tệ ngang hoặc còn tệ hơn sai sót pháp lý, nên đây không phải ranh giới tuyệt đối. Dù vậy, nói chung thì phần lớn phần mềm có mức rủi ro thấp hơn phần lớn tài liệu pháp lý
Ngược lại, có vẻ LLM làm tốt phần phong cách và cấu trúc cơ bản của tài liệu pháp lý hơn là code. Chẳng hạn như bám theo định dạng IRAC, gắn trích dẫn cho mệnh đề pháp lý, hay viết câu dễ hiểu. Dĩ nhiên, hallucination vẫn là vấn đề. Nếu quy sang code thì điều này tương ứng với các thông lệ tốt như comment tốt, tính kết dính, dùng nhất quán các mẫu thiết kế, độ bao phủ kiểm thử, tên biến rõ ràng, DRY
Việc nó làm tốt hơn ở những chỉ dấu mang tính định tính này có thể là vì ngay cả tài liệu pháp lý dài nhất cũng thường đơn giản hơn về cấu trúc và có ít dòng văn bản hơn một codebase lớn, phức tạp. Hoặc cũng có thể vì LLM được huấn luyện bằng văn bản ngôn ngữ tự nhiên nhiều hơn code, hay vì ngôn ngữ tự nhiên dễ dung thứ hơn code. Những khác biệt nhỏ trong cách diễn đạt hay ngữ pháp có thể không ảnh hưởng lớn đến cách diễn giải tài liệu, trong khi một lỗi chỉ một ký tự trong code có thể gây tác động rất lớn
Ngay cả khi nghiên cứu cụ thể này có dở đi nữa thì nhìn chung cũng không quá đáng ngạc nhiên
Trong công việc pháp lý có những mảng phân tích lượng lớn văn bản, rút ra kết luận rồi dựa trên đó viết ra văn bản khác. Đó đúng nghĩa là sở trường của LLM
Những kiểu luật sư đó phải là những người đứng đầu hàng chờ thất nghiệp. Không phải lập trình viên, thực sự không cùng đẳng cấp để so sánh
Có thể thực thi logic và tạo vòng lặp bằng đầu ra. Dễ thiết lập học tăng cường hữu ích hơn, cũng dễ tạo dữ liệu học tổng hợp hơn. Việc dùng công cụ và song song hóa agent cũng được hỗ trợ tự nhiên. Tích hợp API cũng dễ hơn nếu so với số ít API mà hệ thống tòa án cung cấp
Lập trình mã hóa tường minh các tầng trừu tượng ở mức hàm và mô-đun, nên dễ biểu diễn thành đồ thị tri thức, suy luận và xây dựng chồng lên hơn là với các mảnh văn bản
AI giống như lớp vảy trên vết thương. Nó tạm thời vá chỗ hở và lao vào lấp chỗ trống, nhưng sẽ không phải lời giải cuối cùng
Các mô hình đã cho thấy cả phần mềm lẫn pháp lý đều tồn tại một nhu cầu khổng lồ chưa được đáp ứng về năng lực đọc hiểu. Giờ lựa chọn là xử lý các nguyên nhân cấu trúc tạo ra nhu cầu chưa được đáp ứng đó, hoặc phủ chồng nhiều lớp vảy AI lên để che đi
Nó tập trung nhiều hơn vào việc phân tích và tóm tắt văn bản có sẵn, và bản thân những văn bản đó cũng dễ được dùng hơn cho việc huấn luyện LLM. Chẳng hạn như luật, án lệ, tạp chí luật và giáo trình
Vì vậy đây có lẽ là loại công việc pháp lý dễ LLM hóa nhất, nhưng đồng thời cũng có thể là loại có giá trị thấp nhất. Các giáo sư luật đâu được trả như luật sư BigLaw. Cách tiếp cận này sẽ không mở rộng nguyên trạng. Không có nghĩa AI không thể đột phá vào BigLaw, nhưng đó sẽ là một thách thức khác
Tôi hiểu vì sao thảo luận về bài này lại đi theo hướng đó, nhưng bản thân nghiên cứu tập trung vào khả năng LLM hoạt động như gia sư cho sinh viên luật. Mở rộng sang chuyện LLM có thay thế luật sư hay không thì thú vị, nhưng đó không phải nội dung nghiên cứu đề cập
Nếu đóng khung là dùng LLM làm gia sư pháp lý và giảm chi phí giáo dục luật, thì đây có vẻ là một kết quả tích cực về mặt xã hội. Hơn nữa, nếu các hệ thống LLM hiện đại có thể truy cập tài liệu tham khảo pháp lý, thì trực giác cũng cho thấy chúng có thể trả lời toàn diện câu hỏi do sinh viên đặt ra và cung cấp gợi ý hoặc tham chiếu trực tiếp đến tài liệu học tập hay nguồn gốc. Kết quả nghiên cứu dường như cũng theo hướng đó
Các tác giả nhấn mạnh một cách rõ ràng và có chủ đích rằng nhiều câu hỏi pháp lý không phải là những đáp án tính toán tách biệt mà cần được đặt trong ngữ cảnh. Kết quả nghiên cứu gợi ý rằng các hệ thống dựa trên LLM, thông qua “việc tạo ra thuật toán khớp tối ưu xác suất” của các mô hình ngôn ngữ hiện đại, có thể đặt câu hỏi của sinh viên vào ngữ cảnh phù hợp, giải thích các đánh đổi hay độ phức tạp nội tại trong câu hỏi, và quan trọng là giải thích sự phức tạp đó cho sinh viên theo tiêu chuẩn chuyên môn của nhà giáo dục pháp lý
Trên thực tế, tôi hy vọng kết quả này có thể mang lại cho độc giả HN thêm chút tự tin rằng khi đặt câu hỏi pháp lý cho LLM, họ có thể mong đợi một câu trả lời giải thích được sự phức tạp của luật liên quan đến câu hỏi đó. Đó là tin tốt, và nếu có thời gian thì đây rất có thể là bước chuẩn bị tối thiểu mà chúng ta nên làm trước khi thực sự tham vấn luật sư
Mặt khác, tôi không nghĩ nghiên cứu này phát đi tín hiệu rằng LLM đã sẵn sàng để thực sự cung cấp tư vấn pháp lý trực tiếp. Nó giống với việc giáo trình luật không thể thay thế tư vấn pháp lý, hay chính xác hơn là việc bạn tình cờ tìm thấy một vụ việc pháp lý gần giống hoàn cảnh của mình cũng không đảm bảo cùng một kết quả
Figure I.1 nói lên rất nhiều điều. Độ dài câu trả lời lại là biến dự đoán mạnh nhất cho tỷ lệ thắng. Điều này có thể là do lỗi phương pháp luận của nghiên cứu
Các giáo sư được yêu cầu trả lời ngắn gọn. Kiểu như “xin viết ngắn gọn. Dự kiến mỗi câu trả lời sẽ không mất quá 3 phút để soạn”, nên có lẽ họ đã bị thiên về viết ngắn. Trong bối cảnh đã chủ ý viết súc tích, các giáo sư cũng có thể đã không bỏ nhiều công sức cho câu trả lời viết ra. Đây không phải kiểu tiêu đề mà các tác giả đang nghĩ tới
Tôi ngạc nhiên là Stanford Law lại đồng ý với một tiêu đề thông cáo báo chí cường điệu như vậy. Có lẽ nên là kiểu “Đối với các câu hỏi hợp đồng năm nhất điển hình, các giáo sư luật ưu tiên câu trả lời do AI tạo ra hơn câu trả lời do giáo sư tạo ra” mới đúng chăng
Phỏng đoán tốt nhất của tôi là Gemini đã được huấn luyện trên chính giáo trình mà các câu hỏi này muốn kiểm tra, nên có thể mạnh hơn ở khả năng nhớ lại tường minh đối với chính các câu hỏi đó hoặc các câu hỏi liên quan
Nhìn vào phần phương pháp luận của bài báo thì đây là một khóa nhập môn khá hạn chế
Chỉnh sửa: Tôi vừa biết Google là một trong những nhà tài trợ lớn của HAI. Vậy thì nghiên cứu này ít nhất cũng được tài trợ một phần bởi Google. Có lẽ đó cũng là lý do các tác giả không thể tuyên bố là không có xung đột lợi ích
Lĩnh vực pháp lý về bản chất cực kỳ phù hợp với các mô hình ngôn ngữ AI. Về cơ bản, mọi thứ đều dựa trên văn bản liên kết với nhau
Tôi nghĩ ở đây có thể sẽ có một làn sóng sa thải còn lớn hơn cả trong ngành IT. Tuy nhiên cũng có khả năng vận động hành lang mạnh hơn sẽ xuất hiện, và họ sẽ cố thổi phồng mạnh giá trị công việc của mình để ngăn người ngoài xâm nhập
Nhưng làn sóng đó đã bắt đầu rồi, và sẽ cực kỳ lớn. Khách hàng doanh nghiệp đang yêu cầu sử dụng AI. Họ không muốn trả tiền cho việc một associate bỏ ra vài giờ viết bản nháp rồi partner xem lại. Họ muốn partner cấp cao nhất dùng AI rồi chỉ việc hiệu đính
Điều mà LLM không thể làm là giải thích vì sao nó đã nói như vậy khi bị phản vấn. Nó chỉ ảo giác ra lời giải thích tốt nhất về lý do ai đó có thể đã nói điều mình vừa nói, và cũng có thể đưa ra những lý do nghe có vẻ hợp lý cho việc người khác lẽ ra đã nói điều khác
Câu hỏi như “Vì sao lại nói điều này mà không nói điều kia?” không khiến cơ sở của lời nói được nêu rõ, mà chỉ khiến nó tạo ra một phát biểu mới phức tạp hơn
Nhưng có những kỹ thuật cấu trúc ngữ cảnh cho LLM giúp cố định kết quả hoàn chỉnh vào một cấu trúc dữ liệu. Cấu trúc dữ liệu đó giữ nguyên cấu trúc của các lập luận nâng đỡ kết luận chứa trong câu trả lời hoàn chỉnh. Việc tổ chức logic trong ngôn ngữ là một lĩnh vực rất phong phú nên có nhiều mẫu khác nhau, và thứ tôi thích nhất là Claim Dependency Graph, mô hình hóa quan hệ giữa các mệnh đề nguyên tử bằng các cạnh của đồ thị
Có rất nhiều phép toán có thể thực hiện trên cấu trúc này, và “hãy tái dựng cách đi đến kết luận này” rõ ràng cũng là một trong số đó
Ngay cả với những suy nghĩ đã được cân nhắc kỹ hơn, nếu may mắn ta có thể nhớ được “dấu vết suy luận”, nhưng khả năng tự phản tư của chúng ta cũng chỉ đến vậy. Trừ khi là nhà thần kinh học, chúng ta thậm chí còn không biết mình có bao nhiêu nơ-ron, càng không biết chúng tạo ra suy nghĩ như thế nào
Suy luận có động cơ lại càng cản trở sự tự phản tư, và khi cộng thêm sự thiếu trung thực cùng lỗi giao tiếp thì ngay cả lượng thông tin hạn chế còn lại cũng không thể được truyền đạt đúng cho nhau
Nghiên cứu về khả năng diễn giải mô hình đã tiến bộ rất nhiều. Theo cách nhìn còn gây tranh cãi, thậm chí có thể nói rằng hiện nay ta đã giải thích được quá trình ra quyết định của AI tốt hơn của não người
Cách yêu cầu LLM chú thích nguồn, cũng như với con người, có thể làm tăng mạnh việc đối sánh mẫu mô phỏng logic một cách gần sát
Tôi hiểu câu hỏi “Vì sao lại nói điều này mà không nói điều kia” là gì. Chỉ là tôi cũng đã thấy những cách hỏi khác để LLM không phản ứng thái quá theo hướng ngược lại