- Khi LLM mô phỏng hoàn hảo chất lượng bề mặt, các chỉ số thay thế (proxy measure) vốn dùng để đánh giá chất lượng thực của lao động tri thức đang bị vô hiệu hóa
- Lao động tri thức vốn khó đánh giá chất lượng bản chất, nên từ trước đến nay phải dựa vào các chỉ số thay thế như mức độ hoàn chỉnh về hình thức của tài liệu, nhưng LLM có thể dễ dàng vượt qua các chỉ số này
- Mã nguồn và báo cáo do AI tạo ra trông có vẻ chuyên nghiệp, nhưng lại được thông qua khi độ chính xác hay tính hữu ích thực chất chưa được kiểm chứng
- Bản thân LLM cũng không được huấn luyện theo tiêu chí “có đúng đáp án không” mà là “trông có hợp lý không”, nên nó cũng mang trong mình chính vấn đề chỉ số thay thế đó
- Đây là lời cảnh báo rằng các hệ thống được tạo ra với khoản đầu tư hàng chục tỷ USD đang bị dùng như công cụ thực hiện ảo tượng của công việc, chứ không phải công việc thực sự
Vai trò và giới hạn của chỉ số thay thế (Proxy Measure)
- Khi nhận một báo cáo phân tích thị trường, việc loại bỏ toàn bộ báo cáo chỉ vì những lỗi bề mặt như sai ngày tháng, lỗi chính tả hay đồ thị trùng lặp là chuyện rất thường gặp
- Điều thực sự cần quan tâm là liệu báo cáo có phản ánh thực tế và dẫn tới các quyết định tốt hay không, nhưng chi phí để kiểm chứng trực tiếp điều đó lại rất cao
- Chất lượng bề mặt có chi phí kiểm chứng thấp và tương quan đủ mạnh với chất lượng thực, nên từ trước đến nay đã hoạt động như một chỉ số thay thế
- Vấn đề này tồn tại trong mọi loại lao động tri thức, và vì cần rất nhiều công sức để đánh giá khách quan chất lượng công việc của người khác nên cấu trúc này phụ thuộc rất lớn vào chỉ số thay thế
Cơ chế LLM vô hiệu hóa chỉ số thay thế
- Chỉ số thay thế trước đây đóng vai trò kiềm chế sự lệch pha về động cơ (misaligned incentives), nhưng LLM đã phá vỡ điều đó
- LLM đặc biệt xuất sắc trong việc mô phỏng phong cách viết, dù không tái hiện được chất lượng thực của công việc
- Nếu yêu cầu ChatGPT viết một báo cáo phân tích thị trường, kết quả sẽ trông như thể được viết bởi chuyên gia của một công ty tư vấn hàng đầu
- Khi kỹ sư phần mềm dùng AI để viết hàng nghìn dòng mã, nếu chỉ lướt qua trong vài giây thì nó trông như mã chất lượng cao
- Đồng nghiệp cũng giao việc review code cho AI, rồi xử lý cơ học các vấn đề được phát hiện, khiến chỉ còn nghi thức của công việc (ritual) được duy trì còn chất lượng thực chất thì không được đảm bảo
Cùng một vấn đề tồn tại ngay trong chính LLM
- Bản thân quá trình huấn luyện LLM cũng không đánh giá “câu trả lời có đúng không” hay “có hữu ích không”
- Tiêu chí huấn luyện thực chất là “đây có phải kiểu câu trả lời có khả năng xuất hiện trong dữ liệu huấn luyện không” hoặc “đây có phải câu trả lời khiến người chấm RLHF hài lòng không”
- Kết quả là LLM được tối ưu để tạo ra đầu ra trông như sản phẩm chất lượng cao, và năng lực tối ưu hóa theo hướng đó là cực kỳ mạnh
Cảnh báo về tình hình hiện tại
- Các hệ thống được tạo ra với hàng chục tỷ USD đang bị sử dụng để thực hiện mô phỏng/ảo tượng của công việc
- Các công ty đang cạnh tranh để giành vị trí số 1 trên bảng xếp hạng mức tiêu thụ token
- Càng tạo ra nhiều đầu ra từ LLM, người lao động lại càng ít thời gian xem xét kỹ chúng hơn
- Cuối cùng chỉ còn việc lướt qua, gắn nhãn “LGTM”, rồi mở phiên Claude Code thứ 17
1 bình luận
Ý kiến trên Hacker News
Cả lập luận trong bài rằng trước đây người ta dễ đánh giá chất lượng lao động tri thức của con người qua các chỉ dấu thay thế như lỗi chính tả hay lỗi vặt, lẫn lập luận rằng giờ AI không có những dấu hiệu đó nên thành vấn đề, đều không khiến tôi hoàn toàn đồng ý
Ngay từ đầu đã luôn có rất nhiều sản phẩm của con người mà về mặt khái niệm thì tệ hại, nhưng thông tin thực tế lại đúng và hình thức cũng chỉn chu
Nếu đã làm việc với khách hàng doanh nghiệp suốt 10 năm thì không thể nào nói thời pre-LLM là thời hoàng kim của lao động tri thức chất lượng cao; ngay khi đó cũng đã đầy rẫy thứ tạp nham kiểu mô phỏng vận hành được của lao động tri thức
Kết quả kém chất lượng của con người thường có nguyên nhân như thiếu hiểu biết, áp lực thời gian, mục tiêu ích kỷ, và các nguyên nhân đó khá nhất quán
Có thể nhận ra các mẫu độ tin cậy như một thực tập sinh cẩn thận nhưng chưa biết nhiều, hay một nhân sự kỳ cựu biết rất nhiều nhưng thiếu ngủ nên bỏ sót điều hiển nhiên
Nhưng AI thì có thể trong cùng một lần làm vừa hiện thực hóa bài báo một cách hoàn hảo, vừa mắc lỗi ở mức sinh viên năm nhất, nên nảy sinh tình huống phản trực giác là phải review như thể giả định hoàn toàn bất tài đối với một cỗ máy đôi khi lại thể hiện năng lực cực đoan
Nếu có lỗi chính tả hay lỗi thực tế cơ bản thì có thể loại dễ dàng, nhưng không có những lỗi đó không có nghĩa là chất lượng cao
Thường các phép kiểm tra này chỉ là cửa ải đầu tiên chứ không phải tất cả; vượt qua được cửa đó thì sẽ dễ nhìn ra vấn đề thật hơn
Cũng giống trong code, người ta dọn lint và style trước khi bàn tới reasoning
Vấn đề là bản thân người đó không biết 99% ấy là do AI tạo ra, nên rất dễ nhìn vào 100% các mẫu mình đã nhận ra rồi tưởng rằng mình lọc được toàn bộ văn bản AI
Từ trước tới nay, nhiều loại lao động tri thức vốn chỉ là vật thay thế cho thứ gì khác
Chất lượng kiểu không sai chính tả, trình bày ngay ngắn thường chủ yếu là tín hiệu của sự tôn trọng, giống như áo sơ mi trắng được là phẳng và cà vạt; cũng có nhiều tài liệu dài mà thực ra chẳng ai đọc kỹ
Rốt cuộc đó là một cách biểu tượng để thể hiện sự hy sinh và phục tùng, và LLM đang xóa bỏ hệ thống tín hiệu đó
Nếu trước đây người ta vốn cũng không thật sự nhìn vào chất lượng nội dung, thì ngay từ đầu nội dung đó hẳn đã không quá quan trọng
Trong giới học thuật, vấn đề chi phí thẩm định AI đã lộ ra, nhưng hơi khác với lý do bài viết nêu
Cốt lõi không hẳn là các dấu hiệu của sản phẩm thô kệch biến mất, mà là chi phí rà soát kỹ các sản phẩm tạo ra bằng AI đang trở nên quá lớn để con người tự gánh nổi
Ví dụ, phụ lục của các tạp chí kinh tế học có thể dài đến hàng trăm trang, trong khi thời gian con người có thể đọc thì hữu hạn
Tôi cũng tò mò liệu các tạp chí ở lĩnh vực khác có đang bị ép không chỉ bởi số lượng bài nộp mới tăng lên mà còn bởi cường độ thẩm định cần thiết để kiểm chứng từng bài hay không
Dưới mức đó, đôi khi gần như không thể phân biệt giữa cái gì đúng và cái gì chỉ trông có vẻ đúng
Khi dùng AI, tôi có cảm giác mình đang cargo-cult sự thấu hiểu
Tôi đang tái hiện bề mặt của việc đã hiểu điều gì đó, đồng thời tự tước đi thời gian và nỗ lực cần thiết để thực sự hiểu nó
Họ tin rằng chỉ cần nhét mọi thứ vào Claude — Snowflake Cortex, code tích hợp, tài liệu, vé Jira — là có thể hỏi gì cũng được và mọi thứ sẽ tốt hơn nhiều
Nhưng sự ám ảnh đó không tạo ra đầu ra lớn, và vài lần còn trực tiếp va phải sự bất toàn nghiêm trọng của công nghệ
Mọi người nói về agentic workflow và viễn cảnh một wiki nội bộ khổng lồ, còn tôi thì cứ đều đặn tạo ra kết quả bằng cách dùng AI để tăng khá nhiều tốc độ giao hàng nhưng không lãng phí thời gian vào những cuộc phiêu lưu hoành tráng
Cũng có sự mỉa mai ở chỗ những người từng chỉ trích việc công ty triển khai chatbot giờ lại đốt token để gom hàng nghìn tỷ file
.mdvà file skill rồi làm chatbot của riêng họĐiều thực sự đáng lo là tri thức thực của tổ chức ở cấp thể chế bị hao hụt trong những lối tắt như vậy
Các yêu cầu ví dụ đơn giản hay câu hỏi học khái niệm thì không sao, nhưng kiểu prompt bảo hãy rà soát công cụ và hạ tầng hiện tại để tăng tốc triển khai lên 5 lần, nghiên cứu web, rồi một lần tạo luôn đề xuất triển khai trong tổ chức và phân tích chi phí-lợi ích 5 năm thì đang làm con người tự suy yếu đi
Dạo này ai cũng ném đi khắp nơi những bản đề xuất do Claude tạo ra, còn quá trình tự đào sâu một chút hoặc cùng kiến trúc sư hay kỹ sư senior khám phá vấn đề thì bị bỏ qua
Kết quả là hiểu nhiều thứ chỉ ở mức hời hợt, khi bị hỏi sâu thì giải thích không tốt, lại tin câu trả lời AI đưa ra như một chiến lược chắc chắn nên không muốn bị chất vấn
Cơ hội học từ người có nhiều kinh nghiệm hơn cũng không còn được xem như trải nghiệm học tập
Cuối cùng tôi vẫn tin rằng bản thân não người vẫn là một trong những công nghệ đáng kinh ngạc nhất, và lại phải tự hỏi vì sao chúng ta cứ muốn dựng hẳn một thư viện nhân tạo khổng lồ bên ngoài chính mình
Như Bret Devereaux từng nói trong các bài phê bình Game Of Thrones, thế giới quan từ góc nhìn tinh hoa chỉ nghe hợp lý và giống utopia đối với chính giới tinh hoa
Kiểu bong bóng tách rời lao động thực tế này rồi sẽ nổ rất to, và khi quần chúng mất việc vì AI kêu rằng họ còn chẳng có bánh mì mà ăn, nếu đáp lại theo kiểu hãy ăn bánh ngọt đi thì cũng dễ hình dung một phản ứng ngược cỡ Cách mạng Pháp
Nhưng nếu nói về công cụ giúp thực sự muốn hiểu sâu, thì hiếm có thứ gì tốt bằng AI
Cuối cùng, hiểu một điều gì đó gần như đồng nghĩa với tự tay làm nó
Không hiểu cũng không sao, nhưng khi đó thì dù có hay không có các chỉ dấu thay thế, rốt cuộc vẫn chỉ còn cách tin vào sự hiểu biết của người khác
Hướng đi làm ít hơn và tin nhiều hơn có thể khả thi tới một mức nào đó, nhưng vượt quá mức ấy thì công việc của tương lai sẽ trở nên bấp bênh
simulacrumquả thật là một từ rất hayCó lẽ vì thế mà quản lý cấp trung trông như những tín đồ đầu tiên của chủ nghĩa tối thượng LLM
Quản lý cấp trung có rất nhiều động lực để tiếp tục ép lao động tri thức đi theo hướng trừu tượng hóa, ngoài cả năng lực thành thạo thực sự của vai trò, và có vẻ tầng trừu tượng đó lại đặc biệt dễ được mô tả trong embedding space
Code do AI viết thường trông tệ hơn thực tế
Nó quá dài dòng, rối rắm, nhét đầy fallback, nên khi có vấn đề thì chảy qua vô số
try/catchrồi đẩy stack trace sang những chỗ chẳng liên quanDù vậy, nếu chỉ xét chức năng thuần túy thì nhiều khi nó vẫn chạy tốt hơn code do người viết nhưng có bề ngoài tương tự
Vì cả người lẫn LLM đều khó suy luận về nó
Tôi mong có nhiều hơn kiểu văn phong blog như thế này
Độ dài vừa phải, thông điệp truyền đạt tốt, lại có tính kể chuyện
Dạo này có quá nhiều AI slop do LLM tạo ra dài như tiểu thuyết nên đọc bài như vậy càng thấy đáng quý hơn
Với nhiều người trong ngành, đây là một diễn biến khá hiển nhiên
Vấn đề là số tiền bị ràng buộc vào đó quá lớn, nên các tay chơi lớn vẫn cứ tiếp tục đẩy thứ họ muốn
Điều này khiến tôi tưởng tượng rằng các hạt dưới nguyên tử thực ra là những vũ trụ riêng, và tính chất của chúng phản ánh những thực thể từng thống trị các vũ trụ đó cùng dấu vết của hệ thống tự động hóa vẫn tiếp tục vận hành sau khi họ biến mất
Kiểu như những cỗ máy tự động thu hoạch entropy rồi tiếp tục tự nhân lên vậy
Chúng ta đang tạo ra một sức mạnh lớn hơn chính mình, và đến một lúc nào đó có thể chạm tới điểm không thể quay đầu
Nó khiến người ta liên tưởng đến vô số vũ trụ và nền văn minh hạ nguyên tử hưng thịnh rồi suy tàn, thậm chí bị các công nghệ giống trí tuệ tự trị nuốt chửng, và ở cấp vĩ mô thì điều đó bộc lộ ra dưới dạng hành vi của hạt
Giờ đây rốt cuộc chúng ta cũng đang tạo ra một hạt như thế, và những lựa chọn tập thể của chúng ta có lẽ sẽ tạo ra ảnh hưởng rất nhỏ nhưng vẫn có ý nghĩa lên vũ trụ cấp trên mà chúng ta thuộc về
Đầu ra của ai đó rồi cũng luôn trở thành đầu vào của người khác
Nếu dùng LLM để tăng sản lượng, người kế tiếp lại dùng LLM để parse nó và tạo ra đầu ra của mình
Cứ nối tiếp như thế, đến khi người tiêu dùng cuối cùng phàn nàn thì sẽ chẳng ai còn xác định được rốt cuộc sai ở đâu
Vì trước mắt chỉ còn người tiêu dùng cuối, còn tất cả những người khác thì nấp sau 7 tầng proxy