- Chất lượng của lao động tri thức rất khó được xác nhận nếu không trực tiếp làm lại kết quả, nên người ta thường phải dựa vào các chỉ dấu thay thế như mức độ hoàn thiện bề ngoài hơn là độ chính xác thực sự
- Khi xuất hiện các lỗi bề mặt như sai ngày tháng hay nhãn biểu đồ có vấn đề, người ta dễ loại bỏ toàn bộ sản phẩm dù không liên quan đến kết luận chính, và tiêu chí đánh giá cũng nghiêng về hình thức có thể kiểm tra rẻ hơn là mức độ phản ánh thực tế
- LLM có thể bắt chước rất tốt văn phong và định dạng trông có vẻ thuyết phục ngay cả khi không tái tạo được chất lượng công việc thực tế, nên quy trình mang tính nghi thức của báo cáo hay mã nguồn vẫn còn đó nhưng chất lượng bên dưới có thể rỗng tuếch
- Nếu tiêu chí được đo lường là chất lượng bề mặt, thì việc để LLM viết phần lớn đầu ra sẽ trở thành lựa chọn hợp lý, và ngay cả bản thân LLM cũng được tối ưu theo hướng đầu ra trông có chất lượng cao hơn là tính chân thực hay tính hữu ích
- Kết quả là những hệ thống trị giá hàng chục tỷ đô la dễ bị dùng cho mô phỏng công việc hơn là công việc thực sự, và luồng làm việc lướt qua cho xong rồi gắn LGTM tiếp tục kéo dài như một trạng thái tự động hóa của Goodhart's law
Cấu trúc và kết quả mà LLM đã thay đổi
- LLM bắt chước cực kỳ tốt văn phong và định dạng trông có vẻ thuyết phục ngay cả khi không tái tạo được chất lượng công việc thực tế
- Một báo cáo phân tích thị trường viết bằng ChatGPT có thể đọc và trông giống như sản phẩm đầu ra của một công ty tư vấn hàng đầu
- Kỹ sư phần mềm có thể tạo ra hàng nghìn dòng mã trông như chất lượng cao chỉ sau khi lướt qua nhanh, và đồng nghiệp lại có thể chạy review mã bằng AI để tìm vấn đề rồi sửa chúng
- Kết quả là quy trình mang tính nghi thức của công việc vẫn được giữ nguyên, nhưng chất lượng thực tế bên dưới có thể trống rỗng
- Nếu tiêu chí được đo lường là chất lượng bề mặt, thì người lao động hành xử theo cách trông tốt theo tiêu chí đó là điều hợp lý, nên phần lớn đầu ra sẽ do LLM viết
- Việc huấn luyện LLM cũng được điều chỉnh không phải theo hướng câu trả lời có đúng hay hữu ích hay không, mà theo hướng nó có giống thứ có thể xuất hiện trong tập dữ liệu huấn luyện hay làm người đánh giá RLHF hài lòng hay không
- Cuối cùng, bản thân LLM cũng được tối ưu để tạo ra đầu ra trông như có chất lượng cao
- Những hệ thống được xây dựng với chi phí hàng chục tỷ đô la rốt cuộc lại được dùng để thực hiện mô phỏng công việc hơn là công việc thực sự
- Các doanh nghiệp rơi vào trạng thái cạnh tranh xem ai dùng nhiều token hơn
- Người lao động càng tạo ra nhiều đầu ra từ LLM, thì thời gian họ dành để xem xét sâu các đầu ra đó lại càng ít đi
- Thứ còn lại chỉ là luồng làm việc lướt qua cho xong, gắn LGTM, rồi mở phiên Claude Code tiếp theo
1 bình luận
Ý kiến trên Hacker News
Cả lập luận trong bài rằng trước đây người ta dễ đánh giá chất lượng lao động tri thức của con người qua các chỉ dấu thay thế như lỗi chính tả hay lỗi vặt, lẫn lập luận rằng giờ AI không có những dấu hiệu đó nên thành vấn đề, đều không khiến tôi hoàn toàn đồng ý
Ngay từ đầu đã luôn có rất nhiều sản phẩm của con người mà về mặt khái niệm thì tệ hại, nhưng thông tin thực tế lại đúng và hình thức cũng chỉn chu
Nếu đã làm việc với khách hàng doanh nghiệp suốt 10 năm thì không thể nào nói thời pre-LLM là thời hoàng kim của lao động tri thức chất lượng cao; ngay khi đó cũng đã đầy rẫy thứ tạp nham kiểu mô phỏng vận hành được của lao động tri thức
Kết quả kém chất lượng của con người thường có nguyên nhân như thiếu hiểu biết, áp lực thời gian, mục tiêu ích kỷ, và các nguyên nhân đó khá nhất quán
Có thể nhận ra các mẫu độ tin cậy như một thực tập sinh cẩn thận nhưng chưa biết nhiều, hay một nhân sự kỳ cựu biết rất nhiều nhưng thiếu ngủ nên bỏ sót điều hiển nhiên
Nhưng AI thì có thể trong cùng một lần làm vừa hiện thực hóa bài báo một cách hoàn hảo, vừa mắc lỗi ở mức sinh viên năm nhất, nên nảy sinh tình huống phản trực giác là phải review như thể giả định hoàn toàn bất tài đối với một cỗ máy đôi khi lại thể hiện năng lực cực đoan
Nếu có lỗi chính tả hay lỗi thực tế cơ bản thì có thể loại dễ dàng, nhưng không có những lỗi đó không có nghĩa là chất lượng cao
Thường các phép kiểm tra này chỉ là cửa ải đầu tiên chứ không phải tất cả; vượt qua được cửa đó thì sẽ dễ nhìn ra vấn đề thật hơn
Cũng giống trong code, người ta dọn lint và style trước khi bàn tới reasoning
Vấn đề là bản thân người đó không biết 99% ấy là do AI tạo ra, nên rất dễ nhìn vào 100% các mẫu mình đã nhận ra rồi tưởng rằng mình lọc được toàn bộ văn bản AI
Từ trước tới nay, nhiều loại lao động tri thức vốn chỉ là vật thay thế cho thứ gì khác
Chất lượng kiểu không sai chính tả, trình bày ngay ngắn thường chủ yếu là tín hiệu của sự tôn trọng, giống như áo sơ mi trắng được là phẳng và cà vạt; cũng có nhiều tài liệu dài mà thực ra chẳng ai đọc kỹ
Rốt cuộc đó là một cách biểu tượng để thể hiện sự hy sinh và phục tùng, và LLM đang xóa bỏ hệ thống tín hiệu đó
Nếu trước đây người ta vốn cũng không thật sự nhìn vào chất lượng nội dung, thì ngay từ đầu nội dung đó hẳn đã không quá quan trọng
Trong giới học thuật, vấn đề chi phí thẩm định AI đã lộ ra, nhưng hơi khác với lý do bài viết nêu
Cốt lõi không hẳn là các dấu hiệu của sản phẩm thô kệch biến mất, mà là chi phí rà soát kỹ các sản phẩm tạo ra bằng AI đang trở nên quá lớn để con người tự gánh nổi
Ví dụ, phụ lục của các tạp chí kinh tế học có thể dài đến hàng trăm trang, trong khi thời gian con người có thể đọc thì hữu hạn
Tôi cũng tò mò liệu các tạp chí ở lĩnh vực khác có đang bị ép không chỉ bởi số lượng bài nộp mới tăng lên mà còn bởi cường độ thẩm định cần thiết để kiểm chứng từng bài hay không
Dưới mức đó, đôi khi gần như không thể phân biệt giữa cái gì đúng và cái gì chỉ trông có vẻ đúng
Khi dùng AI, tôi có cảm giác mình đang cargo-cult sự thấu hiểu
Tôi đang tái hiện bề mặt của việc đã hiểu điều gì đó, đồng thời tự tước đi thời gian và nỗ lực cần thiết để thực sự hiểu nó
Họ tin rằng chỉ cần nhét mọi thứ vào Claude — Snowflake Cortex, code tích hợp, tài liệu, vé Jira — là có thể hỏi gì cũng được và mọi thứ sẽ tốt hơn nhiều
Nhưng sự ám ảnh đó không tạo ra đầu ra lớn, và vài lần còn trực tiếp va phải sự bất toàn nghiêm trọng của công nghệ
Mọi người nói về agentic workflow và viễn cảnh một wiki nội bộ khổng lồ, còn tôi thì cứ đều đặn tạo ra kết quả bằng cách dùng AI để tăng khá nhiều tốc độ giao hàng nhưng không lãng phí thời gian vào những cuộc phiêu lưu hoành tráng
Cũng có sự mỉa mai ở chỗ những người từng chỉ trích việc công ty triển khai chatbot giờ lại đốt token để gom hàng nghìn tỷ file
.mdvà file skill rồi làm chatbot của riêng họĐiều thực sự đáng lo là tri thức thực của tổ chức ở cấp thể chế bị hao hụt trong những lối tắt như vậy
Các yêu cầu ví dụ đơn giản hay câu hỏi học khái niệm thì không sao, nhưng kiểu prompt bảo hãy rà soát công cụ và hạ tầng hiện tại để tăng tốc triển khai lên 5 lần, nghiên cứu web, rồi một lần tạo luôn đề xuất triển khai trong tổ chức và phân tích chi phí-lợi ích 5 năm thì đang làm con người tự suy yếu đi
Dạo này ai cũng ném đi khắp nơi những bản đề xuất do Claude tạo ra, còn quá trình tự đào sâu một chút hoặc cùng kiến trúc sư hay kỹ sư senior khám phá vấn đề thì bị bỏ qua
Kết quả là hiểu nhiều thứ chỉ ở mức hời hợt, khi bị hỏi sâu thì giải thích không tốt, lại tin câu trả lời AI đưa ra như một chiến lược chắc chắn nên không muốn bị chất vấn
Cơ hội học từ người có nhiều kinh nghiệm hơn cũng không còn được xem như trải nghiệm học tập
Cuối cùng tôi vẫn tin rằng bản thân não người vẫn là một trong những công nghệ đáng kinh ngạc nhất, và lại phải tự hỏi vì sao chúng ta cứ muốn dựng hẳn một thư viện nhân tạo khổng lồ bên ngoài chính mình
Như Bret Devereaux từng nói trong các bài phê bình Game Of Thrones, thế giới quan từ góc nhìn tinh hoa chỉ nghe hợp lý và giống utopia đối với chính giới tinh hoa
Kiểu bong bóng tách rời lao động thực tế này rồi sẽ nổ rất to, và khi quần chúng mất việc vì AI kêu rằng họ còn chẳng có bánh mì mà ăn, nếu đáp lại theo kiểu hãy ăn bánh ngọt đi thì cũng dễ hình dung một phản ứng ngược cỡ Cách mạng Pháp
Nhưng nếu nói về công cụ giúp thực sự muốn hiểu sâu, thì hiếm có thứ gì tốt bằng AI
Cuối cùng, hiểu một điều gì đó gần như đồng nghĩa với tự tay làm nó
Không hiểu cũng không sao, nhưng khi đó thì dù có hay không có các chỉ dấu thay thế, rốt cuộc vẫn chỉ còn cách tin vào sự hiểu biết của người khác
Hướng đi làm ít hơn và tin nhiều hơn có thể khả thi tới một mức nào đó, nhưng vượt quá mức ấy thì công việc của tương lai sẽ trở nên bấp bênh
simulacrumquả thật là một từ rất hayCó lẽ vì thế mà quản lý cấp trung trông như những tín đồ đầu tiên của chủ nghĩa tối thượng LLM
Quản lý cấp trung có rất nhiều động lực để tiếp tục ép lao động tri thức đi theo hướng trừu tượng hóa, ngoài cả năng lực thành thạo thực sự của vai trò, và có vẻ tầng trừu tượng đó lại đặc biệt dễ được mô tả trong embedding space
Code do AI viết thường trông tệ hơn thực tế
Nó quá dài dòng, rối rắm, nhét đầy fallback, nên khi có vấn đề thì chảy qua vô số
try/catchrồi đẩy stack trace sang những chỗ chẳng liên quanDù vậy, nếu chỉ xét chức năng thuần túy thì nhiều khi nó vẫn chạy tốt hơn code do người viết nhưng có bề ngoài tương tự
Vì cả người lẫn LLM đều khó suy luận về nó
Tôi mong có nhiều hơn kiểu văn phong blog như thế này
Độ dài vừa phải, thông điệp truyền đạt tốt, lại có tính kể chuyện
Dạo này có quá nhiều AI slop do LLM tạo ra dài như tiểu thuyết nên đọc bài như vậy càng thấy đáng quý hơn
Với nhiều người trong ngành, đây là một diễn biến khá hiển nhiên
Vấn đề là số tiền bị ràng buộc vào đó quá lớn, nên các tay chơi lớn vẫn cứ tiếp tục đẩy thứ họ muốn
Điều này khiến tôi tưởng tượng rằng các hạt dưới nguyên tử thực ra là những vũ trụ riêng, và tính chất của chúng phản ánh những thực thể từng thống trị các vũ trụ đó cùng dấu vết của hệ thống tự động hóa vẫn tiếp tục vận hành sau khi họ biến mất
Kiểu như những cỗ máy tự động thu hoạch entropy rồi tiếp tục tự nhân lên vậy
Chúng ta đang tạo ra một sức mạnh lớn hơn chính mình, và đến một lúc nào đó có thể chạm tới điểm không thể quay đầu
Nó khiến người ta liên tưởng đến vô số vũ trụ và nền văn minh hạ nguyên tử hưng thịnh rồi suy tàn, thậm chí bị các công nghệ giống trí tuệ tự trị nuốt chửng, và ở cấp vĩ mô thì điều đó bộc lộ ra dưới dạng hành vi của hạt
Giờ đây rốt cuộc chúng ta cũng đang tạo ra một hạt như thế, và những lựa chọn tập thể của chúng ta có lẽ sẽ tạo ra ảnh hưởng rất nhỏ nhưng vẫn có ý nghĩa lên vũ trụ cấp trên mà chúng ta thuộc về
Đầu ra của ai đó rồi cũng luôn trở thành đầu vào của người khác
Nếu dùng LLM để tăng sản lượng, người kế tiếp lại dùng LLM để parse nó và tạo ra đầu ra của mình
Cứ nối tiếp như thế, đến khi người tiêu dùng cuối cùng phàn nàn thì sẽ chẳng ai còn xác định được rốt cuộc sai ở đâu
Vì trước mắt chỉ còn người tiêu dùng cuối, còn tất cả những người khác thì nấp sau 7 tầng proxy