1 điểm bởi GN⁺ 9 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Chất lượng của lao động tri thức rất khó được xác nhận nếu không trực tiếp làm lại kết quả, nên người ta thường phải dựa vào các chỉ dấu thay thế như mức độ hoàn thiện bề ngoài hơn là độ chính xác thực sự
  • Khi xuất hiện các lỗi bề mặt như sai ngày tháng hay nhãn biểu đồ có vấn đề, người ta dễ loại bỏ toàn bộ sản phẩm dù không liên quan đến kết luận chính, và tiêu chí đánh giá cũng nghiêng về hình thức có thể kiểm tra rẻ hơn là mức độ phản ánh thực tế
  • LLM có thể bắt chước rất tốt văn phong và định dạng trông có vẻ thuyết phục ngay cả khi không tái tạo được chất lượng công việc thực tế, nên quy trình mang tính nghi thức của báo cáo hay mã nguồn vẫn còn đó nhưng chất lượng bên dưới có thể rỗng tuếch
  • Nếu tiêu chí được đo lường là chất lượng bề mặt, thì việc để LLM viết phần lớn đầu ra sẽ trở thành lựa chọn hợp lý, và ngay cả bản thân LLM cũng được tối ưu theo hướng đầu ra trông có chất lượng cao hơn là tính chân thực hay tính hữu ích
  • Kết quả là những hệ thống trị giá hàng chục tỷ đô la dễ bị dùng cho mô phỏng công việc hơn là công việc thực sự, và luồng làm việc lướt qua cho xong rồi gắn LGTM tiếp tục kéo dài như một trạng thái tự động hóa của Goodhart's law

Cấu trúc và kết quả mà LLM đã thay đổi

  • LLM bắt chước cực kỳ tốt văn phong và định dạng trông có vẻ thuyết phục ngay cả khi không tái tạo được chất lượng công việc thực tế
  • Một báo cáo phân tích thị trường viết bằng ChatGPT có thể đọc và trông giống như sản phẩm đầu ra của một công ty tư vấn hàng đầu
  • Kỹ sư phần mềm có thể tạo ra hàng nghìn dòng mã trông như chất lượng cao chỉ sau khi lướt qua nhanh, và đồng nghiệp lại có thể chạy review mã bằng AI để tìm vấn đề rồi sửa chúng
  • Kết quả là quy trình mang tính nghi thức của công việc vẫn được giữ nguyên, nhưng chất lượng thực tế bên dưới có thể trống rỗng
  • Nếu tiêu chí được đo lường là chất lượng bề mặt, thì người lao động hành xử theo cách trông tốt theo tiêu chí đó là điều hợp lý, nên phần lớn đầu ra sẽ do LLM viết
  • Việc huấn luyện LLM cũng được điều chỉnh không phải theo hướng câu trả lời có đúng hay hữu ích hay không, mà theo hướng nó có giống thứ có thể xuất hiện trong tập dữ liệu huấn luyện hay làm người đánh giá RLHF hài lòng hay không
  • Cuối cùng, bản thân LLM cũng được tối ưu để tạo ra đầu ra trông như có chất lượng cao
  • Những hệ thống được xây dựng với chi phí hàng chục tỷ đô la rốt cuộc lại được dùng để thực hiện mô phỏng công việc hơn là công việc thực sự
  • Các doanh nghiệp rơi vào trạng thái cạnh tranh xem ai dùng nhiều token hơn
  • Người lao động càng tạo ra nhiều đầu ra từ LLM, thì thời gian họ dành để xem xét sâu các đầu ra đó lại càng ít đi
  • Thứ còn lại chỉ là luồng làm việc lướt qua cho xong, gắn LGTM, rồi mở phiên Claude Code tiếp theo

1 bình luận

 
Ý kiến trên Hacker News
  • Cả lập luận trong bài rằng trước đây người ta dễ đánh giá chất lượng lao động tri thức của con người qua các chỉ dấu thay thế như lỗi chính tả hay lỗi vặt, lẫn lập luận rằng giờ AI không có những dấu hiệu đó nên thành vấn đề, đều không khiến tôi hoàn toàn đồng ý
    Ngay từ đầu đã luôn có rất nhiều sản phẩm của con người mà về mặt khái niệm thì tệ hại, nhưng thông tin thực tế lại đúng và hình thức cũng chỉn chu
    Nếu đã làm việc với khách hàng doanh nghiệp suốt 10 năm thì không thể nào nói thời pre-LLM là thời hoàng kim của lao động tri thức chất lượng cao; ngay khi đó cũng đã đầy rẫy thứ tạp nham kiểu mô phỏng vận hành được của lao động tri thức

    • Vấn đề lớn hơn với tôi là sự biến mất của khả năng giải thích sai sót theo kiểu con người
      Kết quả kém chất lượng của con người thường có nguyên nhân như thiếu hiểu biết, áp lực thời gian, mục tiêu ích kỷ, và các nguyên nhân đó khá nhất quán
      Có thể nhận ra các mẫu độ tin cậy như một thực tập sinh cẩn thận nhưng chưa biết nhiều, hay một nhân sự kỳ cựu biết rất nhiều nhưng thiếu ngủ nên bỏ sót điều hiển nhiên
      Nhưng AI thì có thể trong cùng một lần làm vừa hiện thực hóa bài báo một cách hoàn hảo, vừa mắc lỗi ở mức sinh viên năm nhất, nên nảy sinh tình huống phản trực giác là phải review như thể giả định hoàn toàn bất tài đối với một cỗ máy đôi khi lại thể hiện năng lực cực đoan
    • Thời pre-LLM không phải thời hoàng kim của chất lượng, nhưng đúng là LLM đã xóa đi thêm một dấu hiệu từng giúp lọc ra những thứ công việc bịa đặt làm cho xong
    • Vốn dĩ đây không phải là điều kiện xác nhận tích cực mà là bộ lọc loại trừ
      Nếu có lỗi chính tả hay lỗi thực tế cơ bản thì có thể loại dễ dàng, nhưng không có những lỗi đó không có nghĩa là chất lượng cao
      Thường các phép kiểm tra này chỉ là cửa ải đầu tiên chứ không phải tất cả; vượt qua được cửa đó thì sẽ dễ nhìn ra vấn đề thật hơn
      Cũng giống trong code, người ta dọn lint và style trước khi bàn tới reasoning
    • Có thể bắt được những cụm từ rất đặc trưng của AI, nhưng 99% phần còn lại của văn bản do AI tạo ra mà không có dấu hiệu gì thì vẫn có thể lọt qua
      Vấn đề là bản thân người đó không biết 99% ấy là do AI tạo ra, nên rất dễ nhìn vào 100% các mẫu mình đã nhận ra rồi tưởng rằng mình lọc được toàn bộ văn bản AI
    • Tôi không nghĩ đây là điều cốt lõi quan trọng
      Từ trước tới nay, nhiều loại lao động tri thức vốn chỉ là vật thay thế cho thứ gì khác
      Chất lượng kiểu không sai chính tả, trình bày ngay ngắn thường chủ yếu là tín hiệu của sự tôn trọng, giống như áo sơ mi trắng được là phẳng và cà vạt; cũng có nhiều tài liệu dài mà thực ra chẳng ai đọc kỹ
      Rốt cuộc đó là một cách biểu tượng để thể hiện sự hy sinh và phục tùng, và LLM đang xóa bỏ hệ thống tín hiệu đó
      Nếu trước đây người ta vốn cũng không thật sự nhìn vào chất lượng nội dung, thì ngay từ đầu nội dung đó hẳn đã không quá quan trọng
  • Trong giới học thuật, vấn đề chi phí thẩm định AI đã lộ ra, nhưng hơi khác với lý do bài viết nêu
    Cốt lõi không hẳn là các dấu hiệu của sản phẩm thô kệch biến mất, mà là chi phí rà soát kỹ các sản phẩm tạo ra bằng AI đang trở nên quá lớn để con người tự gánh nổi
    Ví dụ, phụ lục của các tạp chí kinh tế học có thể dài đến hàng trăm trang, trong khi thời gian con người có thể đọc thì hữu hạn
    Tôi cũng tò mò liệu các tạp chí ở lĩnh vực khác có đang bị ép không chỉ bởi số lượng bài nộp mới tăng lên mà còn bởi cường độ thẩm định cần thiết để kiểm chứng từng bài hay không

    • Nói công bằng thì ở nhiều ngành học, từ mức thạc sĩ trở lên bản thân việc phân biệt đã đòi hỏi chuyên môn rất cao
      Dưới mức đó, đôi khi gần như không thể phân biệt giữa cái gì đúng và cái gì chỉ trông có vẻ đúng
  • Khi dùng AI, tôi có cảm giác mình đang cargo-cult sự thấu hiểu
    Tôi đang tái hiện bề mặt của việc đã hiểu điều gì đó, đồng thời tự tước đi thời gian và nỗ lực cần thiết để thực sự hiểu nó

    • Đây là điều tôi luôn nghĩ khi nhìn một đồng nghiệp làm việc cùng: người đó gần như chỉ hình dung các kịch bản dùng AI theo ảo tưởng Jarvis cá nhân
      Họ tin rằng chỉ cần nhét mọi thứ vào Claude — Snowflake Cortex, code tích hợp, tài liệu, vé Jira — là có thể hỏi gì cũng được và mọi thứ sẽ tốt hơn nhiều
      Nhưng sự ám ảnh đó không tạo ra đầu ra lớn, và vài lần còn trực tiếp va phải sự bất toàn nghiêm trọng của công nghệ
      Mọi người nói về agentic workflow và viễn cảnh một wiki nội bộ khổng lồ, còn tôi thì cứ đều đặn tạo ra kết quả bằng cách dùng AI để tăng khá nhiều tốc độ giao hàng nhưng không lãng phí thời gian vào những cuộc phiêu lưu hoành tráng
      Cũng có sự mỉa mai ở chỗ những người từng chỉ trích việc công ty triển khai chatbot giờ lại đốt token để gom hàng nghìn tỷ file .md và file skill rồi làm chatbot của riêng họ
      Điều thực sự đáng lo là tri thức thực của tổ chức ở cấp thể chế bị hao hụt trong những lối tắt như vậy
      Các yêu cầu ví dụ đơn giản hay câu hỏi học khái niệm thì không sao, nhưng kiểu prompt bảo hãy rà soát công cụ và hạ tầng hiện tại để tăng tốc triển khai lên 5 lần, nghiên cứu web, rồi một lần tạo luôn đề xuất triển khai trong tổ chức và phân tích chi phí-lợi ích 5 năm thì đang làm con người tự suy yếu đi
      Dạo này ai cũng ném đi khắp nơi những bản đề xuất do Claude tạo ra, còn quá trình tự đào sâu một chút hoặc cùng kiến trúc sư hay kỹ sư senior khám phá vấn đề thì bị bỏ qua
      Kết quả là hiểu nhiều thứ chỉ ở mức hời hợt, khi bị hỏi sâu thì giải thích không tốt, lại tin câu trả lời AI đưa ra như một chiến lược chắc chắn nên không muốn bị chất vấn
      Cơ hội học từ người có nhiều kinh nghiệm hơn cũng không còn được xem như trải nghiệm học tập
      Cuối cùng tôi vẫn tin rằng bản thân não người vẫn là một trong những công nghệ đáng kinh ngạc nhất, và lại phải tự hỏi vì sao chúng ta cứ muốn dựng hẳn một thư viện nhân tạo khổng lồ bên ngoài chính mình
    • Ở đây tôi thấy không hẳn là cargo cult của sự hiểu biết mà là cargo cult từ góc nhìn quản lý
      Như Bret Devereaux từng nói trong các bài phê bình Game Of Thrones, thế giới quan từ góc nhìn tinh hoa chỉ nghe hợp lý và giống utopia đối với chính giới tinh hoa
      Kiểu bong bóng tách rời lao động thực tế này rồi sẽ nổ rất to, và khi quần chúng mất việc vì AI kêu rằng họ còn chẳng có bánh mì mà ăn, nếu đáp lại theo kiểu hãy ăn bánh ngọt đi thì cũng dễ hình dung một phản ứng ngược cỡ Cách mạng Pháp
    • Ở chiều ngược lại, AI có thể thay tôi làm một việc gì đó ngay cả khi tôi không hiểu nó
      Nhưng nếu nói về công cụ giúp thực sự muốn hiểu sâu, thì hiếm có thứ gì tốt bằng AI
  • Cuối cùng, hiểu một điều gì đó gần như đồng nghĩa với tự tay làm nó
    Không hiểu cũng không sao, nhưng khi đó thì dù có hay không có các chỉ dấu thay thế, rốt cuộc vẫn chỉ còn cách tin vào sự hiểu biết của người khác
    Hướng đi làm ít hơn và tin nhiều hơn có thể khả thi tới một mức nào đó, nhưng vượt quá mức ấy thì công việc của tương lai sẽ trở nên bấp bênh
    simulacrum quả thật là một từ rất hay

    • Khái niệm Simulacrum đến từ Baudrillard, và bài tiểu luận Simulation and Simulacra của ông khá hữu ích để hiểu vì sao nền kinh tế hiện đại lại kỳ quái đến vậy
  • Có lẽ vì thế mà quản lý cấp trung trông như những tín đồ đầu tiên của chủ nghĩa tối thượng LLM
    Quản lý cấp trung có rất nhiều động lực để tiếp tục ép lao động tri thức đi theo hướng trừu tượng hóa, ngoài cả năng lực thành thạo thực sự của vai trò, và có vẻ tầng trừu tượng đó lại đặc biệt dễ được mô tả trong embedding space

  • Code do AI viết thường trông tệ hơn thực tế
    Nó quá dài dòng, rối rắm, nhét đầy fallback, nên khi có vấn đề thì chảy qua vô số try/catch rồi đẩy stack trace sang những chỗ chẳng liên quan
    Dù vậy, nếu chỉ xét chức năng thuần túy thì nhiều khi nó vẫn chạy tốt hơn code do người viết nhưng có bề ngoài tương tự

    • Dù thế, đoạn code được mô tả như vậy vẫn là code tệ
      Vì cả người lẫn LLM đều khó suy luận về nó
  • Tôi mong có nhiều hơn kiểu văn phong blog như thế này
    Độ dài vừa phải, thông điệp truyền đạt tốt, lại có tính kể chuyện
    Dạo này có quá nhiều AI slop do LLM tạo ra dài như tiểu thuyết nên đọc bài như vậy càng thấy đáng quý hơn

  • Với nhiều người trong ngành, đây là một diễn biến khá hiển nhiên
    Vấn đề là số tiền bị ràng buộc vào đó quá lớn, nên các tay chơi lớn vẫn cứ tiếp tục đẩy thứ họ muốn

  • Điều này khiến tôi tưởng tượng rằng các hạt dưới nguyên tử thực ra là những vũ trụ riêng, và tính chất của chúng phản ánh những thực thể từng thống trị các vũ trụ đó cùng dấu vết của hệ thống tự động hóa vẫn tiếp tục vận hành sau khi họ biến mất
    Kiểu như những cỗ máy tự động thu hoạch entropy rồi tiếp tục tự nhân lên vậy
    Chúng ta đang tạo ra một sức mạnh lớn hơn chính mình, và đến một lúc nào đó có thể chạm tới điểm không thể quay đầu

    • Tôi không dám nói là đã hiểu hoàn toàn, nhưng hình dung đó rất thú vị
      Nó khiến người ta liên tưởng đến vô số vũ trụ và nền văn minh hạ nguyên tử hưng thịnh rồi suy tàn, thậm chí bị các công nghệ giống trí tuệ tự trị nuốt chửng, và ở cấp vĩ mô thì điều đó bộc lộ ra dưới dạng hành vi của hạt
      Giờ đây rốt cuộc chúng ta cũng đang tạo ra một hạt như thế, và những lựa chọn tập thể của chúng ta có lẽ sẽ tạo ra ảnh hưởng rất nhỏ nhưng vẫn có ý nghĩa lên vũ trụ cấp trên mà chúng ta thuộc về
  • Đầu ra của ai đó rồi cũng luôn trở thành đầu vào của người khác
    Nếu dùng LLM để tăng sản lượng, người kế tiếp lại dùng LLM để parse nó và tạo ra đầu ra của mình
    Cứ nối tiếp như thế, đến khi người tiêu dùng cuối cùng phàn nàn thì sẽ chẳng ai còn xác định được rốt cuộc sai ở đâu

    • Dĩ nhiên lúc đó người ta sẽ bảo là do người tiêu dùng cuối dùng sai thôi
      Vì trước mắt chỉ còn người tiêu dùng cuối, còn tất cả những người khác thì nấp sau 7 tầng proxy