2 điểm bởi GN⁺ 13 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Khi LLM mô phỏng hoàn hảo chất lượng bề mặt, các chỉ số thay thế (proxy measure) vốn dùng để đánh giá chất lượng thực của lao động tri thức đang bị vô hiệu hóa
  • Lao động tri thức vốn khó đánh giá chất lượng bản chất, nên từ trước đến nay phải dựa vào các chỉ số thay thế như mức độ hoàn chỉnh về hình thức của tài liệu, nhưng LLM có thể dễ dàng vượt qua các chỉ số này
  • Mã nguồn và báo cáo do AI tạo ra trông có vẻ chuyên nghiệp, nhưng lại được thông qua khi độ chính xác hay tính hữu ích thực chất chưa được kiểm chứng
  • Bản thân LLM cũng không được huấn luyện theo tiêu chí “có đúng đáp án không” mà là “trông có hợp lý không”, nên nó cũng mang trong mình chính vấn đề chỉ số thay thế đó
  • Đây là lời cảnh báo rằng các hệ thống được tạo ra với khoản đầu tư hàng chục tỷ USD đang bị dùng như công cụ thực hiện ảo tượng của công việc, chứ không phải công việc thực sự

Vai trò và giới hạn của chỉ số thay thế (Proxy Measure)

  • Khi nhận một báo cáo phân tích thị trường, việc loại bỏ toàn bộ báo cáo chỉ vì những lỗi bề mặt như sai ngày tháng, lỗi chính tả hay đồ thị trùng lặp là chuyện rất thường gặp
  • Điều thực sự cần quan tâm là liệu báo cáo có phản ánh thực tế và dẫn tới các quyết định tốt hay không, nhưng chi phí để kiểm chứng trực tiếp điều đó lại rất cao
  • Chất lượng bề mặt có chi phí kiểm chứng thấp và tương quan đủ mạnh với chất lượng thực, nên từ trước đến nay đã hoạt động như một chỉ số thay thế
  • Vấn đề này tồn tại trong mọi loại lao động tri thức, và vì cần rất nhiều công sức để đánh giá khách quan chất lượng công việc của người khác nên cấu trúc này phụ thuộc rất lớn vào chỉ số thay thế

Cơ chế LLM vô hiệu hóa chỉ số thay thế

  • Chỉ số thay thế trước đây đóng vai trò kiềm chế sự lệch pha về động cơ (misaligned incentives), nhưng LLM đã phá vỡ điều đó
  • LLM đặc biệt xuất sắc trong việc mô phỏng phong cách viết, dù không tái hiện được chất lượng thực của công việc
  • Nếu yêu cầu ChatGPT viết một báo cáo phân tích thị trường, kết quả sẽ trông như thể được viết bởi chuyên gia của một công ty tư vấn hàng đầu
  • Khi kỹ sư phần mềm dùng AI để viết hàng nghìn dòng mã, nếu chỉ lướt qua trong vài giây thì nó trông như mã chất lượng cao
    • Đồng nghiệp cũng giao việc review code cho AI, rồi xử lý cơ học các vấn đề được phát hiện, khiến chỉ còn nghi thức của công việc (ritual) được duy trì còn chất lượng thực chất thì không được đảm bảo

Cùng một vấn đề tồn tại ngay trong chính LLM

  • Bản thân quá trình huấn luyện LLM cũng không đánh giá “câu trả lời có đúng không” hay “có hữu ích không”
  • Tiêu chí huấn luyện thực chất là “đây có phải kiểu câu trả lời có khả năng xuất hiện trong dữ liệu huấn luyện không” hoặc “đây có phải câu trả lời khiến người chấm RLHF hài lòng không
  • Kết quả là LLM được tối ưu để tạo ra đầu ra trông như sản phẩm chất lượng cao, và năng lực tối ưu hóa theo hướng đó là cực kỳ mạnh

Cảnh báo về tình hình hiện tại

  • Các hệ thống được tạo ra với hàng chục tỷ USD đang bị sử dụng để thực hiện mô phỏng/ảo tượng của công việc
  • Các công ty đang cạnh tranh để giành vị trí số 1 trên bảng xếp hạng mức tiêu thụ token
  • Càng tạo ra nhiều đầu ra từ LLM, người lao động lại càng ít thời gian xem xét kỹ chúng hơn
  • Cuối cùng chỉ còn việc lướt qua, gắn nhãn “LGTM”, rồi mở phiên Claude Code thứ 17

1 bình luận

 
Ý kiến trên Hacker News
  • Cả lập luận trong bài rằng trước đây người ta dễ đánh giá chất lượng lao động tri thức của con người qua các chỉ dấu thay thế như lỗi chính tả hay lỗi vặt, lẫn lập luận rằng giờ AI không có những dấu hiệu đó nên thành vấn đề, đều không khiến tôi hoàn toàn đồng ý
    Ngay từ đầu đã luôn có rất nhiều sản phẩm của con người mà về mặt khái niệm thì tệ hại, nhưng thông tin thực tế lại đúng và hình thức cũng chỉn chu
    Nếu đã làm việc với khách hàng doanh nghiệp suốt 10 năm thì không thể nào nói thời pre-LLM là thời hoàng kim của lao động tri thức chất lượng cao; ngay khi đó cũng đã đầy rẫy thứ tạp nham kiểu mô phỏng vận hành được của lao động tri thức

    • Vấn đề lớn hơn với tôi là sự biến mất của khả năng giải thích sai sót theo kiểu con người
      Kết quả kém chất lượng của con người thường có nguyên nhân như thiếu hiểu biết, áp lực thời gian, mục tiêu ích kỷ, và các nguyên nhân đó khá nhất quán
      Có thể nhận ra các mẫu độ tin cậy như một thực tập sinh cẩn thận nhưng chưa biết nhiều, hay một nhân sự kỳ cựu biết rất nhiều nhưng thiếu ngủ nên bỏ sót điều hiển nhiên
      Nhưng AI thì có thể trong cùng một lần làm vừa hiện thực hóa bài báo một cách hoàn hảo, vừa mắc lỗi ở mức sinh viên năm nhất, nên nảy sinh tình huống phản trực giác là phải review như thể giả định hoàn toàn bất tài đối với một cỗ máy đôi khi lại thể hiện năng lực cực đoan
    • Thời pre-LLM không phải thời hoàng kim của chất lượng, nhưng đúng là LLM đã xóa đi thêm một dấu hiệu từng giúp lọc ra những thứ công việc bịa đặt làm cho xong
    • Vốn dĩ đây không phải là điều kiện xác nhận tích cực mà là bộ lọc loại trừ
      Nếu có lỗi chính tả hay lỗi thực tế cơ bản thì có thể loại dễ dàng, nhưng không có những lỗi đó không có nghĩa là chất lượng cao
      Thường các phép kiểm tra này chỉ là cửa ải đầu tiên chứ không phải tất cả; vượt qua được cửa đó thì sẽ dễ nhìn ra vấn đề thật hơn
      Cũng giống trong code, người ta dọn lint và style trước khi bàn tới reasoning
    • Có thể bắt được những cụm từ rất đặc trưng của AI, nhưng 99% phần còn lại của văn bản do AI tạo ra mà không có dấu hiệu gì thì vẫn có thể lọt qua
      Vấn đề là bản thân người đó không biết 99% ấy là do AI tạo ra, nên rất dễ nhìn vào 100% các mẫu mình đã nhận ra rồi tưởng rằng mình lọc được toàn bộ văn bản AI
    • Tôi không nghĩ đây là điều cốt lõi quan trọng
      Từ trước tới nay, nhiều loại lao động tri thức vốn chỉ là vật thay thế cho thứ gì khác
      Chất lượng kiểu không sai chính tả, trình bày ngay ngắn thường chủ yếu là tín hiệu của sự tôn trọng, giống như áo sơ mi trắng được là phẳng và cà vạt; cũng có nhiều tài liệu dài mà thực ra chẳng ai đọc kỹ
      Rốt cuộc đó là một cách biểu tượng để thể hiện sự hy sinh và phục tùng, và LLM đang xóa bỏ hệ thống tín hiệu đó
      Nếu trước đây người ta vốn cũng không thật sự nhìn vào chất lượng nội dung, thì ngay từ đầu nội dung đó hẳn đã không quá quan trọng
  • Trong giới học thuật, vấn đề chi phí thẩm định AI đã lộ ra, nhưng hơi khác với lý do bài viết nêu
    Cốt lõi không hẳn là các dấu hiệu của sản phẩm thô kệch biến mất, mà là chi phí rà soát kỹ các sản phẩm tạo ra bằng AI đang trở nên quá lớn để con người tự gánh nổi
    Ví dụ, phụ lục của các tạp chí kinh tế học có thể dài đến hàng trăm trang, trong khi thời gian con người có thể đọc thì hữu hạn
    Tôi cũng tò mò liệu các tạp chí ở lĩnh vực khác có đang bị ép không chỉ bởi số lượng bài nộp mới tăng lên mà còn bởi cường độ thẩm định cần thiết để kiểm chứng từng bài hay không

    • Nói công bằng thì ở nhiều ngành học, từ mức thạc sĩ trở lên bản thân việc phân biệt đã đòi hỏi chuyên môn rất cao
      Dưới mức đó, đôi khi gần như không thể phân biệt giữa cái gì đúng và cái gì chỉ trông có vẻ đúng
  • Khi dùng AI, tôi có cảm giác mình đang cargo-cult sự thấu hiểu
    Tôi đang tái hiện bề mặt của việc đã hiểu điều gì đó, đồng thời tự tước đi thời gian và nỗ lực cần thiết để thực sự hiểu nó

    • Đây là điều tôi luôn nghĩ khi nhìn một đồng nghiệp làm việc cùng: người đó gần như chỉ hình dung các kịch bản dùng AI theo ảo tưởng Jarvis cá nhân
      Họ tin rằng chỉ cần nhét mọi thứ vào Claude — Snowflake Cortex, code tích hợp, tài liệu, vé Jira — là có thể hỏi gì cũng được và mọi thứ sẽ tốt hơn nhiều
      Nhưng sự ám ảnh đó không tạo ra đầu ra lớn, và vài lần còn trực tiếp va phải sự bất toàn nghiêm trọng của công nghệ
      Mọi người nói về agentic workflow và viễn cảnh một wiki nội bộ khổng lồ, còn tôi thì cứ đều đặn tạo ra kết quả bằng cách dùng AI để tăng khá nhiều tốc độ giao hàng nhưng không lãng phí thời gian vào những cuộc phiêu lưu hoành tráng
      Cũng có sự mỉa mai ở chỗ những người từng chỉ trích việc công ty triển khai chatbot giờ lại đốt token để gom hàng nghìn tỷ file .md và file skill rồi làm chatbot của riêng họ
      Điều thực sự đáng lo là tri thức thực của tổ chức ở cấp thể chế bị hao hụt trong những lối tắt như vậy
      Các yêu cầu ví dụ đơn giản hay câu hỏi học khái niệm thì không sao, nhưng kiểu prompt bảo hãy rà soát công cụ và hạ tầng hiện tại để tăng tốc triển khai lên 5 lần, nghiên cứu web, rồi một lần tạo luôn đề xuất triển khai trong tổ chức và phân tích chi phí-lợi ích 5 năm thì đang làm con người tự suy yếu đi
      Dạo này ai cũng ném đi khắp nơi những bản đề xuất do Claude tạo ra, còn quá trình tự đào sâu một chút hoặc cùng kiến trúc sư hay kỹ sư senior khám phá vấn đề thì bị bỏ qua
      Kết quả là hiểu nhiều thứ chỉ ở mức hời hợt, khi bị hỏi sâu thì giải thích không tốt, lại tin câu trả lời AI đưa ra như một chiến lược chắc chắn nên không muốn bị chất vấn
      Cơ hội học từ người có nhiều kinh nghiệm hơn cũng không còn được xem như trải nghiệm học tập
      Cuối cùng tôi vẫn tin rằng bản thân não người vẫn là một trong những công nghệ đáng kinh ngạc nhất, và lại phải tự hỏi vì sao chúng ta cứ muốn dựng hẳn một thư viện nhân tạo khổng lồ bên ngoài chính mình
    • Ở đây tôi thấy không hẳn là cargo cult của sự hiểu biết mà là cargo cult từ góc nhìn quản lý
      Như Bret Devereaux từng nói trong các bài phê bình Game Of Thrones, thế giới quan từ góc nhìn tinh hoa chỉ nghe hợp lý và giống utopia đối với chính giới tinh hoa
      Kiểu bong bóng tách rời lao động thực tế này rồi sẽ nổ rất to, và khi quần chúng mất việc vì AI kêu rằng họ còn chẳng có bánh mì mà ăn, nếu đáp lại theo kiểu hãy ăn bánh ngọt đi thì cũng dễ hình dung một phản ứng ngược cỡ Cách mạng Pháp
    • Ở chiều ngược lại, AI có thể thay tôi làm một việc gì đó ngay cả khi tôi không hiểu nó
      Nhưng nếu nói về công cụ giúp thực sự muốn hiểu sâu, thì hiếm có thứ gì tốt bằng AI
  • Cuối cùng, hiểu một điều gì đó gần như đồng nghĩa với tự tay làm nó
    Không hiểu cũng không sao, nhưng khi đó thì dù có hay không có các chỉ dấu thay thế, rốt cuộc vẫn chỉ còn cách tin vào sự hiểu biết của người khác
    Hướng đi làm ít hơn và tin nhiều hơn có thể khả thi tới một mức nào đó, nhưng vượt quá mức ấy thì công việc của tương lai sẽ trở nên bấp bênh
    simulacrum quả thật là một từ rất hay

    • Khái niệm Simulacrum đến từ Baudrillard, và bài tiểu luận Simulation and Simulacra của ông khá hữu ích để hiểu vì sao nền kinh tế hiện đại lại kỳ quái đến vậy
  • Có lẽ vì thế mà quản lý cấp trung trông như những tín đồ đầu tiên của chủ nghĩa tối thượng LLM
    Quản lý cấp trung có rất nhiều động lực để tiếp tục ép lao động tri thức đi theo hướng trừu tượng hóa, ngoài cả năng lực thành thạo thực sự của vai trò, và có vẻ tầng trừu tượng đó lại đặc biệt dễ được mô tả trong embedding space

  • Code do AI viết thường trông tệ hơn thực tế
    Nó quá dài dòng, rối rắm, nhét đầy fallback, nên khi có vấn đề thì chảy qua vô số try/catch rồi đẩy stack trace sang những chỗ chẳng liên quan
    Dù vậy, nếu chỉ xét chức năng thuần túy thì nhiều khi nó vẫn chạy tốt hơn code do người viết nhưng có bề ngoài tương tự

    • Dù thế, đoạn code được mô tả như vậy vẫn là code tệ
      Vì cả người lẫn LLM đều khó suy luận về nó
  • Tôi mong có nhiều hơn kiểu văn phong blog như thế này
    Độ dài vừa phải, thông điệp truyền đạt tốt, lại có tính kể chuyện
    Dạo này có quá nhiều AI slop do LLM tạo ra dài như tiểu thuyết nên đọc bài như vậy càng thấy đáng quý hơn

  • Với nhiều người trong ngành, đây là một diễn biến khá hiển nhiên
    Vấn đề là số tiền bị ràng buộc vào đó quá lớn, nên các tay chơi lớn vẫn cứ tiếp tục đẩy thứ họ muốn

  • Điều này khiến tôi tưởng tượng rằng các hạt dưới nguyên tử thực ra là những vũ trụ riêng, và tính chất của chúng phản ánh những thực thể từng thống trị các vũ trụ đó cùng dấu vết của hệ thống tự động hóa vẫn tiếp tục vận hành sau khi họ biến mất
    Kiểu như những cỗ máy tự động thu hoạch entropy rồi tiếp tục tự nhân lên vậy
    Chúng ta đang tạo ra một sức mạnh lớn hơn chính mình, và đến một lúc nào đó có thể chạm tới điểm không thể quay đầu

    • Tôi không dám nói là đã hiểu hoàn toàn, nhưng hình dung đó rất thú vị
      Nó khiến người ta liên tưởng đến vô số vũ trụ và nền văn minh hạ nguyên tử hưng thịnh rồi suy tàn, thậm chí bị các công nghệ giống trí tuệ tự trị nuốt chửng, và ở cấp vĩ mô thì điều đó bộc lộ ra dưới dạng hành vi của hạt
      Giờ đây rốt cuộc chúng ta cũng đang tạo ra một hạt như thế, và những lựa chọn tập thể của chúng ta có lẽ sẽ tạo ra ảnh hưởng rất nhỏ nhưng vẫn có ý nghĩa lên vũ trụ cấp trên mà chúng ta thuộc về
  • Đầu ra của ai đó rồi cũng luôn trở thành đầu vào của người khác
    Nếu dùng LLM để tăng sản lượng, người kế tiếp lại dùng LLM để parse nó và tạo ra đầu ra của mình
    Cứ nối tiếp như thế, đến khi người tiêu dùng cuối cùng phàn nàn thì sẽ chẳng ai còn xác định được rốt cuộc sai ở đâu

    • Dĩ nhiên lúc đó người ta sẽ bảo là do người tiêu dùng cuối dùng sai thôi
      Vì trước mắt chỉ còn người tiêu dùng cuối, còn tất cả những người khác thì nấp sau 7 tầng proxy