5 điểm bởi GN⁺ 4 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Giữa năm 2026, chủ nghĩa bi quan kiểu “AI psychosis” đang lan rộng trong giới đầu tư; lập luận cốt lõi là nếu mô hình làm mọi thứ tốt hơn, thì mọi công ty xây trên nó rốt cuộc chỉ là thin wrapper sẽ bị hấp thụ
  • Devin, AI SWE đầu tiên, năm 2024 chỉ giải được 13% bài benchmark tiêu chuẩn, nhưng chỉ sau 1 năm rưỡi, tác nhân tốt nhất đã đạt mức cuối 80%, cho thấy mô hình đang nhanh chóng lấn chiếm từ các vùng có thể đo lường được
  • Thứ gì đo được thì sẽ trở thành mục tiêu huấn luyện và rơi xuống mức commodity, còn đáp án riêng tư và tốn kém để xác minh thì không thể đọc ra từ leaderboard
  • Giá trị thực nằm ở những vùng mô hình không chạm tới được như license, liability và chủ thể chịu trách nhiệm; nút thắt không phải trí tuệ mà là quyền truy cập (permission) và trách nhiệm giải trình (accountability)
  • Trí tuệ càng rẻ, giá trị càng dịch chuyển tới một số ít vị trí mà mô hình không thể với tới; “vùng không thể huấn luyện (untrainable)” chính là hào lũy cuối cùng

Chủ nghĩa bi quan của nhà đầu tư và logic của nó

  • Giữa năm 2026, tâm lý bi quan trong giới đầu tư là cảm giác không còn gì đáng để đầu tư, chỉ nên bỏ tiền vào Anthropic và Nvidia rồi dừng lại
  • Nếu mô hình làm mọi thứ tốt hơn, thì mọi công ty xây trên nó chỉ là thin wrapper chờ bị hấp thụ, và giá trị sống sót duy nhất chỉ còn compute cùng frontier weights
    • Ví dụ được logic này dựa vào mạnh nhất là lĩnh vực phần mềm

Bài học thực sự từ phần mềm

  • Khi ra mắt năm 2024, Devin chỉ giải được 13% bài benchmark phần mềm tiêu chuẩn nên hầu như bị xem nhẹ, nhưng 1 năm rưỡi sau, tác nhân tốt nhất đã lên tới mức cuối 80% và thực sự làm việc nội bộ tại Goldman Sachs và U.S. Army
  • Gần như ai cũng rút ra bài học sai rằng “mô hình đã nuốt chửng software engineering”, nhưng engineering vốn luôn kháng cự việc đo lường, và phần dễ đo nhất không phải lúc nào cũng là phần quan trọng duy nhất
  • Mert Demirer của MIT và các đồng tác giả đã định lượng trên hơn 100.000 lập trình viên: coding agent hiện đại làm lượng code được viết tăng khoảng 180%, nhưng lượng thực sự được deploy chỉ tăng khoảng 30%
    • Viết code đã rẻ hơn, nhưng phần còn lại vẫn phải đi qua con người, và chính phần đó mới quan trọng

Cái gì đo được thì sẽ trở thành mục tiêu huấn luyện

  • Benchmark là thứ có thể đo; thứ có thể đo thì có thể bị huấn luyện để chinh phục, vì vậy coding agent trưởng thành sớm nhất
    • Compiler và test suite hoạt động như bộ xác minh miễn phí (free verifier); đáp án có thể tự kiểm tra nên cứ lặp lại cho tới khi qua được
  • Nhưng việc pass test không nói cho ta biết thay đổi đó có phải là lựa chọn đúng cho một codebase 10 năm tuổi hay không
    • Ba lý do không được tài liệu hóa khiến module tồn tại, hay pipeline deploy được duy trì bằng một cron job mà chẳng ai thừa nhận mình viết, là những thứ không thể đọc ra từ leaderboard
  • Tính đúng đắn của một hệ thống phức tạp chỉ có thể biết được sau khi chạy đủ lâu trong thế giới thực, và mô hình thông minh hơn không thể làm thế giới chạy nhanh hơn
    • Noam Brown, người tiên phong mô hình suy luận tại OpenAI, từng nói rằng cách chắc chắn duy nhất để đánh giá một tác nhân ở mốc 1 năm có thể là cho nó chạy suốt 1 năm

Những thứ chỉ di chuyển theo tốc độ của tổ chức

  • Theo Gabe Pereyra, tự động hóa thực sự không chỉ là cải thiện mô hình mà là product, model, workflow và firm cùng chuyển động; trong đó ba thứ vận động theo tốc độ của tổ chức
  • Phần benchmark không chạm tới là việc làm con người thay đổi: đổi cách làm của một đối tác hoài nghi hoặc giữ được cả đội trong quá trình tái cấu trúc
    • Khi tuyển CEO, người ta coi trọng khả năng làm việc với con người ngang với năng lực phân tích, và mô hình thông minh hơn không làm thay đổi trọng số này
  • Mọi công ty đều đã trao frontier coding model cho toàn bộ kỹ sư, nhưng chưa có nơi nào thay đổi được tổ chức kỹ thuật (eng org) với tốc độ tương ứng
    • Việc triển khai diễn ra chỉ trong một quý, nhưng việc tái cấu trúc vẫn mất nhiều năm

Công việc có thể đọc được đang rời đi

  • Những gì có thể đưa lên leaderboard thì sớm muộn cũng có thể bị huấn luyện để chinh phục, nên mọi công việc có thể đo lường đã và đang trượt về commodity, và hướng đi này không đảo ngược
  • Theo phép ví von của Matt MacInnis từ Rippling, một token trả lời câu hỏi chung chung gần như vô giá trị vì mô hình nào cũng trả lời được, nhưng token suy luận trên dữ liệu công ty thì có giá trị hơn nhiều
  • Công việc có thể đọc được đang bị xói mòn từ cả hai phía
    • Từ dưới lên, bài toán bị bão hòa khiến người mua không còn hỏi “đó là mô hình nào” mà hỏi “chi phí bao nhiêu”, rồi rơi về open/distilled model rẻ nhất trong tuần đó
    • Từ trên xuống, các lab đang kéo retrieval, routing, tool use, reasoning policy và những scaffolding từng bao quanh mô hình vào trong weights, tạo nên absorption frontier
  • Áp lực biên lợi nhuận cũng vận hành theo chiều ngược lại: tác nhân tổng quát phải chuẩn bị cho mọi thứ nên đắt đỏ, còn ứng dụng tập trung có thể được tinh chỉnh để chạy một workflow duy nhất với chỉ một phần chi phí token, và trực tiếp giữ phần chênh lệch đó

Ma trận 2x2 và “vùng không thể huấn luyện”

  • Với mọi công việc, có thể hỏi hai điều: tính đúng đắn của nó có mang tính riêng tư và tốn kém để thiết lập không, và nó có bị nhốt trong những hệ thống không thể đi vào không
  • Giao hai điều đó với mức độ bão hòa của bài toán sẽ tạo thành cấu trúc 2x2
    • Bão hòa + đáp án công khai = token dạng commodity, nơi open model chiếm lĩnh
    • Frontier + đáp án công khai (nơi coding benchmark nằm) = lab chiến thắng; nếu đánh giá là miễn phí thì quyền sở hữu không còn nhiều ý nghĩa
    • Góc cuối cùng = công việc frontier mà tính đúng đắn chỉ tồn tại riêng tư, và đó là untrainable
  • Điều này có thể thấy trong inference cloud, nơi các công ty AI-native dẫn đầu tạo ra phần lớn token không phải bằng open model tổng quát mà bằng custom model
  • Bức tường để đi vào góc cuối cùng này có độ cao khác nhau
    • Codebase đồ chơi của một lập trình viên cá nhân có thể di chuyển được, được chuẩn hóa và có lối vào ngắn
    • Hệ thống production của một ngân hàng thì không như vậy; thông minh hơn thêm 2% trên SWE-Bench Verified cũng không giúp bạn có quyền root

Nút thắt không phải trí tuệ mà là quyền và trách nhiệm

  • Mô hình tốt hơn cũng không thể biến private ground truth thành công khai, không thể nắm license, ký vào liability, sở hữu file của công ty hay trở thành bên bị kiện nếu câu trả lời sai
    • Nút thắt không phải trí tuệ mà là permission và accountability
  • Cánh cửa đó có cả ổ khóa và then cài
    • Ổ khóa là môi trường: chỉ khi giành được niềm tin qua kiểm tra bảo mật, tích hợp và các hợp đồng đặt tên tuổi lên kết quả thì mới có thể xác minh tính hữu ích của AI bên trong hệ thống
    • Then cài là người dùng: thói quen mỗi ngày mở OpenEvidence của rất nhiều bác sĩ Mỹ là thứ không thể mua được chỉ bằng compute
  • Ngay cả khi ngày mai huấn luyện được một mô hình y khoa hoàn hảo, vẫn không có con đường nào để chui vào thói quen của bác sĩ hay luồng ra quyết định tại UCSF; niềm tin tích lũy chậm chạp trên nền quan hệ và sự đồng thuận của người dùng

Bản chất của chính công việc đó

  • Con đường để một ứng dụng giành được vị trí trong góc untrainable không hề hào nhoáng: đó là công việc sắp xếp (arrange) để mô hình có thể xử lý thực tại riêng tư của công ty, trao cho nó công cụ để hành động, và cùng khách hàng thay đổi thực tế nhân sự
    • Công ty mang đến dịch chuyển đổi (translation) này thì khó bị sao chép, và sự chuyển đổi đó không bao giờ kết thúc
    • Tích hợp và bảo trì kéo dài chừng nào quan hệ còn tồn tại; đội ngũ đặt kỹ sư và công cụ chuyên biệt theo domain bên cạnh khách hàng sẽ chiến thắng
  • Ví dụ: M&A tại hãng luật lớn

    • Tại một hãng luật white-shoe hàng đầu, chỉ riêng một bộ phận M&A cũng xử lý khoảng 1.000 thương vụ mỗi năm; không thể để hàng trăm associate tải từng client file về desktop rồi cho một tác nhân tổng quát rà soát
      • Có nhiều lý do, như tính bảo mật; và kể cả làm được, thứ thu về cũng chỉ là những mảnh rời rạc từ từng lần chỉnh sửa của từng người, chứ không thấy được toàn bộ luồng của thương vụ
    • Tín hiệu có ý nghĩa tồn tại ở cấp độ thương vụ (level of the deal), và thương vụ có hình thái riêng
      • M&A gồm NDA, term sheet, diligence, purchase agreement, ancillaries, closing checklist
      • IP litigation gồm motion, discovery, prior art, các motion bổ sung
      • Mỗi practice area đều có tính đặc thù riêng, và cả luật sư lẫn công cụ đều không thể hoán đổi cho nhau
    • Vấn đề mà hãng luật thực sự giải là ở tầng cao hơn: vận hành song song mọi practice area, để top partner quay hàng trăm vụ cùng lúc trong khi vẫn mang thêm vụ mới về và đào tạo associate
      • Sự chuyển đổi của kiểu hãng luật này không phải một bài toán đơn lẻ có thể dùng làm eval; nó đòi hỏi operator điều hành tinh vi trong bối cảnh mục tiêu trung gian cực kỳ mơ hồ, phản hồi không hoàn chỉnh, thời gian rất dài và môi trường không đứng yên

Giá trị khó đọc cũng khó bán

  • Từ bên ngoài, ngay chính công ty cũng không biết liệu AI có thay đổi vận hành hay không, nên những doanh nghiệp mạnh nhất ngừng cố chứng minh ra bên ngoài mà đi vào bên trong để định giá theo outcome
  • Sierra tính phí khi tác nhân giải quyết được vấn đề khách hàng và không tính nếu phải chuyển cho con người; giá cả trở thành đánh giá, và điều này hoạt động vì Sierra sở hữu định nghĩa của “resolved”
  • Devin của Cognition cũng đưa ra performance guarantee tương tự trong phần mềm; cách làm này chỉ khả thi với outcome bên trong một hệ thống đã được tin cậy

Ngay cả token serving cũng không hoàn toàn là commodity

  • Ngay cả token serving, thứ từng bị gọi là commodity thuần túy, cũng không vận hành như vậy; các công ty AI-native tốt nhất tập trung serving vào một hoặc hai nơi (Baseten hoặc Fireworks)
    • Chi phí trên mỗi token đúng là sẽ commodity hóa như dự báo, nhưng reliability dưới tải thực và quyền truy cập được đảm bảo vào compute khan hiếm thì không
    • Chọn phục vụ ở đâu là quyết định khác với chọn dùng mô hình nào; trong inference, phần hành xử như commodity chỉ là giá (price)

Phản biện rằng lab là nhà cung cấp

  • Một phản biện phổ biến là vì lab là nhà cung cấp, họ có thể vận hành sản phẩm riêng dưới giá vốn để bóp chết bên khác hoặc rút API access rồi lấy luôn thị trường; đó là phiên bản thật sự của chủ nghĩa bi quan
  • Lập luận này chỉ đúng nếu tầng mô hình là trò chơi một người, nhưng rõ ràng không phải vậy
    • Nó giống một “trận tử chiến 3,5 bên” với cả các đối thủ quốc tế chậm hơn 6 tháng cùng nhập cuộc, và giải đấu phát triển đã lớn gấp 5 lần năm ngoái
    • Khách hàng muốn có cạnh tranh giữa các nhà cung cấp, và lab muốn market share hơn là giết chết một ứng dụng cụ thể
  • Có thể quan sát điều này ở những thị trường nơi các lab cạnh tranh trực diện; trong consumer chat, mô hình tốt nhất chưa bao giờ đơn giản là kẻ chiến thắng
    • ChatGPT duy trì vị trí dẫn đầu suốt nhiều năm trong cạnh tranh thực, và phần thị phần hiện mất đi đang chuyển sang Gemini nhờ Android và Search, chứ không phải vì mô hình tốt hơn
    • Anthropic, theo prediction market và bầu không khí trên internet, thường được xem là có mô hình tốt nhất, nhưng trong consumer chat gần như không tạo biến số lớn và lại xây được doanh nghiệp ở enterprise và coding
    • Nếu ngay cả ở ứng dụng trung tâm nhất mà mô hình tốt hơn còn không kéo được người dùng từ đối thủ, thì nó cũng không thể dùng tích hợp để xuyên vào hồ sơ bệnh viện hay trách nhiệm pháp lý của ngân hàng

Quyền định nghĩa đâu là câu trả lời tốt

  • Nếu bên ngoài không thể chấm điểm, thì phải có ai đó bên trong quyết định thế nào là câu trả lời tốt, và chính quyết định đó là toàn bộ cuộc chơi
    • Khi những quyết định như vậy tích lũy đủ nhiều và được ghi lại, chúng trở thành benchmark; Harvey công bố benchmark cho pháp lý, Sierra cho voice agent
    • Quyền định nghĩa good trong một lĩnh vực chỉ có được khi trở thành chủ thể mà lĩnh vực đó đã và đang sử dụng, và họ giành quyền này qua cuộc vật lộn của triển khai thực tế
  • Những đánh giá thực sự quyết định dòng tiền đều mang tính riêng tư và theo từng firm: công ty này chấp nhận điều gì là công việc tốt trong loại vụ việc này; độ sâu của pháp lý vượt xa mọi bài test công khai nên quá trình đó không bao giờ hoàn tất
  • Đây không phải đo lường mà là phán đoán (judgment) về điều gì là đúng và điều gì là tốt, được ghi chép lại rồi thành chuẩn, và foundation lab dù thông minh đến đâu cũng không thể tự viết ra
    • Vị thế đó chỉ tồn tại bên trong lĩnh vực, và quyền uy luôn neo vào đúng nơi vốn đã có nó
    • Benchmark pháp lý do luật sư cấp cao quyết định, định nghĩa câu trả lời lâm sàng an toàn do bác sĩ quyết định, còn ý nghĩa của “resolved” do công ty đã sở hữu khách hàng quyết định

Tuyến phòng thủ phải được thẩm định lại mãi mãi

  • Khi ngày càng nhiều loại công việc trở nên đo được, absorption frontier sẽ tiếp tục dâng lên, và thứ gì trở nên đo được thì sẽ bị nuốt chửng
  • Phần đất untrainable dưới chân người đứng trên nó sẽ co lại, nên không thể yên vị ở chỗ an toàn; phải liên tục bước sang những nơi chưa được chấm điểm và không ngừng re-underwrite
  • Nếu trên một bài toán hẹp, bạn dùng dữ liệu riêng tư và eval nội bộ để huấn luyện tới tận frontier, thì ở điểm đó có thể đánh bại mô hình tổng quát, và mô hình chuyên biệt đó trở thành một phần của moat
  • Ngược lại, cạnh tranh với mô hình tổng quát là bước vào cuộc chiến vốn mà bên có nhiều compute nhất sẽ thắng; đó là cái bẫy của các công ty có lối vào nông và bài toán dễ đọc
    • Vào ngày bạn quyết định để sống sót thì phải huấn luyện vượt frontier trong vùng tổng quát, người thắng đã được quyết định bằng quy mô data center, và kết cục không phải nhà vô địch độc lập mà là bán mình cho bên giàu compute hơn

Cuộc tấn công khó hơn: nên xây cái gì

  • Tất cả những điều trên đều là phòng thủ; phần khó hơn là tấn công: ngay từ đầu phải chọn xây cái gì, và kiểu cơ hội này chỉ xuất hiện chừng ba lần mỗi năm
  • Mô hình không giúp được ở đây; nó làm bất cứ thứ gì bạn chỉ vào, nhưng không nói cho bạn biết điều gì đáng để chỉ vào, và vì không benchmark được nên cũng không thể huấn luyện
    • Đó là lý do những kẻ mạnh sẵn có không lấy được tất cả; thứ tiếp theo sẽ xuất hiện từ ai đó nhìn ra công dụng trước phần còn lại
    • Có lẽ ý định (intent) còn là đầu vào khan hiếm hơn cả compute

Kết luận: giá trị có lịch sử

  • Chủ nghĩa bi quan chỉ đúng một nửa; lớp thin wrapper thực sự đang bị hấp thụ, và nhiều thứ hôm nay trông như công ty thực ra chỉ là thin wrapper
    • Nhưng nó sai về thứ sẽ còn lại; cơ chế hấp thụ thì rõ, còn điểm đến cuối cùng thì chưa rõ
  • Trí tuệ sẽ tiếp tục rẻ đi, và giá trị trượt về một số ít vị trí mà mô hình không chạm tới được; đó là vùng untrainable“giá trị có lịch sử (value with history)” như quan hệ, niềm tin và phán đoán tích lũy qua thời gian, những thứ không thể sao chép bằng huấn luyện
  • Vì vậy đừng cố sở hữu bản thân trí tuệ, mà phải đi vào một miền nơi đáp án chỉ tồn tại bên trong chính lĩnh vực đó (“get inside one”)
    • Tự làm công việc dịch chuyển đổi (translation) không hào nhoáng để mô hình có thể xử lý thực tại riêng tư của công ty
    • Điều cốt lõi là trở thành chủ thể ghi lại thế nào là good (câu trả lời tốt) trong lĩnh vực đó để định nghĩa chuẩn, vì vị trí này không bỏ trống: nếu bạn không lấy, chắc chắn sẽ có người khác lấy
  • Điểm benchmark được trích dẫn nhiều nhất trong năm không phải thứ để khoe mà là lời cảnh báo: bản đồ của vùng đất sắp mất giá và thông báo gửi tới kẻ sắp mất quyền nói thế nào là good
    • Một khi thứ gì đó đã có thể đo công khai, đó là tín hiệu nó sắp thành commodity; chấm điểm công khai nghĩa là ai cũng có thể bắt kịp, nên ngay cả kẻ đứng đầu bằng số điểm đó rồi cũng sẽ mất quyền định nghĩa chuẩn good

Chưa có bình luận nào.

Chưa có bình luận nào.