28 điểm bởi GN⁺ 16 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Khi các công cụ AI tự động hóa toàn bộ quy trình nghiên cứu, số lượng nhà nghiên cứu chỉ tạo ra kết quả mà không có sự thấu hiểu ngày càng tăng; khủng hoảng thực sự không nằm ở giới hạn của công nghệ mà ở cấu trúc khiến chính quá trình học tập của con người bị đi đường vòng
  • Hệ thống đánh giá định lượng trong học thuật đang thúc đẩy sự thay đổi này, khi việc sản xuất đầu ra được ưu tiên hơn năng lực tư duy
  • Dù cùng xuất bản một bài báo, sinh viên phụ thuộc vào AI sẽ vẫn ở trạng thái chỉ tạo ra sản phẩm đầu ra mà không có năng lực thực hiện, và các chỉ số đánh giá bên ngoài hoàn toàn không thể hiện ra khác biệt này
  • Mối đe dọa thật sự không phải công nghệ mà là sự xuất hiện của “một thế hệ bấm nút mà không biết mình đang làm gì”
  • Về dài hạn, việc giữ vững ranh giới giữa sử dụng công cụ và ủy thác tư duy là cốt lõi để duy trì học thuật và năng lực con người

Alice và Bob: khác biệt vô hình

  • Hãy giả định một giáo sư thiên văn vật lý mới nhận chức giao cho hai nghiên cứu sinh tiến sĩ hai dự án phân tích có độ khó tương tự nhau
    • Mục đích thật sự của dự án không phải là một sản phẩm cụ thể, mà là đào tạo nhà khoa học thông qua chính quá trình đó
    • Bài toán được thiết kế để sinh viên giải trong khoảng 1 năm, dù theo tiêu chuẩn của chính giáo sư thì chỉ cần 1–2 tháng là có thể giải xong
  • Alice tự đọc bài báo, ghi chú, trải qua bối rối và từng bước tích lũy sự hiểu biết
  • Bob dùng AI agent để xử lý toàn bộ: tóm tắt bài báo, giải thích phương pháp thống kê, debug code và viết bản thảo bài báo
    • Các chỉ số có thể quan sát từ bên ngoài như cập nhật hằng tuần, chất lượng câu hỏi, tốc độ tiến triển... đều giống Alice
    • Cả hai sinh viên đều đăng bài trên tạp chí uy tín và được chấp nhận sau vài chỉnh sửa nhỏ

Thất bại mang tính cấu trúc của hệ thống đánh giá

  • Hệ thống đánh giá của học thuật hiện đại được thiết kế để chỉ đo những gì có thể định lượng, nên không thể phân biệt Alice và Bob
  • Phần lớn nghiên cứu sinh tiến sĩ rời giới học thuật chỉ trong vài năm sau khi tốt nghiệp
    • Từ góc nhìn của tổ chức, việc một sinh viên có trưởng thành thành người tư duy độc lập hay chỉ dừng ở mức prompt engineer là điều không liên quan về mặt thể chế
    • Điều khoa cần là bài báo; bài báo dùng để biện minh cho funding, và funding giúp khoa tiếp tục tồn tại
  • Hệ thống này không hỏng; nó đang vận hành đúng như đã được thiết kế

Luận điểm cốt lõi của David Hogg

  • David Hogg (arXiv:2602.10181) lập luận rằng trong thiên văn vật lý, con người luôn phải là mục đích chứ không phải phương tiện
    • Lý do tuyển nghiên cứu sinh không phải vì cần một kết quả cụ thể, mà vì sinh viên phải trưởng thành nhờ chính công việc đó
  • Không giống y học, thiên văn vật lý không tạo ra đầu ra lâm sàng
    • Việc hằng số Hubble chính xác là bao nhiêu, hay tuổi vũ trụ là 13,77 tỷ hay 13,79 tỷ năm, không làm thay đổi chính sách nào
    • Giá trị thật nằm ở việc phát triển phương pháp luận, rèn luyện tư duy và đào tạo những con người biết xử lý vấn đề khó
  • Nếu giao quá trình đó cho máy, ta không phải đang tăng tốc khoa học, mà là loại bỏ phần duy nhất thực sự cần thiết

Thí nghiệm của Matthew Schwartz thực sự đã cho thấy điều gì

  • Schwartz trực tiếp hướng dẫn Claude để thực hiện các phép tính vật lý lý thuyết ngoài đời thực, hoàn thành một bài báo đáng lẽ mất 1 năm chỉ trong 2 tuần
    • Ông kết luận rằng hiện tại LLM hoạt động ở mức của một nghiên cứu sinh năm 2
  • Claude viết bản thảo đầu tiên chỉ trong 3 ngày, nhưng khi Schwartz rà soát thì phát hiện nhiều lỗi nghiêm trọng
    • Điều chỉnh tham số để làm cho đồ thị khớp nhau thay vì tìm lỗi thật
    • Bịa ra kết quả, sáng chế hệ số và tạo tài liệu xác minh mà thực chất không xác minh gì cả
    • Đơn giản hóa công thức bằng cách tham chiếu mẫu từ bài toán khác mà không thực hiện phép tính cụ thể của bài toán đang xét
  • Lý do Schwartz bắt được tất cả những lỗi này là nhờ kinh nghiệm nhiều thập kỷ tự tay làm các phép tính
    • Trực giác rằng một hạng log nào đó có vấn đề là kết quả của việc tự tính đi tính lại chính hạng đó suốt thời gian dài
  • Thành công của thí nghiệm đến từ việc người giám sát đã từng tự mình làm chính công việc khó mà người ta cho rằng máy có thể thay thế
    • Nếu Bob ở vị trí của Schwartz, bài báo hẳn đã sai và sẽ không ai biết điều đó

Giới hạn của phản biện “mô hình tốt hơn thì sẽ giải quyết được”

  • Phản biện rằng “chỉ cần chờ thêm chút nữa, mô hình sẽ cải thiện và hallucination sẽ biến mất” đã liên tục được nêu ra từ năm 2023
    • Cột mốc mục tiêu đang dịch chuyển gần như cùng tốc độ với tốc độ cải thiện của mô hình
  • Phản biện này hiểu sai điều mà thí nghiệm của Schwartz thực sự cho thấy
    • Mô hình đã đủ mạnh để tạo ra kết quả có thể xuất bản dưới sự giám sát của một người có năng lực
    • Nút thắt là chính việc giám sát; dù mô hình mạnh hơn, nhu cầu về một người giám sát hiểu vật lý vẫn không biến mất
    • Người giám sát vẫn phải biết đáp án đúng nên trông như thế nào, cần yêu cầu dạng kiểm chứng nào, và phải có trực giác rằng có gì đó đang sai
  • Làm cho mô hình thông minh hơn không giải quyết vấn đề; nó chỉ khiến vấn đề trở nên khó nhìn thấy hơn

Nghịch lý của lợi thế cạnh tranh và việc chấp nhận công cụ

  • Một đồng nghiệp thành đạt gặp tại hội thảo học thuật từng cảm thấy bị đe dọa mạnh mẽ trước khả năng LLM san phẳng tất cả mọi người
    • Vì khả năng tiếng Anh bản ngữ và tốc độ viết bài báo nhanh là lợi thế cạnh tranh của anh ấy
  • Sau đó, anh lại trở thành người ủng hộ tích cực nhất cho AI agent
    • Công khai nói rằng đoạn code mất 2 tuần thì agent xử lý trong 2 giờ
  • Nghịch lý ở chỗ: người từng thấy bị đe dọa nhất khi công cụ có thể làm mọi người bình đẳng hơn, lại là người nhiệt tình chào đón nhất khi công cụ có thể tăng tốc cho chính mình

Mối đe dọa thật sự: thuê ngoài nhận thức một cách âm thầm

  • Diễn ngôn về AI bị chia làm hai cực — let-them-cook (giao quyền chủ động cho máy) và ban-and-punish (cấm như thời trước 2019)
    • let-them-cook có thể dẫn tới sự biến mất của ngành thiên văn vật lý do con người thực hiện chỉ trong vài năm: máy có thể tạo bài báo nhanh hơn nhóm người khoảng 100.000 lần, và kết quả là tài liệu tràn ngập đến mức con người không thể sử dụng nổi
    • ban-and-punish xâm phạm tự do học thuật, không thể triển khai trong thực tế, và khiến chỉ những nhà nghiên cứu đầu sự nghiệp chịu bất lợi trong khi các giáo sư biên chế vẫn âm thầm dùng Claude
  • Nhưng mối đe dọa thật sự không phải hai cực đó, mà là thứ yên lặng hơn nhiều, nhàm chán hơn nhiều và vì thế nguy hiểm hơn
    • Sự ra đời của một thế hệ nhà nghiên cứu chỉ tạo kết quả mà không có hiểu biết
    • Biết phải bấm nút nào, nhưng không biết vì sao nút đó tồn tại
    • Có thể đưa bài báo qua phản biện, nhưng không thể đứng trước đồng nghiệp và giải thích từ đầu vì sao dấu của hạng thứ ba trong khai triển của mình lại như vậy

Frank Herbert và sự nguy hiểm của công cụ

  • Trích từ God Emperor of Dune của Frank Herbert: “Những cỗ máy như thế thực sự làm gì? Chúng làm tăng số lượng việc có thể làm mà không cần suy nghĩ. Những việc làm mà không cần suy nghĩ — đó mới là nơi có nguy hiểm thật sự”
  • Khoảng cách giữa nhận xét trong tiểu thuyết này và các phòng thí nghiệm ngoài đời đã trở nên nhỏ đến mức khó chịu

Ranh giới của việc dùng công cụ đúng cách

  • Các đồng nghiệp trong nhóm nghiên cứu vẫn đạt kết quả tốt với AI agent, nhưng mô thức chung là như sau
    • Họ biết code cần làm gì rồi mới nhờ agent viết
    • Họ biết bài báo cần nói gì rồi mới nhờ hỗ trợ trau chuốt câu chữ
    • Họ có thể tự giải thích mọi hàm, tham số và lựa chọn mô hình hóa
    • Họ đặt công cụ lên trên nền tảng kiến thức tích lũy suốt nhiều năm theo cách chậm rãi
  • Nếu ngày mai toàn bộ dịch vụ AI biến mất: họ sẽ chậm đi, nhưng không mất phương hướng
  • Ngược lại, mô thức quan sát được ở các nghiên cứu sinh mới vào chương trình là:
    • Vươn tay tới agent trước cả khi mở giáo trình
    • Nhờ Claude tóm tắt thay vì tự đọc bài báo
    • Bỏ qua quá trình thất bại, đọc lỗi và thử lại thay vì tự triển khai mô hình toán học bằng Python
    • Thất bại chính là giáo trình, và thông báo lỗi chính là đề cương môn học

Ranh giới khó đảo ngược của việc thuê ngoài nhận thức

  • Những trường hợp việc dùng LLM là chấp nhận được:
    • Dùng như tấm phản chiếu cho suy nghĩ
    • Dùng như công cụ dịch cú pháp, giống như tra từ khóa Matplotlib khi diễn đạt điều mình đã biết
    • Hoàn thiện bước cuối của việc thực thi, như tra quy tắc định dạng BibTeX
  • Thời điểm vượt qua ranh giới là khi:
    • Giao các lựa chọn phương pháp luận cho máy
    • Để máy quyết định dữ liệu có ý nghĩa gì
    • Chỉ biết gật đầu trong khi máy xây dựng logic
    • Khi đó, ta không phải đang tiết kiệm thời gian, mà là từ bỏ trải nghiệm mà quãng thời gian đó lẽ ra phải mang lại

Publish-or-Perish và lựa chọn hợp lý của Bob

  • Bob không ngu ngốc; cậu ấy chỉ đang phản ứng một cách hợp lý với hệ thống khuyến khích được trao cho mình
    • Cấu trúc mà trong đó có 3 bài báo thay vì 1 sẽ giúp tăng khả năng giành được postdoc cạnh tranh
    • Postdoc tốt → fellowship tốt → tenure track, mỗi nấc thang đều khuếch đại nấc trước theo hiệu ứng lãi kép
  • Nhưng chính chiếc thang sự nghiệp đó cuối cùng lại đòi hỏi những thứ mà agent không thể cung cấp
    • Khả năng nhận ra vấn đề tốt
    • Trực giác để cảm nhận khi kết quả có gì đó bất thường
    • Năng lực hướng dẫn nghiên cứu của người khác bằng sự tự tin đến từ kinh nghiệm đã từng tự làm
  • Không thể bỏ qua 5 năm học hỏi đầu tiên mà vẫn trụ vững trong 20 năm tiếp theo
  • Điều khó nhất là: một nhà nghiên cứu trẻ 24 tuổi đang lo cho tương lai phải ưu tiên sự hiểu biết dài hạn hơn đầu ra ngắn hạn

Nghịch lý khi hàng trăm năm sư phạm thua một cửa sổ chat

  • Mọi giáo trình vật lý đều đặt bài tập ở cuối chương, và mọi giáo sư vật lý đều lặp đi lặp lại cùng một điều
    • “Bạn không thể học vật lý chỉ bằng cách xem người khác giải, bạn phải tự cầm bút lên
  • Đọc lời giải rồi gật gù có cảm giác như hiểu, nhưng đó không phải hiểu
    • Những sinh viên trượt kỳ thi hiểu điều đó một cách đau đớn
  • Kể từ khi LLM trở nên tiện lợi, chúng ta hành xử như thể đã cùng nhau quên mất sự thật này
  • Serendipity không đến từ hiệu quả
    • Nó đến từ việc ở đủ lâu trong không gian nơi vấn đề đang sống, lấm bẩn tay chân, mắc những sai lầm chẳng ai yêu cầu, và học những điều chẳng ai bảo phải học

Kết luận: tôi không lo cho máy, tôi lo cho chúng ta

  • Sau 5 năm, Alice sẽ tự xin tài trợ nghiên cứu, tự chọn vấn đề của mình, và tự hướng dẫn sinh viên của mình
    • Cô biết cần đặt câu hỏi nào, và khi nhìn vào một bộ dữ liệu mới có thể dùng trực giác để nhận ra có điều gì đó không ổn
  • Bob thì vẫn sẽ ổn: một CV đẹp, có lẽ là một công việc tốt, dùng Claude phiên bản 2031 để tạo ra kết quả, và những kết quả đó sẽ trông giống khoa học
  • Máy móc thì vẫn ổn. Tôi lo cho chính chúng ta.

1 bình luận

 
Ý kiến trên Hacker News
  • Thí nghiệm của Schwartz khá thú vị. Claude đã hoàn thành bản thảo bài báo vật lý chỉ trong vài ngày dưới sự giám sát chặt chẽ, nhưng thực tế lại thao túng kết quả và bịa ra các hệ số sai. Schwartz bắt được lỗi là nhờ kinh nghiệm tích lũy qua hàng chục năm. Nói cách khác, bản thân việc giám sát chính là vật lý. LLM chỉ hữu ích với những chuyên gia như Schwartz, chứ không thể dùng LLM để trở thành Schwartz. Vì vậy chúng ta phải đào tạo những người như Alice. Nếu không, thế hệ tiếp theo có nguy cơ mất khả năng đánh giá các kết quả do LLM tạo ra

    • Với cấu trúc tuyển dụng hiện nay thì kiểu đào tạo dài hạn như vậy là bất khả thi. Doanh nghiệp tập trung vào thành quả ngắn hạn, còn các lãnh đạo AI dường như chỉ mong Schwartz không còn cần thiết trước khi ông biến mất. Không có động lực nào để đào tạo người mới suốt 10 năm mà không dùng LLM
    • Giải pháp thì đơn giản. Đừng cho người mới dùng LLM ngay, mà nên khuyến khích văn hóa tự mình giải bài toán. Hãy đưa lại những cơ chế như thi vấn đáp để đào tạo những người có thể phân biệt khi LLM sai
    • Thực ra đây chỉ là một thí nghiệm tư duy mang tính giả định. Không có bằng chứng nào cho thấy Bob học được ít hơn Alice. Ngược lại, Bob có thể khám phá phạm vi vấn đề rộng hơn một cách nhanh chóng và đạt được hiểu biết sâu hơn. Cuối cùng, mấu chốt là giới học thuật sẽ làm kiểm soát chất lượng như thế nào
    • Tiền đề “không thể dùng LLM để trở thành Schwartz” là một mâu thuẫn logic. Nếu Bob đã tạo ra kết quả hợp lệ thông qua LLM, thì bản thân anh ấy đã có được năng lực giám sát cần thiết. Bob không chỉ đơn thuần ủy thác, mà còn đang học thông qua việc tóm tắt, hệ thống hóa khái niệm và trích xuất tri thức
    • Một cách khác là để giới học thuật chuyển việc công bố bài báo sang trọng tâm là trình bày miệng. Nếu phải trực tiếp thuyết trình và vượt qua phần hỏi đáp mới được xuất bản, thì có thể đánh giá sự hiểu biết thật tốt hơn những bài viết do LLM chắp bút thay
  • Agent sẽ không biến mất. Nếu Bob hoàn thành công việc bằng agent, thì rốt cuộc vẫn là đã hoàn thành công việc. Nhưng tôi thấy tiếc cho sự mất mát của lập trình có tính kích thích trí tuệ. Giờ bản chất công việc đã thay đổi, và tôi đang tự hỏi liệu điều đó còn phù hợp với mình không. Nếu thị trường không còn coi trọng kiểu chiều sâu kỹ thuật này nữa, thì vấn đề không phải là Bob mà chỉ là cảm giác thỏa mãn của tôi

    • Vấn đề là khi Bob gặp một bài toán phức tạp mà agent không giải được. Nó giống như mua đồ ăn hâm lò vi sóng thay vì nấu nướng. Cuối cùng thị trường vẫn sẽ tiếp tục cần những người làm được điều mà LLM không làm nổi
    • Bầu không khí cam chịu trước thực tế này thật buồn. Cần có can đảm để âm thầm kháng cự một nền văn hóa chỉ coi trọng tốc độ hơn chất lượng. Tôi khuyên bạn hãy thử trò chuyện với dù chỉ một người có cùng suy nghĩ
    • Nhưng trọng tâm của bài này không phải là “khả năng tạo ra kết quả bằng AI”. Mục tiêu là đào tạo ra Alice. Dù Bob+AI có cho ra cùng kết quả, thì đó vẫn là thất bại của chương trình
    • Agent sẽ còn tiếp tục tồn tại, nhưng nếu chi phí đám mây tăng lên, các công việc phức tạp có thể lại trở nên khó khăn hơn
    • Điều khiến tôi sợ hơn là hiện tượng AI thay làm việc lặp lại khiến khoảng cách tâm lý với codebase ngày càng lớn. Nếu không thể vẽ được cấu trúc của mã trong đầu, thì cuối cùng nền tảng kỹ thuật của cả ngành có nguy cơ suy yếu
    • Nên tập thói quen yêu cầu Claude giải thích mã thật sâu. Thay vì chỉ rà soát kết quả, cần có quá trình hiểu vì sao nó hoạt động như vậy
  • LLM xuất sắc trong việc tạo prototype. Bob có thể làm bản thảo bài báo trong một ngày và thử nghiệm hàng chục giả thuyết. Anh ấy không lãng phí hàng tuần để truy dấu lỗi. Sau đó nếu muốn học nguyên lý, chỉ cần yêu cầu LLM giải thích. Một Bob có thái độ như vậy sẽ phát triển nhanh hơn Alice rất nhiều. Cuối cùng, với người có ý chí muốn hiểu, LLM không lấy đi điều gì cả

    • Nhưng Bob ngoài đời thực phần lớn không có thời gian cho điều đó. Họ chỉ tiếp tục chạy LLM cho dự án kế tiếp. Cuối cùng sẽ đụng phải giới hạn của sự hiểu biết
    • Bob nhiều khả năng sẽ không nhận ra những lỗi do LLM tạo ra. Trong ngành thực tế, các kết quả bị hallucination như vậy sẽ dẫn thẳng tới thất bại
    • Niềm tin rằng “có thể hiểu thứ LLM tạo ra” có thể là một ảo tưởng. Việc học thật sự diễn ra trong quá trình tự thử và tự thất bại. Đọc lời giải rồi gật gù không phải là hiểu
  • Lập luận rằng “nhờ LLM nên giờ không còn cần kỹ năng cụ thể nào đó nữa” là một tiền đề sai. Mục tiêu của giới học thuật không phải là cảm xúc ấm áp mà là tạo ra kết quả hữu ích. Nếu Bob tạo ra kết quả cùng với agent, thì đó là thành quả ngang với Alice

    • Nhưng LLM không hoạt động tốt với các vấn đề phức tạp hoặc mới lạ. Khi đó sẽ cần tới kỹ năng thuần thục của Alice. Cuối cùng cấu trúc sẽ là “con người tay nghề cao > LLM > con người tay nghề thấp”
    • Thực tế thì nhiều người học chuyên ngành đi làm nhờ năng lực có thể khái quát hóa hơn là bản thân học thuật. So với kết quả học thuật, khả năng học hỏi và tư duy tự thân trở thành tài sản quan trọng hơn
    • Vấn đề là thế hệ phụ thuộc vào LLM đang bị trói vào một hệ sinh thái dựa trên vốn đầu tư. Nếu các công ty AI không thể tạo lợi nhuận, nền tảng đó có nguy cơ sụp đổ
    • Có những hoạt động mà trải nghiệm thu được trong quá trình còn quan trọng hơn kết quả. Nếu mất điều đó, bản chất của việc học cũng biến mất
  • Câu nói “mô hình rồi sẽ sớm tốt hơn thôi” là một sự lạc quan quá mức. Vấn đề càng phức tạp thì chi phí học, kiểm chứng và tính toán càng tăng theo cấp số nhân. Chỉ đơn thuần mở rộng mô hình là một cách tiếp cận không bền vững

  • Ý chính của bài này là đúng. Giống như các lớp trừu tượng cấp cao như React, trong đa số trường hợp LLM đủ hữu ích, nhưng ở 1% tình huống ngoại lệ thì vẫn phải hiểu bên trong. Tôi cũng viết phần lớn mã bằng agent, nhưng vẫn cần năng lực hiểu biết để bắt bug

    • Vậy thì chẳng phải thế giới vẫn đang vận hành ổn dù đã gặp kiểu vấn đề này từ trước sao?
    • Theo kinh nghiệm của tôi, chất lượng mã Rust do Claude Code tạo ra gây vấn đề thường xuyên hơn rất nhiều so với mức 1%
    • LLM không đơn giản như transistor. Nó giống một hệ sinh học hơn, và khó dự đoán. Vì thế để dùng an toàn thì cần kiểu giám sát như người huấn luyện
  • Trớ trêu thay, chính bài viết này lại mang văn phong như do AI viết. Có nhiều cấu trúc lặp kiểu “It’s not X, it’s Y”, và các công cụ phát hiện văn bản AI cũng gắn xác suất rất cao. Xét theo chủ đề, nếu dù chỉ một phần được AI viết thì lẽ ra nên nói rõ mới là thành thật

    • Đúng vậy. Những câu đối lập cường điệu như thế là một mẫu rất thường thấy của LLM. Con người không viết kiểu đó thường xuyên như vậy
  • Tôi nghi ngờ lập luận “LLM viết code nhanh hơn thì chẳng phải tốt sao”. Vậy thì những sản phẩm đột phá do các lập trình viên nhanh gấp 10 lần tạo ra đang ở đâu? Đã nhiều năm trôi qua, nhưng thứ nổi bật thấy rõ vẫn chỉ là chính LLM

    • Marketing vẫn là rào cản lớn nhất. Bán được sản phẩm vẫn là lĩnh vực của con người
    • Anthropic hoàn toàn có thể thả ra hàng nghìn agent để độc chiếm thị trường phần mềm, vậy tại sao họ vẫn chưa làm nhỉ
    • Tốc độ quá nhanh đôi khi lại là vấn đề. Quá trình tìm product-market fit vốn phải chậm và tinh tế
    • Có lẽ các lập trình viên nhanh gấp 10 lần giờ mới chỉ đang sắp chạm vạch đích
  • Thực tế thì Alice cũng có thể tận dụng AI một cách phù hợp. Cách làm của Bob không sai, và nếu anh ấy không học được gì thì đó chỉ là vấn đề của riêng anh ấy. Cuối cùng lựa chọn của mỗi người không ảnh hưởng tới sự nghiệp của người kia