Từ vài tháng trước, khi quan sát giới phát triển ở Hàn Quốc, tôi thấy những lập luận kỳ quặc kiểu như "mức sử dụng token chính là năng lực" đang lan truyền.
Rồi họ còn khăng khăng rằng chỉ cần một PRD được làm tốt là AI sẽ giải quyết được tất cả.
Ban đầu tôi chỉ nghĩ đó là kiểu làm quá thường thấy trong cộng đồng, nhưng khi những lập luận ấy cứ liên tục xuất hiện như thể là sự thật, đã có lúc tôi tự hỏi liệu mình có đang bị tụt lại phía sau không.
(Nhất là sau khi thấy những thứ như Oh-my-OpenCode.)
Nhưng khi thực sự đi tìm thì rất khó kiếm nổi dù chỉ một ví dụ tử tế, và việc tái hiện gần như là bất khả thi.
Trong cộng đồng frontier ở Mỹ hoàn toàn không có những tuyên bố như vậy, rồi khi OpenClaw xuất hiện, tạo được tiếng vang, và OpenAI lập tức tuyển luôn nhà sáng lập của nó, tôi càng tin chắc hơn.
(Nhất là khi thấy triết lý cốt lõi của OpenClaw là HITL(Human In The Loop).)
À, hóa ra không phải tôi bị tụt lại, mà là những lời cường điệu và ảo tưởng mang màu sắc tôn giáo trong cộng đồng Hàn Quốc đang lan truyền.
Hôm qua, nhà sáng lập OpenClaw cũng nói rằng
Bạn có thể tạo ra code và để nó chạy suốt đêm, nhưng kết quả cuối cùng chỉ là thứ rác rưởi hạng nhất.
và
CEO của YC là Garry Tan cũng nói rằng ông đồng cảm 100%.
https://x.com/garrytan/status/2043738478220062813?s=20
Trong vài tháng qua, khi chứng kiến những tuyên bố ảo tưởng kiểu này gây ra thiệt hại trực tiếp lẫn gián tiếp cho tôi, giờ tôi thật sự không thể nhịn thêm được nữa.
Tôi mong những người đưa ra các tuyên bố như vậy bị đánh bại.
Tôi là người rất lạc quan về AI và đã dùng Codex từ 5 năm trước.
Tôi nghĩ một ngày nào đó kiểu tự động hóa hoàn toàn như vậy sẽ thành hiện thực. Tôi thậm chí nghĩ nó có thể là năm sau như nhiều người vẫn nói.
Nhưng ít nhất, hôm nay chưa phải vậy.
66 bình luận
Nếu khẳng định đó là thật thì chắc hẳn nó đã đủ sức thay thế toàn bộ phần mềm hiện có ở Anthropic, Google và OpenAI rồi.
Ngay trong nội bộ công ty dạo này cũng đã xuất hiện một bầu không khí kỳ lạ kiểu như phải dùng thật nhiều token thì mới được đánh giá thành tích tốt.
Thật sự không biết là từ đầu ai nghĩ ra chuyện này nữa...
Mỗi lần đọc những bài viết kiểu giáo điều của nhóm đó là tôi thật sự nổi cả da gà.
Tôi có cảm giác như bài này được viết ra có chủ ý như vậy.
Nhưng cũng có điểm thế này.
Phần mà tất cả chúng ta đã nói tới 3 năm trước là chi phí AI rốt cuộc sẽ trở nên rẻ hơn.
Nhưng không phải vậy. Nó đang đắt hơn. Ngay cả các mô hình AI của Trung Quốc cũng vậy.
Vì thế gần đây, các cách như thay thế và sử dụng nhiều tầng mô hình trong một tác vụ để giảm chi phí, hoặc chạy hẳn mã nguồn mở, đặc biệt là gemma 4 (reasoning trace ngắn hơn nhiều), trên máy cục bộ để dùng cho agent, đang bắt đầu trở thành chủ đề được bàn tán. Ban đầu đây là điều mà ai cũng phản đối, nhưng bây giờ nó trông cực kỳ hợp lý và đang xuất hiện rất nhiều động thái liên quan. Tương tự, AI hiện là một cuộc chiến chưa có đáp án, nhưng đồng thời cũng đang dẫn tới một ngành mà mọi người tin chắc rằng người chiến thắng cuối cùng sẽ giành được rất nhiều.
Kết luận là tôi nghĩ ý của nó là như vậy.
Nhiễu, điều này cũng xuất hiện rất rõ trong các hoạt động quảng bá của những công ty AI frontier. Vậy thì vì các công ty này làm sai mà chúng ta sẽ không dùng chúng sao? Không. Chắc chắn vẫn sẽ dùng AI. Chỉ là cần biết cách lọc thông tin nhiễu. Càng đang đầy bất mãn thì lại càng phải như vậy.
Hành động không cần thiết, điều này trong đầu tư cũng giống như vậy. Những người đạt được thành quả trong đầu tư nhiều khả năng là những người đã nếm trải thất bại rồi. Với tư duy rằng tôi sẽ "không bao giờ" chịu lỗ, ngay từ đầu bạn đã khó mà bắt đầu đầu tư, và khi thị trường giảm chỉ cảm thấy nhẹ nhõm vì mình không đầu tư, cùng chút thương hại cho những người đã đầu tư; còn khi thị trường tăng thực sự thì chỉ còn lại cảm giác thất vọng. Tương tự, rốt cuộc trong AI, người có lợi thế vẫn là người tiếp tục theo dõi, dùng thử và thử nghiệm nhiều cách khác nhau. Tôi cảm nhận điều này còn mạnh hơn ở những người không phải developer. Có những người ban đầu không có kiến thức phát triển phần mềm, nhưng vẫn liên tục tận dụng, tìm tòi, học thêm kiến thức phát triển, rồi tạo ra phần mềm tốt hơn. Những người có "nhiệt huyết" như vậy khó bị đánh bại hơn ta tưởng rất nhiều. Bản thân tôi cũng cảm nhận điều này rất nhiều, và có lẽ luôn cố gắng để nhiệt huyết của mình không biến mất trong từng khoảnh khắc.
Kết luận là ralph cũng không phải là một khái niệm hão huyền, mà là một dạng khái niệm của industrial engineering, một phương pháp đã được chứng minh về mặt advantage trong khía cạnh test-time computing. Dĩ nhiên cũng có thể gọi nó là ảo tưởng, nhưng dù vậy, tôi nghĩ trải nghiệm từng quan tâm đến nó và cố tái hiện nó sẽ trở thành một tài sản lớn đối với bạn.
Đúng là có thể lọc bỏ nhiễu mà nghe, nhưng tôi nghĩ cần cẩn trọng với kiểu nói như “nếu thấy bất tiện thì hãy ngồi lại cho đúng tư thế”. Nếu đến mức việc nêu ra bất mãn cũng bị xem là có vấn đề, rồi gửi đi thông điệp kiểu “đừng cư xử như kẻ không thích nghi, hãy nhanh chóng thích nghi và trở thành người chiến thắng”, thì theo tôi đó chính là thứ dẫn tới chủ nghĩa kết quả mù quáng như hiện nay. Tất nhiên có lẽ đây không phải là điều anh định nói.
Và dù là kiểu looping như ralph, hay cách ensemble hỏi luân phiên nhiều model, hay subagent orchestration, thì lợi ích của những phương pháp test-time computing này vẫn chưa được chứng minh. Ngay từ đầu, các LLM hiện nay đã bị tiêm vào people pleasing behavior, nên nếu quan sát kỹ những kết quả bật ra trong quá trình đó, nhiều khi thay vì sửa thứ thực sự đáng sửa, chúng lại tạo ra vấn đề không tồn tại chỉ vì được bảo phải sửa rồi tự sửa nó.
Tôi cũng đồng ý rằng “trải nghiệm nhanh là tài sản lớn nhất” là một câu nói xuyên suốt thời đại này, nhưng tôi cho rằng việc dùng điều đó không chỉ như công cụ phục vụ tư lợi mà còn lạm dụng nó thì hoàn toàn đáng bị phê phán. Có lẽ chủ đề của bài gốc cũng là “Tôi không thích việc [cứ nhanh vô điều kiện, thật nhiều, đi trước tất cả mọi người] bị thổi phồng như thể đó là kịch bản phát triển dựa trên AI thành công.”
Tôi vừa mới thấy bình luận của bạn.
Có vẻ cập nhật bình luận đã không hiển thị tốt.
Cảm ơn bạn vì ý kiến hay.
Trước hết, tôi cũng muốn chia sẻ quan điểm của mình.
Thay vì xem việc nêu ra sự bất mãn (cá nhân tôi không cho rằng đó là bất mãn) là có vấn đề, mong bạn hiểu rằng tôi cũng chỉ đang nêu ý kiến về hiện tượng này. Vì không thể tạo ra một tình huống làm tất cả mọi người đều hài lòng, nên tôi cũng tôn trọng ý kiến của tác giả bài gốc và của người viết bình luận. Tuy vậy, tôi nghĩ ý kiến của tôi cũng nên được tôn trọng.
Theo quan điểm của tôi,
test-time computingđã là một trường hợp được chứng minh qua nghiên cứu. Tuy nhiên, tôi cho rằng phương phápensemblekhông hẳn là khái niệm củatest-time computing, mà là một cách để né tránh giới hạn của kích thướccontext window. Vấn đề ở đoạn này — 'thay vì sửa những thứ đáng sửa, vì được bảo phải sửa nên lại tạo ra một vấn đề không tồn tại rồi đi sửa nó' — thực sự đang xảy ra, nên có vẻ giải pháp tốt nhất hiện tại là dùngharnessđể chặn tối đa điều này.Và cuối cùng, về chuyện gọi là 'viral', tôi cũng đồng ý rằng có khá nhiều nhiễu và sẽ có nhiều người không thích. Tuy vậy, những người làm ra
harnessthực ra là những người đã phát hành nó dưới dạng mã nguồn mở, nên tôi có nghi ngờ về việc liệu ở đây có lợi ích riêng nào đáng kể hay không; thậm chí trong tình huống họ vẫn làm ra nó, cung cấp miễn phí, lại còn bị chỉ trích từ cả những người không thích nó, thì có thật là có lợi ích riêng gì đáng nói hay không. Dĩ nhiên, nếu họ kích động nỗi sợ để bán hàng, thì đó là hành vi sai và tôi đồng ý rằng đó là điều đáng bị phê phán.Một lần nữa xin cảm ơn ý kiến của bạn!
Thực tế là nó đã rẻ hơn rất nhiều so với 3 năm trước.
Vào thời GPT-4, dù có dùng gói trả phí thì cũng thường nhận được thông báo phải thử lại sau vài giờ, nhưng giờ thì ngay cả với gói 22 đô cũng không còn chuyện đó nữa.
Năng lực suy luận trên mỗi token đã tăng lên đến mức rất khó đem ra so sánh.
Nhưng điều quan trọng là, còn hơn cả thế, chúng ta đang dùng nhiều token hơn và trả nhiều tiền hơn cho các nhà cung cấp LLM (nghịch lý Jevons).
Không phải là tôi chưa từng dùng Ralph Loop.
Tôi cũng đã thử cả sub-agent driven development, thứ còn tốt hơn cả nó.
Nhưng rốt cuộc, theo kinh nghiệm của tôi, kết luận vẫn đúng như lời nhà sáng lập OpenClaw từng nói.
Nếu thật sự đạt được tự động hóa hoàn toàn, thì cũng chẳng cần phải miễn cưỡng dùng mấy thứ như Ralph Loop nữa.
Điều quan trọng nhất là trên thực tế nó vẫn không thể tạo ra được mã nguồn hay dịch vụ tử tế.
Tôi có phần đồng cảm với ý kiến của tác giả.
Tôi cũng đồng ý về năng lực trí tuệ trên mỗi đơn vị token và mức giá khi so với GPT-4.
Tuy nhiên, giá token sau khi giảm đã tăng trở lại, và nếu nhìn vào token suy luận, lượng token dùng cho mỗi tác vụ, cũng như lượng token mỗi cá nhân sử dụng, thì tác động này đang trở nên khá nặng nề đối với cả người dùng cá nhân lẫn phía vận hành dịch vụ AI. Đó là lý do Cursor, Intercom, Shopify, Chroma và những bên khác bắt đầu tự xây dựng mô hình riêng dựa trên mã nguồn mở. Tức là đã đến mức gần như không thể giữ được năng lực cạnh tranh về giá nữa.
Thực ra cái gọi là
ralphkhông hẳn là thứ gượng ép, mà là một bash script dựa trênwhile. Cấu trúc của nó đơn giản đến vậy. Điều chúng ta cần hiểu ở đây có lẽ là cuộc chiến xem liệu có thể hệ thống hóa hay không. Cái gọi là tự động hóa cũng là một quá trình: trích xuất chính xácintent, không lười biếng trong việc chia nhỏtask, thực hiện chúng một cách chuẩn xác để triển khai hoàn hảo không lỗi, và nếu chưa thể thì xác định cần xử lý phần nào.Tuy vậy, điểm tôi đồng cảm là sẽ rất tốt nếu mọi việc đó có thể được làm chỉ bằng một cú “tách”, nhưng như hẳn bạn cũng đã cảm nhận, thực tế hoàn toàn không phải vậy; ngược lại, vấn đề hiện tại có vẻ là nó tạo cảm giác phải thiết lập còn nhiều hơn cả khi làm việc với code. Và nhìn chung, dịch vụ cũng không mang lại điều gì để người dùng cảm nhận rõ rệt.
Nhưng điều tôi cảm nhận rất rõ là phần lớn mọi người không giỏi làm documentation đến thế. Vì không giỏi sắp xếp, tổng hợp nên họ khó biến thứ gì đó thành có tính hệ thống, và vì vậy tôi đã chứng kiến nhiều người gặp khá nhiều khó khăn khi làm những công việc kiểu này. Hơn nữa, AI cũng không hề hoàn hảo. Ở điểm đó, tôi thấy đây là một cơ hội. Tôi nghĩ giữa những người đã kiên trì làm việc này và những người không làm sẽ tạo ra khác biệt khá lớn. Những người đã có sức chịu đựng sẽ thích nghi rất nhanh, còn những người vì nhiều hoàn cảnh mà không làm được thì sẽ tiếp tục chậm lại và có lẽ bị nỗi sợ lấn át. Thực ra, đúng như tác giả nói, đây không phải chuyện cần phải cảm thấy “sợ hãi”, và có lẽ hướng đi tốt hơn là nghĩ theo cách đó.
Ý tôi là
while loopchỉ là một sự gượng ép.Ngay từ đầu, thứ đó xuất hiện là vì LLM không giỏi các tác vụ agentic nên đã kết thúc sớm (trả về EOS token).
Nếu thật sự xuất hiện một mô hình ở mức gần với AGI tối thượng, thì cũng sẽ không có việc phải dùng
while loop.Khả năng viết tài liệu của tôi có thể còn kém, nhưng Garry Tan hay Peter Steinberger thì không như vậy.
Nếu đó là vấn đề LLM không hoạt động đúng cách, thì chỉ cần cho thấy một bản demo best practice đủ khả năng tái hiện là được.
Nhưng tôi chưa từng thấy điều đó dù chỉ một lần.
Tôi cũng đồng cảm với ý kiến của tác giả.
Có vẻ như cũng có phần bị méo mó vì khía cạnh trải nghiệm rằng LLM là một hệ thống có thể trò chuyện và giao tiếp.
Cảm ơn bạn vì ý kiến rất hay.
Vậy thì liệu có cần một bản demo best practice nào đó không?
Tôi xin được hỏi cao kiến của bạn rằng khi một tác vụ nào đó được triển khai theo cách nào thì có thể đánh giá Ralph loop là ảo tưởng hay không.
Ý là chỉ với một PRD gần như hoàn hảo, chạy Ralph Loop để hoàn tất việc phát triển ở mức sẵn sàng cho production.
Sao cho nhìn thế nào cũng không giống kiểu AI Sloop.
À, vậy thì chỉ cần một bản PRD gần như hoàn hảo rồi chạy Ralph Loop là có thể tạo ra một sản phẩm ở mức nào đó được phải không?
Có thể làm AI chat của Channel Talk không?
Và tôi muốn hỏi thêm một điều nữa.
Không biết có thể thiết lập một thứ gọi là harness rồi tiến hành như vậy được không?
Vâng, dù là harness, multi-agent hay sub-agent thì cũng không quan trọng.
Cảm ơn ý kiến của bạn!
Đúng vậy. Sẽ rất hay nếu tạo ra những ví dụ như thế này haha
Thành thật mà nói, tôi thấy cách triển khai lập luận trong bài này còn đáng tiếc hơn cả chính vấn đề mà nó nêu ra.
Những cách diễn đạt như “lượng token sử dụng chính là năng lực”, “chỉ cần một PRD được làm tốt thì AI sẽ giải quyết mọi thứ” là các tuyên bố rất mạnh, nhưng rốt cuộc lại không thấy rõ là ai đã nói như vậy, ở đâu và trong bối cảnh nào. Vì thế, từ góc nhìn người đọc, bài viết này trông giống như đang gom vài lập luận cực đoan có tính đại diện không rõ ràng rồi phản bác chúng, hơn là phê phán một dòng chảy thực tế — tức khá giống ngụy biện người rơm.
Đặc biệt, kể cả với những người thực sự làm công cụ và tinh chỉnh workflow, bao gồm cả nhóm om, cá nhân tôi hầu như chưa thấy ai nói theo kiểu “chỉ cần một PRD là giải quyết được hết”. Ngược lại, họ vẫn liên tục lặp lại các chu kỳ phát hành, chỉnh sửa và kiểm chứng. Bản thân điều đó cho thấy tiền đề vẫn là con người còn bắt buộc phải phán đoán và can thiệp.
Vì vậy điều cần thận trọng hơn là, nếu kiểu mô tả này bị đọc lệch đi, nó có thể khiến một builder hoặc developer cụ thể trông như thể họ đã nói những điều mà trên thực tế họ chưa từng nói. Tôi nghĩ cách đó không hẳn là phê bình lành mạnh, mà gần với việc dựng lên một khung phóng đại rồi tấn công nó hơn.
Lượng token cũng vậy. Nó không phải thước đo tuyệt đối của năng lực, nhưng cũng khó có thể nói đó là một con số hoàn toàn vô nghĩa. Nếu chênh lệch mức sử dụng là rất lớn, thì đó có thể không chỉ là lãng phí đơn thuần mà còn là khác biệt về lượng khám phá, lượng thử nghiệm và lượng kiểm chứng, và điều này cũng có thể dẫn tới khác biệt về mật độ công việc thực tế. Trên thực tế, ông Jensen Huang cũng từng nói rằng nên sử dụng lượng token có giá trị hơn một nửa mức lương của mình.
https://www.youtube.com/shorts/XBnFPuru4xA
PRD tốt cũng không phải vạn năng mà là đòn bẩy. Vì vậy, rốt cuộc điều quan trọng không phải là một khung đơn giản kiểu “token có phải là năng lực hay không”, mà là trong tương lai chúng ta sẽ đánh giá năng lực giải quyết vấn đề bằng AI theo tiêu chí nào.
Tôi hoàn toàn đồng ý với điều bạn viết.
Thực ra, câu kiểu “lượng token sử dụng chính là năng lực” rõ ràng là sai và là một khung nhìn bị bóp méo.
Đúng hơn, nên nhìn theo góc độ rằng vào thời điểm nhận ra giới hạn của tài nguyên tính toán (bao gồm cả con người) mới là nút thắt cổ chai duy nhất, thì cũng là lúc ta nhận ra tầm quan trọng của lượng token sử dụng.
Tôi biết nhóm nào đang đưa ra những lập luận như vậy, nhưng nếu nêu đích danh thì có thể phát sinh vấn đề pháp lý nên tôi không nhắc tới.
Trong số các công ty nổi tiếng cũng có nơi đo cả lượng token sử dụng, và cũng có người ở dưới đang nhắc đến chuyện đó một cách ẩn danh.
Ngay trên GeekNews cũng có thể thấy những bài viết như thể đang khoe khoang lượng token mình đã dùng.
Những người đưa ra kiểu lập luận này không phải là đa số.
Nhưng ở phía AI tại Hàn Quốc, có một số nhân vật khá ồn ào đang nói như vậy, và việc Garry Tan liên tục chỉ trích fat harness trong mấy ngày gần đây có lẽ là bằng chứng cho thấy kiểu lập luận gần như tôn giáo đó ở Hàn Quốc đã lan sang cả phía Mỹ.
Việc mang lập luận của Jensen Huang ra rồi khẳng định như thể đó là sự thật mới chính là kiểu ngụy biện dựa vào quyền uy điển hình.
Jensen Huang vài chục năm trước là kỹ sư làm card đồ họa, còn bây giờ ông ấy cũng không còn là kỹ sư nữa, và cũng đâu phải chuyên gia về AI.
Tôi đồng ý về mặt tương quan, nhưng điều mà nhóm tôi đang nói tới chủ trương chỉ là chạy Ralph vô ích mà thôi.
Nói thật thì ngay cả trong bài báo gốc về o1 của OpenAI, nơi lần đầu đưa ra khái niệm test-time compute, họ cũng nói rất rõ rằng không phải cứ tiếp tục tăng lên là kết quả sẽ tiếp tục tốt hơn, hoặc điều đó chỉ đúng trong một số trường hợp.
Ngay cả như vậy thì đó cũng là câu chuyện về reasoning effort, chứ đương nhiên không phải bảo người ta chạy ralph loop.
Ngay trong hướng dẫn prompt của GPT-5.4 cũng ghi rõ rằng reasoning effort cao hơn không phải lúc nào cũng tốt hơn.
https://openai.com/index/learning-to-reason-with-llms/
https://developers.openai.com/api/docs/guides/prompt-guidance
Không chỉ vậy, về thiết kế thì họ thậm chí còn khuyến nghị giảm reasoning effort.
https://developers.openai.com/blog/…
Tôi nói điều này vì có những người khẳng định PRD như thể đó là thứ vạn năng, dù thực tế nó không phải vậy.
Tiêu đề rõ ràng là hỏi nghĩ gì về ảo tưởng gọi là Ralph loop, nhưng phần thân bài lại lan sang những câu chuyện rộng hơn và ở bối cảnh khác, thay vì xử lý cụ thể chủ đề đó, nên tôi có cảm giác toàn bộ bài viết không thật sự ăn khớp với tiêu đề.
Vì vậy, điều tôi nói không phải là tranh cãi xem “kiểu người như vậy có thực sự tồn tại hay không”, mà là phần thân bài được cấu trúc theo kiểu gom nhiều lập luận cực đoan có nguồn gốc và bối cảnh không rõ ràng lại rồi phản bác, nên đọc khá giống một kiểu phê phán người rơm.
Nhưng câu trả lời cho bình luận của tôi cũng không trực tiếp giải thích điểm đó, mà lại tiếp tục kéo thêm những nhân vật khác, những diễn ngôn khác và những ví dụ khác vào, nên thành thật mà nói tôi cảm thấy nó gần với việc làm mờ trọng tâm tranh luận hơn.
Đặc biệt, trong khi bạn phê phán việc trích dẫn phát biểu của người nổi tiếng là lối nói mang tính viện dẫn quyền uy, thì ở phần trả lời lại tiếp tục đưa Garry Tan, tài liệu OpenAI và các hướng dẫn về GPT ra làm căn cứ, điều này cũng có phần khá chọn lọc.
Tôi nghĩ việc cảm thấy khó chịu với văn hóa khoe khoang quá mức về lượng token sử dụng là điều có thể hiểu được. Tuy vậy, tách biệt với chuyện đó, việc gộp cả những người thực sự lặp đi lặp lại quá trình thử nghiệm, kiểm chứng và chỉnh sửa để mài giũa công cụ và workflow vào cùng một khung diễn giải thì theo tôi cũng là một kiểu cường điệu khác.
Bạn đánh giá bài viết chỉ bằng cách nhìn tiêu đề sao?
Vậy thì bạn nghĩ thế nào về bài báo "Attention Is All You Need"?
Garry Tan gần đây đã cho thấy năng lực sử dụng AI của mình khi tạo ra những kỹ năng LLM tốt như GStack.
Nhà sáng lập OpenClaw cũng vậy, và OpenAI là hướng dẫn chính thức của công ty đang dẫn dắt nghiên cứu và ngành công nghiệp LLM.
Ngược lại thì Jensen Huang thế nào? Mong là bạn đừng nói rằng chỉ vì ông ấy là người đứng đầu một công ty bán cuốc xẻng thì ông ấy hiểu rõ về vàng.
Ngay từ đầu, Jensen Huang cũng chỉ đang lặp lại lời của ai đó mà thôi.
Nếu thế này mà bị coi là đánh tráo luận điểm thì tôi cũng không còn gì để nói.
Tôi chính là người đang tinh chỉnh công cụ và quy trình làm việc đó, ý bạn là tôi đang tự dìm mình sao?
Tôi không phán đoán chỉ dựa vào tiêu đề, mà đang nói đến mức độ tiêu đề và nội dung chính ăn khớp với nhau như thế nào.
Và điều tôi nói không phải là chuyện Garry Tan hay OpenAI có thẩm quyền hơn Jensen Huang hay không, mà là việc anh/chị phê phán trích dẫn của người khác là chủ nghĩa sùng bái thẩm quyền, nhưng trong câu trả lời của chính mình lại tiếp tục viện dẫn một thẩm quyền khác làm căn cứ, nên cách đó có vẻ không nhất quán.
Cuối cùng, cách diễn đạt “đưa cả những người mài giũa công cụ và workflow vào cùng một khung” không nhằm chỉ đích danh một cá nhân cụ thể, mà là muốn nói rằng cách bài viết được thuật lại có thể khiến người đọc hiểu như vậy. Việc ngay lập tức tiếp nhận điều đó thành “ý là tự diss bản thân sao” có lẽ là cách diễn giải đã hơi vượt ra ngoài phạm vi bình luận của tôi.
Và nếu bạn cho rằng tiêu đề và nội dung có thể khác nhau, thì tôi muốn hỏi liệu có nên hiểu bài viết này không phải là một phân tích về chính Ralph loop, mà là một bài nhắm vào toàn bộ nhóm cụ thể mà bạn đã nhắc đến hay không.
Vì anh đã trích lời của Jenseunghwang, người cũng không phải chuyên gia AI/LLM.
Vâng, đúng là một bài viết nhắm vào một nhóm cụ thể.
Trong đó, tôi đã nhắc đến điều tiêu biểu và cũng kỳ lạ nhất là PRD + Ralph loop.
Không rõ là anh không biết có tồn tại một nhóm như vậy, hay chính anh thuộc nhóm đó nhưng giả vờ không biết.
Việc trong và ngoài nước liên tục chỉ trích những nhóm như thế đều có lý do cả.
Không có lửa thì làm sao có khói.
Và về mặt cá nhân, tôi thấy bài viết lần này khá đáng tiếc.
Tôi vẫn luôn cảm thấy thích GeekNews vì ở đó có thể đọc được những bài viết mang lại thông tin mà mình chưa biết, góc nhìn mới, và sự mở rộng tư duy, hơn là những bài nhắm vào một cá nhân hay một nhóm cụ thể.
Vì vậy, cách triển khai như lần này — khi mạch bài được dẫn dắt trên tiền đề về một nhóm cụ thể — khiến tôi đọc với cảm giác tiếc nuối hơn.
Ít nhất với tôi, GeekNews gần với một nơi giúp mở rộng suy nghĩ thông qua thông tin và bối cảnh cụ thể hơn, hơn là một không gian gói ghém ai đó vào một khung định sẵn rồi nhắm tới. Vì thế, điều khiến tôi thấy tiếc ở bài này, hơn cả bản thân lập luận, là cách lập luận đó được triển khai. Tôi xin để lại ý kiến đến đây.
Tôi đã nói điều này vài lần rồi.
Từ góc nhìn của tôi, việc nhắm trực tiếp vào một nhóm cụ thể hay một cá nhân cụ thể là không tốt.
CEO của YC và người sáng lập OpenClaw là những người đã tự chứng minh mình xứng đáng được gọi là chuyên gia AI.
Khác với Jensen Huang.
Tôi chưa từng nói PRD là ảo tưởng. Hãy nhìn vào ngữ cảnh đi.
Giờ đây khi những luận điệu ảo tưởng này đã lan rộng, đây không chỉ đơn thuần là cơn giận cá nhân của tôi, mà còn là vấn đề liên quan đến sự phát triển AI của Hàn Quốc, xa hơn nữa là sự phát triển của nhân loại.
Chẳng phải nên sửa lại thứ giả kim thuật này trước khi những người này còn lớn mạnh hơn và có ảnh hưởng sang phía khác sao?
Nếu không phải nói về mình thì cứ bỏ qua là được.
Trong các bình luận khác của bài này, đã có người đồng cảm hoặc những người thuộc nhóm mà tôi đang nói tới đến để công kích tôi rồi.
Và xin nói thêm một điều nữa: những cách diễn đạt như “AI của Hàn Quốc”, “sự phát triển của nhân loại”, hay “phải chấn chỉnh lại giả kim thuật” tạo cho tôi cảm giác rằng những đại nghĩa khá lớn đang được đặt lên trước. Tôi nghĩ việc có vấn đề nhận thức như vậy là điều có thể hiểu được. Tuy nhiên, tôi cảm thấy những câu chuyện ở mức độ đó sẽ được truyền tải thuyết phục hơn nhiều khi đi kèm các trường hợp thực tế, sản phẩm công việc cụ thể, hoặc những tiêu chí kiểm chứng chi tiết hơn, thay vì phê phán bằng cách gom một số người lại thật rộng trong cộng đồng.
Ngoài ra, tôi cũng thấy cách chấp nhận phát biểu của CEO YC hay nhà sáng lập OpenClaw như những căn cứ có ý nghĩa, nhưng lại chỉ riêng việc trích dẫn Jensen Huang thì bị xử lý như một kiểu trọng quyền uy, là chưa nhất quán. Cuối cùng, nó khiến tôi đọc ra rằng tiêu chuẩn để lời ai trở thành căn cứ và lời ai trở nên vô nghĩa dường như thay đổi theo người phát ngôn hơn là theo chính nội dung lập luận. Lời của Jensen Huang có thể không phải là căn cứ mang tính quyết định, nhưng vì thế mà chỉ riêng trích dẫn đó lại bị đối xử như một phát ngôn đặc biệt vô giá trị thì tôi thấy đó là một cách diễn giải hơi quá.
Sau cùng, để những lập luận như vậy có thể chạm tới người khác, tôi nghĩ cần đưa ra cùng với đó các ví dụ hoặc sản phẩm công việc mà người ta có thể trực tiếp tham khảo và kiểm chứng, thay vì chỉ lặp lại sự phê phán. Có như vậy, hướng đi mà anh đang nói tới mới có thể được đọc như một vấn đề được nêu ra một cách thực sự thuyết phục, chứ không chỉ là sự phản cảm đơn thuần. Nếu có những kết quả như vậy, đến lúc đó tôi cũng sẽ chủ động đọc kỹ một lần, và nếu cần thì trực tiếp dùng thử.
Xin đừng lặp lại cùng một ý. Bạn đang nói như thể tôi đã nói những điều tôi chưa từng nói, rồi lại tiếp tục nêu nghi vấn về những điểm tôi đã phản bác.
Thành thật mà nói, càng đọc bài viết hiện tại cùng với các phản hồi, tôi càng cảm thấy đây giống một bài viết bị cảm xúc muốn chỉ trích một xu hướng cụ thể dẫn dắt hơn là một bài nhằm cung cấp thông tin hay phân tích.
Nếu thật sự muốn phê bình một cách chặt chẽ, có lẽ bạn nên đưa ra rõ ràng hơn trong cộng đồng đã có những bài viết nào, ai đã đưa ra những lập luận gì trong bối cảnh nào. Nhưng thay vì những ví dụ cụ thể như vậy, bạn lại gom trước bằng những cách diễn đạt lớn như “mặt bằng giới phát triển ở Hàn Quốc”, “những nhóm như vậy”, hay “sự phóng đại mang màu sắc tôn giáo”, nên với người đọc, cảm giác gợi liên tưởng và khung diễn giải lại đọng lại mạnh hơn chính các lập luận thực tế.
Đặc biệt, việc ném ra những cách diễn đạt khiến người ta liên tưởng đến hệ om nhưng rồi lại nói rằng thực ra không nhắm trực tiếp đến một nhóm hay cá nhân cụ thể nào, khiến bài viết được đọc lên như một tâm trạng muốn công kích ai đó trên diện rộng hơn là một bài mang tính thông tin.
Hơn nữa, cách bạn nói với người phản ứng rằng “nếu không phải mình thì cứ lướt qua”, hoặc “hoặc là đồng cảm, hoặc là người của nhóm tôi đang nói tới kéo đến để công kích”, cũng tạo cảm giác gần với việc dán nhãn hơn là thảo luận. Ngay từ đầu, khi bạn mở bài bằng một khung diễn giải mạnh như vậy, việc xuất hiện phản cảm và bất đồng là điều tự nhiên; nhưng nếu rồi lại diễn giải những phản ứng đó bằng cách gom chúng vào một nhóm nhất định, thì cuối cùng mọi phản biện cũng sẽ bị hấp thụ vào trong chính cái khung đó.
Tôi cho rằng chính cách làm như vậy mới gần với cú pháp tạo ra thế đối đầu kiểu cộng đồng hơn là cú pháp của một bài viết chia sẻ thông tin và bối cảnh. Và thành thật mà nói, nếu là kiểu bài như thế thì có thể nó quen thuộc ở những không gian như X hay Threads, nhưng ít nhất là nó có vẻ khá xa với bầu không khí GeekNews mà tôi từng kỳ vọng, nên càng đáng tiếc hơn.
Tôi luôn cảm thấy GeekNews gần với một nơi để chia sẻ những điều mình đã trực tiếp trải nghiệm, những thông tin cụ thể, và những bối cảnh giúp mở rộng chiều sâu suy nghĩ, hơn là một nơi để gom nhiều người lại rồi chỉ trích một cách bao trùm. Vì vậy, lần này điều khiến tôi tiếc nuối lớn hơn không hẳn là bản thân luận điểm, mà là cách nó được trình bày.
Vậy thì rốt cuộc tôi nghĩ bài viết này có lẽ nên được hiểu không hẳn là một bài phân tích bản thân Ralph loop, mà là một bài nhắm tới toàn bộ nhóm người cụ thể mà bạn đã nói đến.
Tuy vậy, tôi cho rằng càng là kiểu bài như vậy thì việc xác định đối tượng càng phải chặt chẽ hơn. Chỉ với những cách diễn đạt như “có một nhóm như vậy”, “liên tục bị chỉ trích trong và ngoài nước” thì rất khó phân biệt rõ giữa lập luận thực tế và khung diễn giải bị phóng đại, và rốt cuộc rất dễ bị đọc thành cách gom những con người và bối cảnh khác nhau vào cùng một chỗ. Bản thân tiêu chí “một nhóm cụ thể” vốn đã là một khung rất mạnh, nên nếu ranh giới của nó còn mơ hồ mà lại trả lời theo kiểu đưa đối phương vào trong khung đó, thì theo tôi điều đó không làm cho thảo luận trở nên tinh tế hơn mà chỉ khiến nó thô hơn.
Ngoài ra, việc liên tục mang phát biểu và ví dụ của người khác ra làm căn cứ, nhưng riêng trích dẫn Jensen Huang thì lại được đối xử như một thứ mang tính sùng bái quyền uy, cũng không cho tôi cảm giác nhất quán. Nhà sáng lập OpenClaw hay CEO của YC cũng đều là những người có bối cảnh và uy tín riêng, nên nếu trích dẫn từ một phía được xem là căn cứ chính đáng còn trích dẫn từ phía kia lại lập tức trở thành vô nghĩa, thì cuối cùng tiêu chuẩn ấy khó tránh khỏi việc trông như thay đổi theo người phát ngôn hơn là theo chính lập luận. Thực tế, những người đó cũng rất có khả năng đang thử nghiệm dựa trên không ít năng lực tính toán và mức sử dụng; nếu một bên được đọc như bằng chứng về năng lực còn bên kia lại được đọc như biểu tượng của ảo tưởng, thì tôi nghĩ trước hết tiêu chuẩn phân biệt đó cần phải được làm rõ hơn.
PRD cũng không phải vạn năng, nhưng nếu vì thế mà đẩy luôn cả vai trò của nó thành một thứ ảo tưởng thì điều đó cũng không thật sự khớp với quá trình phát hành lặp lại, kiểm chứng và chỉnh sửa trong phát triển thực tế. Có thể tồn tại những nền văn hóa khó chịu, nhưng tôi không nghĩ sự phản cảm đó có thể ngay lập tức trở thành căn cứ cho một sự khái quát hóa rộng. Tôi dừng ở đây.
Tôi cho rằng những thứ như
oh-my-whatever, bảng xếp hạng token các kiểu, v.v. đều chỉ là nhiễu phục vụ marketing.Thay vì tạo ra một harness để cho ra thứ gì đó hữu ích, thì tỷ lệ cao hơn là chỉ sinh ra những harness phức tạp hơn và được tối ưu để đốt token; nhưng vì đó là thứ dễ thấy nhất và dễ thu hút chú ý trong ngắn hạn, nên có vẻ cũng có rất nhiều người phát cuồng vì nó.
Tôi cũng thấy có người nói rằng không theo kịp mấy thứ này đúng là tư duy của kẻ thua cuộc. Cũng có cả lập luận rằng vì chuyện này mà Hàn Quốc nhanh còn SF thì chậm.
Tuy vậy, tôi nghĩ những thứ như Ralph Loop hay harness gì đó rồi cuối cùng cũng sẽ đều được hấp thụ vào năng lực nội tại của mô hình, và khi đến lúc đó, việc AI giải quyết được chỉ với một PRD được viết tốt sẽ không phải là sự làm quá.
Ngược lại, ngay lúc này mà cứ vặn xoắn harness bằng mọi cách rồi đóng gói như thể đang làm ra điều gì ghê gớm để khai thác đi khai thác lại, thì theo tôi cũng chẳng khác mấy những kẻ nghiện game clicker kiểu
number go up.https://x.com/WillManidis/status/2021655191901155534 Bài này đã đăng từ một thời gian trước, và có cùng mạch ý như vậy.
Việc một thứ được ưa chuộng chẳng phải cũng có nghĩa là nó càng gần với mức trung bình sao? Không phải ở trình độ cao, mà là ở mức bình thường nhưng đủ để thấy hài lòng.. Nhưng nếu chuyện này trở nên quá mức thì công cụ sẽ bị mai một. Đến giờ vẫn còn những người tranh cãi C hay Java.
Thực ra mức trung bình còn khá xa so với Ralph Loop hay Hannes, và tôi nghĩ chỉ ở tầm Claude Code bản vanilla thôi. Thành thật mà nói, nếu mở rộng mẫu một chút thì tôi cho rằng chỉ cần từng dùng Claude Code thôi cũng đã là trên trung bình rồi.
Nếu những thứ này trông như mức trung bình, thì tôi nghĩ điều đó có nghĩa là chiến dịch marketing FOMO của họ đã thành công.
Liệu có nên xem đây là sự xuất hiện của một thời đại giả kim thuật mới không?
Tôi đồng ý.
Tôi hoàn toàn đồng ý
Cá nhân tôi nghĩ họ chỉ là những người muốn trở thành kiểu influencer tương tự ở Hàn Quốc thôi.
Cảm ơn vì đã chia sẻ một bài viết hay
AI coding, HITL cũng gây nghiện thật.
Nhìn những điều này mới thấy đúng là con người có bản năng thích tạo ra thứ gì đó.
Đừng mỉa mai nữa, nếu không biết thì ít nhất cũng tự tìm hiểu đi.
Sử dụng OpenAI Codex như một tiện ích mở rộng Chrome
Giải thích và trải nghiệm sử dụng Copilot
codex là từ 5 năm trước sao...? ChatGPT cũng ra mắt vào năm 22 nên vẫn chưa được 5 năm mà...
Hay là ngay cả phần nội dung Ask GN cũng được viết bằng AI nên bị ảo giác vậy?
Bản thân Codex thì đã có từ lâu rồi. Tôi cũng nhớ là mình đã xem trên Geeknews và đăng ký bản xem trước GPT-3.
Cho mình hỏi GPT-3 preview và Codex có liên hệ gì với nhau không?
Ý là vào thời điểm đó đã có Codex rồi sao? Hay là khi đó đã có AI viết code, và ý bạn là đó chính là Codex?
Trong các dòng model cũ đã bị deprecated trước đây, nhóm
code-davinci-*,code-cushman-*chính là các model Codex. Bản thân thương hiệu Codex đã có từ rất lâu rồi.https://www.youtube.com/watch?v=SGUCcjHTmGY
Tất nhiên không phải là cùng một tên codex, nhưng có vẻ như đã từng tồn tại một code model.
Ồ, chuyện này khá gây sốc đấy. Tôi cũng là người đã dùng từ thời gpt-2, dall-e và gym, nhưng đây là lần đầu tiên tôi thấy tên model là codex. Cảm ơn bạn đã chỉ dẫn!
Nói thêm thì codex được phát hành vào tháng 5 năm 2025.
kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk
Trước khi để lộ là mình không biết gì, sao không thử lục trên NamuWiki ít nhất một lần đi?
À, tiện nói luôn, ChatGPT Atlas bảo là tôi đã đăng ký được 1812 ngày rồi.
À, tức là
codexhiện tại vàcodexngày đó là các sản phẩm ở những dạng khác nhau.codexkhi đó là tên của mô hình LLM tập trung vào mã nguồn của OpenAI, rồi họ dùng cùng thương hiệu đó để ra mắt nền tảngcodexhiện tại.Hồi đó tôi có dùng GitHub Copilot, nhưng chỉ biết rằng mô hình nền tảng của nó là GPT-3, chứ không biết họ đã dùng thương hiệu
codexlàm tên mô hình.Codex không phải là một mô hình đâu.
Những cái như
GPT-5.3-Codexchỉ mới được đặt tên gần đây thôi.Đó là tên của tiện ích mở rộng VSCode cho phép dùng một mô hình đã được fine-tune cho lập trình dựa trên GPT-3.
(web thì chẳng ai dùng)
Cùng mô hình và cách làm đó cũng đã được dùng trong Github Copilot.
Hồi đó chưa thể chat có ý nghĩa, nên đúng nghĩa nó giống như dự đoán từ tiếp theo vậy.
Chỉ là nếu nhập một bài toán Baekjoon thì nó giống như tính năng tự động hoàn thành tối thượng có thể viết hàm
solvemà thôi.(Ý là OpenAI đã làm trước thứ có trên Cursor.)
Có vẻ như điều bạn nói là một tiện ích mở rộng VS Code sử dụng mô hình codex (có phải cái này không? https://github.com/Implicate-dev/codex-vscode)
Nếu xem bài báo mà Mark Chen công bố năm 2021, có vẻ OpenAI khi đó đã công khai Codex như tên của một mô hình được fine-tune.
Có vẻ là đúng, nhưng vì đã lâu rồi nên tôi không nhớ chính xác.
https://www.youtube.com/watch?v=SGUCcjHTmGY
Tôi nhớ đã từng thấy những bài nói rằng trên các trang web của Mỹ, chứ không phải các trang của Hàn Quốc, mức sử dụng token phải cao mới đúng và đã cảm thấy khá khó hiểu. Không chỉ ở Hàn Quốc mà ở Mỹ cũng vậy, đang tràn lan những câu chuyện kỳ lạ khó chấp nhận và những lời thổi phồng.
Ở Hàn Quốc, những tuyên bố kiểu này đã xuất hiện từ gần nửa năm trước, và dạo gần đây có vẻ như câu chuyện đang bị nói đến một cách dữ dội hơn.
Những người như Garry Tan cũng đang tích cực bác bỏ điều đó.
Đây là một câu chuyện trong bối cảnh hơi khác, nhưng tôi có suy nghĩ rằng việc dùng nhiều token hơn để kiểm chứng trên phần cứng rẻ hơn sẽ tốt hơn so với dùng API cloud đắt tiền rồi tiết kiệm token.
Với sự phát triển của agent và harness, có vẻ như những kiến trúc có tính kinh tế, cho phép rà soát và kiểm chứng nhiều hơn, đang được ưa chuộng hơn là chỉ tập trung vào độ chính xác và kích thước của mô hình.
Đặc biệt là sau khi GDN, Mamba xuất hiện, tôi càng nghĩ như vậy.
Cá nhân tôi thấy khó mà đồng ý.
Trong trường hợp như Opus thì quá đắt, nhưng nếu ở mức giá như GPT-5.4 thì xét trên nhiều khía cạnh kinh tế, chạy 5.4 vài lần sẽ tốt hơn là cho một mô hình giá rẻ của Trung Quốc chạy cả ngày.
Theo tôi, lý do ngay cả những game thủ chuyên nghiệp có hiệu suất học tập xuất sắc nhất thế giới vẫn thường thất bại khi không thể học được điều mới không đơn giản là vì họ thiếu năng lực.
Ngược lại, tôi nghĩ chính là vì điều ngược lại.
Vì họ đã tối ưu hóa quá lâu và ở mức quá cao cho meta hiện có, nên khi đối mặt với thay đổi họ thường gặp khó khăn lớn hơn.
Ban đầu, mọi phán đoán đều được thực hiện một cách có ý thức.
Nhưng khi quá trình học lặp đi lặp lại tích lũy, những phán đoán ban đầu được xử lý ở đại não dần được tự động hóa, và người thành thạo sẽ đạt đến giai đoạn cơ thể phản ứng trước cả khi kịp suy nghĩ.
Tôi cho rằng sự tự động hóa này rõ ràng là một điểm mạnh cực lớn.
Tuy nhiên, vào khoảnh khắc meta thay đổi, điểm mạnh đó lại có thể biến thành một quán tính mạnh mẽ.
Tầm nhìn, giao tranh và cảm giác vận hành từng là đáp án đúng trong meta cũ sẽ được khắc vào cơ thể qua hàng nghìn giờ.
Vì thế, ngay cả khi cấu trúc trò chơi thay đổi và đáp án cũ không còn là đáp án nữa, cơ thể vẫn sẽ tiếp tục cố di chuyển trước theo cách cũ.
Cuối cùng, vấn đề không phải là thiếu khả năng học cái mới, mà nằm ở khả năng từ bỏ sự tối ưu hóa cũ.
Bởi vì phần lớn sự thành thạo là kết quả của tích lũy, nhưng đồng thời cũng là kết quả của quán tính.
Vì vậy, tôi không nghĩ rằng người từng chơi giỏi thì đương nhiên sẽ có lợi thế ở meta tiếp theo.
Ngược lại, khả năng bị trói buộc mạnh hơn vào thành công của thời kỳ trước cũng hoàn toàn có thể rất lớn.
Theo tôi, ngành lập trình hiện nay cũng không khác nhiều.
Nhiều người vẫn đang tính toán hiệu quả theo cách cũ và đánh giá năng suất theo tiêu chuẩn cũ.
Nhưng tôi cho rằng meta đã bắt đầu thay đổi.
Bất kể học vấn hay kinh nghiệm, nếu nhìn vào những gì thực sự đang diễn ra trên thế giới, có lẽ cần phải suy nghĩ lại xem liệu thị trường hiện nay còn đang vận hành với cấu trúc hoàn toàn giống trước đây hay không, và liệu việc phát triển có còn chỉ cung cấp giá trị mang tính phụ thuộc hay không.
Cuối cùng, người bước sang giai đoạn tiếp theo không chỉ là người tích lũy chăm chỉ hơn, mà là người có thể từ bỏ cái cũ nhanh hơn.
Theo tôi, trong thời đại mới, năng lực gỡ bỏ những tối ưu hóa đã lỗi thời đang trở nên quan trọng hơn rất nhiều so với năng lực tích lũy nhiều hơn.
Nếu bạn nghĩ vậy thì cứ phát sóng trực tiếp 24 giờ và tự mình cho mọi người xem là được.
Ồ
Cảm ơn vì ý tưởng hay.
Đúng là kinh nghiệm lâu năm có khác 👍👍👍👍👍👍👍👍👍
Tôi đã nghe rất rõ phần giải thích dài dòng về việc chuyện đó là không thể.
Tôi đồng ý, chỉ là tôi nghĩ những bộ harness được làm tốt như omo đúng là có ích cho việc phát triển (tôi biết Ralph Loop không phải là trọng tâm. Nó không được đưa ra như một lựa chọn sao? Hay là ulw nhỉ..?)
Nói ngắn gọn thì có vẻ chuyện này chẳng liên quan gì đến lượng token sử dụng cả.
Về tự động hóa, trong giới lập trình viên tồn tại một nền văn hóa rất ăn sâu, đến mức nó giống như một mục tiêu thành tựu nghề nghiệp mà mọi người cùng hướng tới.
Có lẽ chính điều đó khiến người ta nuôi ảo tưởng về việc thức trắng đêm để tự động viết mã hay làm ra sản phẩm.
Thực ra, nếu không nhìn từ góc độ của lập trình viên mà từ hiệu quả kinh doanh thực tế hay vận hành doanh nghiệp, thì trong rất nhiều trường hợp, việc đo lường vấn đề và tìm ra giải pháp còn quan trọng hơn hiệu năng, độ hoàn thiện hay tốc độ phản hồi...
Có vẻ như kiểu ảo tưởng rất đặc trưng của lập trình viên rằng chỉ cần làm ra một app tốt hay xây dựng dịch vụ tốt là sẽ trúng lớn đang làm méo mó cách nhìn nhận vấn đề.
Để nhặt vài sợi tóc trong nhà, thứ cần thiết không phải là 500 loại máy hút bụi hiệu năng cao, mà chỉ là một thứ gì đó đơn giản có thể thay cho ngón tay của tôi.
Việc tiêu hao token, nếu quản lý phiên kém hoặc dùng SDD sai, thì ngay cả phát triển một máy chủ đơn giản cũng có thể ngốn tới 100 USD theo tiêu chuẩn của Claude chỉ trong 2-3 ngày.
Vì đặc tả thế nào là dùng sai token không rõ ràng, nên bản thân người dùng cũng khó tự đánh giá cái gì là sai.
Dù nội dung thế nào đi nữa, lấy lượng token tiêu thụ làm thước đo cho việc ứng dụng AI có lẽ cũng giống như nói ai ăn nhiều cơm hơn thì giỏi hơn, hay ở công ty thức trắng đêm chép lại tài liệu cũ bằng bút chì thì khó mà bảo là đã làm được nhiều việc.
Hiện tại vì chưa có thước đo chính xác nên người ta vẫn tập trung vào lượng token tiêu hao và tự động hóa,
nhưng có vẻ bước tiếp theo sẽ sớm là bắt đầu thảo luận về cách tạo ra giá trị thực tế.
Thực ra tôi thấy Mỹ cũng không khác biệt quá lớn. Việc các bộ harness lập trình kiểu Oh-my ít được biết đến là vì đội dự án ở Hàn Quốc nên được marketing ra nước ngoài, bao gồm cả Mỹ, ít hơn; còn nếu nhìn vào những gì Steve Yegge hay Karpathy, các token maximalist tiêu biểu, chủ trương thì cũng không khác mấy những điều bạn nói. Cả những người theo họ cũng vậy.
Trong nội bộ còn tạo cả bảng xếp hạng mức sử dụng token và cho các công ty cạnh tranh với nhau, nhưng cá nhân tôi nghĩ đó chỉ là sa vào chiêu trò marketing của các công ty AI.
Nhìn những thứ đang viral gần đây thì có vẻ họ hoàn toàn không cân nhắc hiệu năng so với số token.
Điều buồn cười là các công ty AI không làm kiểu marketing đó.
Ngược lại, họ còn nói rằng đạt hiệu năng tốt hơn với ít reasoning token hơn so với các mô hình trước đây.
5 năm trước...? Có thể gợi ý mã cổ phiếu được không?
Là Samsung Electronics đấy.