Đồng tác giả của bài báo "Attention is all you need" nói rằng giờ đây ông đã "quá ngán" Transformer
(venturebeat.com)- Llion Jones, người đồng phát triển kiến trúc Transformers và đặt ra chính tên gọi này, cho biết ông sẽ rời khỏi mô hình nghiên cứu lấy Transformer làm trung tâm, vì “nghiên cứu AI đã trở nên quá thu hẹp”
- Transformer, công nghệ nền tảng của các hệ thống AI chủ lực như ChatGPT và Claude, theo đánh giá tự phê bình của chính ông, lại đang cản trở làn sóng đổi mới tiếp theo
- Ông cảnh báo rằng mọi người chỉ chọn các chủ đề an toàn và sự sáng tạo đang biến mất, rằng lĩnh vực này đang “nghiêng về khai thác (Exploitation) hơn là khám phá (Exploration)”, và ngành AI có thể đang bỏ lỡ những đổi mới lớn hơn
- Ông chỉ trích rằng vào thời điểm bài báo Transformer ra đời, đã từng tồn tại một môi trường thử nghiệm tự do, nhưng giờ đây ngay cả mức lương rất cao cũng không thể bảo đảm quyền tự do nghiên cứu
- Tại Sakana AI, ông muốn tái hiện văn hóa nghiên cứu lấy khám phá tự do làm trung tâm, đồng thời nhấn mạnh rằng “một đổi mới tầm cỡ Transformer tiếp theo có thể đang ở ngay bên cạnh chúng ta”
Tự phê bình của cha đẻ Transformer và tuyên bố mới
- Llion Jones, đồng tác giả bài báo năm 2017 "Attention Is All You Need" và là người trực tiếp đặt ra tên gọi Transformer, đã mạnh mẽ chỉ trích vấn đề đồng nhất hóa trong nghiên cứu AI tại hội nghị TED AI ở San Francisco
- Đây là phát biểu hiếm thấy khi tác giả của một bài báo lịch sử với hơn 100.000 lượt trích dẫn công khai nói rằng ông “phát ngán” chính sáng tạo của mình
- Hiện ông là CTO và đồng sáng lập của Sakana AI có trụ sở tại Tokyo
- Ông chỉ ra rằng nghiên cứu AI đang bị mắc kẹt trong một cấu trúc duy nhất, và cho biết mình đang giảm thời gian dành cho nghiên cứu Transformer để khám phá các kiến trúc mới
- Ông nhấn mạnh rằng “lĩnh vực AI hiện có nhiều nhân tài và vốn hơn bao giờ hết, nhưng nghiên cứu lại đang trở nên hẹp hơn”
- Ông cho rằng nguyên nhân của hiện tượng này là áp lực lợi nhuận từ nhà đầu tư và cạnh tranh quá nóng, khiến các nhà nghiên cứu mất đi sự sáng tạo và rơi vào môi trường “vội vàng công bố bài báo”
Nghịch lý: tài nguyên tăng nhưng sáng tạo giảm
- Các nhà nghiên cứu AI hiện nay phải giả định rằng có 3–4 nhóm khác đang cùng làm một chủ đề, và liên tục phải kiểm tra xem liệu mình đã bị nhóm khác “đi trước” hay chưa
- Các nhà nghiên cứu học thuật ngày càng có xu hướng chọn những chủ đề an toàn, dễ công bố, thay vì các dự án rủi ro nhưng có tính đột phá
- Áp lực cạnh tranh khiến họ nộp bài vội vàng, làm tổn hại tính chặt chẽ khoa học và làm suy giảm sáng tạo
- Các nhà nghiên cứu đang thiên về "exploitation (khai thác)" và xem nhẹ "exploration (khám phá)"
- Nếu áp dụng khái niệm đánh đổi giữa khám phá và khai thác trong thuật toán AI, thì ngành AI hiện tại có thể đang mắc kẹt ở một cực trị cục bộ tầm thường do khai thác quá mức, qua đó bỏ lỡ những phương án tốt hơn
- Cũng như thời kỳ ngay trước khi Transformer xuất hiện, khi các nhà nghiên cứu chỉ mải mê cải tiến dần dần mạng nơ-ron hồi quy (RNN), hiện nay cũng có nguy cơ mọi người chỉ tập trung vào các biến thể của một kiến trúc duy nhất và bỏ lỡ một đột phá đang cận kề
“Nếu các nhà nghiên cứu thời kỳ trước Transformer biết rằng đổi mới tiếp theo sắp xuất hiện, họ đã không lãng phí nhiều thời gian đến thế”
Bối cảnh ra đời của Transformer: đổi mới được tạo nên từ tự do
- Jones nhớ lại rằng khi nghiên cứu Transformer ra đời, nó bắt đầu trong một bầu không khí tự do hoàn toàn không có áp lực từ cấp trên
- Ông nói: “Đó là một ý tưởng bắt đầu từ những cuộc thảo luận giờ ăn trưa hay vài nét vẽ nguệch ngoạc trên bảng trắng”
- Nhóm nghiên cứu khi đó chưa có ý tưởng rõ ràng, nhưng có đủ thời gian và sự tự do, và không hề có áp lực từ ban quản lý về một dự án cụ thể hay chỉ số kết quả nào
- Không bị yêu cầu phải xuất bản một số lượng bài báo nhất định hay cải thiện chỉ số nào đó
- Có thể tự chủ khám phá thông qua thử nghiệm và sai-sửa
- Ngày nay, ngay cả những nhà nghiên cứu được tuyển với mức lương hơn 1 triệu USD mỗi năm cũng có thể cảm thấy áp lực phải chứng minh giá trị của bản thân, thay vì thử nghiệm những ý tưởng táo bạo
“Họ chọn nghiên cứu an toàn để chứng minh rằng mình là nhân tài xứng đáng”
Thử nghiệm của Sakana AI: tự do thắng thù lao cao
- Tại Sakana AI, Jones đang cố gắng tái hiện môi trường nghiên cứu tự do thời tiền-Transformer
- Theo đuổi các nghiên cứu lấy cảm hứng từ tự nhiên
- Giảm thiểu áp lực về xuất bản bài báo hay cạnh tranh trực diện với đối thủ
- Ông chia sẻ lời khuyên của kỹ sư Brian Cheung: “Hãy chỉ làm những nghiên cứu mà nếu không có bạn thì chúng sẽ không xảy ra.”
- Ông giới thiệu dự án "continuous thought machine" như một ví dụ cụ thể
- Một nghiên cứu tích hợp cơ chế đồng bộ hóa của não bộ vào mạng nơ-ron
- Ông nhận xét rằng nếu ở nơi làm việc cũ hoặc trong giới học thuật, người đề xuất hẳn đã phải đối mặt với sự hoài nghi và áp lực rằng đừng lãng phí thời gian
- Tại Sakana, họ cho dự án 1 tuần để khám phá, và cuối cùng nó phát triển thành một trường hợp thành công thu hút chú ý tại hội nghị lớn NeurIPS
- Ông cho rằng chính môi trường mang tính khám phá như vậy có thể trở thành một công cụ cực mạnh để thu hút nhân tài
- Những người tài năng và đầy tham vọng tự nhiên sẽ tìm đến kiểu môi trường này
Nghịch lý từ thành công của Transformer: mức độ hoàn thiện đang cản trở đổi mới
- Ông nói rằng thành công của Transformer “quá mạnh mẽ đến mức nó đang cản trở các đổi mới mới”
- Ông phân tích rằng “công nghệ hiện tại càng hoàn thiện, động lực đi tìm thứ tốt hơn lại càng biến mất”
- Tuy vậy, ông không phủ nhận bản thân nghiên cứu về Transformer, và nói thêm rằng “nó vẫn có thể tạo ra giá trị thực chất”
- Nhưng ông nhấn mạnh: “Nếu nhìn vào lượng tài nguyên và nhân tài khổng lồ hiện có, chúng ta hoàn toàn có thể khám phá rộng hơn rất nhiều”
- Kết luận của ông là tầm quan trọng của hợp tác và khám phá cởi mở
- “Chúng ta cần tăng núm điều chỉnh cho khám phá bằng hợp tác, chứ không phải bằng cạnh tranh. Chỉ như vậy mới có thể tạo ra tiến bộ thực sự”
Hàm ý từ ‘bài toán khám phá’ của ngành AI
- Cảnh báo của Jones đang tạo tiếng vang lớn vào đúng thời điểm hiện nay, khi giới AI đang thảo luận về giới hạn mở rộng và nhu cầu tìm kiếm kiến trúc mới
- Trong ngành đã lan rộng nhận thức rằng chỉ mở rộng Transformer thôi thì đang dần chạm giới hạn
- Các nhà nghiên cứu hàng đầu cũng đã bắt đầu công khai thảo luận về những giới hạn căn bản của mô hình hiện tại
- Nhận thức rằng để có các hệ thống AI tiên tiến hơn, cần đổi mới về kiến trúc chứ không chỉ dựa vào quy mô (scale)
- Trong bối cảnh hàng chục tỷ USD mỗi năm đang được đổ vào phát triển AI và cạnh tranh khốc liệt giữa các phòng thí nghiệm khiến tính bí mật cùng chu kỳ công bố nhanh ngày càng mạnh hơn, thực tế là kiểu nghiên cứu khám phá tự do mà Jones mô tả đang ngày một ít đi
- Lý do góc nhìn từ người trong cuộc của Jones có sức nặng đặc biệt
- Với tư cách là người trực tiếp tạo ra công nghệ đang thống trị lĩnh vực hiện nay, ông hiểu rõ những điều kiện cần thiết cho các khám phá đột phá
- Việc ông tự nguyện rời xa Transformer, thứ đã tạo nên danh tiếng của mình, càng làm thông điệp trở nên đáng tin
- Ngành đang đứng trước một ngã rẽ quan trọng: đổi mới tầm cỡ Transformer tiếp theo có thể được tìm ra bởi những nhà nghiên cứu có tự do để khám phá, hoặc cũng có thể tiếp tục nằm ngoài tầm với trong lúc hàng nghìn nhà nghiên cứu mải cạnh tranh ở những cải tiến nhỏ
- Tóm lại, với tư cách là một trong những người đã nghiên cứu Transformer lâu nhất, Jones hiểu hơn ai hết rằng đã đến lúc phải tiến sang giai đoạn tiếp theo
“Một bước đột phá tầm cỡ Transformer có lẽ đã ở ngay cạnh chúng ta, chỉ là đang bị che khuất bởi cạnh tranh”
1 bình luận
Ý kiến trên Hacker News
Theo tôi, transformer là một trong những phát minh hiệu quả nhất trong lịch sử gần đây
Chỉ trong 8 năm kể từ khi xuất hiện lần đầu vào năm 2017, nó đã hoàn toàn thay đổi nhiều lĩnh vực, thậm chí còn góp phần vào các giải Nobel
Về bản chất, tôi nghĩ ý tưởng quan trọng là mô hình đồ thị xác suất (probabilistic graphical model). Cách tiếp cận kết hợp xác suất với chuỗi, cây và đồ thị vẫn sẽ còn rất đáng để nghiên cứu trong tương lai
transformer vốn đã là một bộ xấp xỉ phổ quát (universal approximator) cực kỳ xuất sắc. Có thể cải thiện đôi chút, nhưng thực tế rất khó tìm ra thứ gì còn “phổ quát” hơn
Thay vào đó, tôi nghĩ cần xem xét lại chính auto-regressive task, cross entropy loss và gradient descent
Lĩnh vực của tôi cũng bị ảnh hưởng, nhưng thành thật mà nói thì ảnh hưởng đó gần như là tiêu cực
Nhưng hiện giờ vẫn chưa thấy dấu hiệu đó. Dù vậy, vẫn còn hy vọng
Tôi vẫn chưa hệ thống hóa nó thành bài báo, nhưng thấy ở nhiều nơi đã xuất hiện các xu hướng hội tụ về ý tưởng này
Giá mà một ngày có nhiều thời gian hơn
Jones, đồng sáng lập kiêm CTO của Sakana AI, nói rằng ông đang rời khỏi transformer để tìm “thứ lớn lao tiếp theo”, nhưng thành thật mà nói thì nghe khá giống PR để gọi vốn
Nói đùa thì tôi từng nghĩ điểm kỳ dị (singularity) sẽ đến vào năm 2024, nhưng có cảm giác nó đã khựng lại vì độ trễ giữa “kiếm tiền” và “tự cải thiện”
Có lẽ chúng ta sẽ còn mắc kẹt với các mô hình transformer thêm 20 năm nữa cho đến khi vắt cạn hết tiền từ chúng
Nó không chỉ dành riêng cho transformer, nên ngược lại sẽ tạo động lực tìm ra kiến trúc mới có thể tận dụng tối đa hạ tầng này
Chỉ là chưa đủ nhanh để con người nhận ra thôi
Với phần lớn mọi người, “AI” rốt cuộc vẫn là một sản phẩm phần mềm có thể nhìn thấy được
Nhưng mô hình cốt lõi chỉ là một phần nhỏ, còn phần còn lại là quá trình được hàng nghìn lao động lương thấp tinh chỉnh bằng human feedback
Trên thực tế, phát triển sản phẩm chiếm 90%, còn nghiên cứu ML chỉ 10%
Phần lớn bài báo chỉ là nghiên cứu phục vụ sự nghiệp để lấy bằng tiến sĩ, còn nghiên cứu thực sự mang tính thử nghiệm thì chỉ có số ít
transformer được thiết kế quá hợp với GPU, đến mức muốn tạo ra mô hình mới thì còn phải thuyết phục cả nhà sản xuất phần cứng
Cuối cùng thì cần sự tiến hóa đồng thời của phần cứng và phần mềm
Những thay đổi mang tính nền tảng có lẽ sẽ diễn ra theo thang thời gian hàng chục năm
Các thuật toán có thể song song hóa vốn vượt trội về bản chất, nên GPU mới phát triển theo hướng đó
RNN mang tính tuần tự nên khó song song hóa, còn transformer đã loại bỏ nút thắt cổ chai đó
Tôi có cảm giác rằng các nghiên cứu không dựa trên transformer vẫn đang diễn ra rất sôi động
Chỉ là chúng ít được chú ý hơn vì tiền đang đổ vào các CRM kiểu chatbot
Tôi không nghĩ kiến trúc mới là câu trả lời. Thay vào đó, điều quan trọng là nâng cao hiệu quả dữ liệu
Ilya Sutskever cũng từng nhấn mạnh “phương pháp học vẫn ổn ngay cả khi không có toàn bộ Internet”
Nếu muốn học như con người, thì cách đó phải khác với việc chỉ cho mô hình nuốt dữ liệu Internet
Số lượng nhà nghiên cứu tăng lên, nhưng tỷ lệ nghiên cứu phi-transformer có lẽ còn giảm đi
Có người đùa rằng dấu em dash (—) ở đoạn cuối nhiều quá nên bài này trông như do transformer viết
transformer đã hút hết mọi sự chú ý và dòng vốn
Các nhà nghiên cứu cũng đang bị ngành công nghiệp transformer hấp thụ
Có lẽ tình trạng này sẽ tiếp diễn cho đến khi nó đụng phải một giới hạn lớn
Tôi hy vọng tiêu thụ năng lượng sẽ trở thành giới hạn thực sự để buộc hướng nghiên cứu phải thay đổi
xAI đã giải quyết điện năng bằng cách lắp tuabin khí quanh trung tâm dữ liệu, nhưng lại gây ra vấn đề sức khỏe cho cư dân địa phương
Tôi nghĩ kiểu làm này sớm muộn cũng sẽ bị siết bằng quy định
Mọi người có xu hướng quá ám ảnh với các đột phá trong kiến trúc mô hình mới
Mô hình rốt cuộc chỉ là công cụ tạo ra biểu diễn nén của dữ liệu
Dù có nén hiệu quả hơn thì năng lực cũng không thay đổi quá nhiều
Thay vào đó, điều quan trọng là nâng cao hiệu quả huấn luyện. Học tăng cường (RL) gần đây là một ví dụ
Việc khám phá cấu trúc mới không phải là một sự ám ảnh quá mức, mà là cách cân bằng giữa khám phá và khai thác
Tôi nghĩ cấu trúc ngành công nghiệp xoay quanh transformer có thể đã được hình thành bởi sự thuận tiện trong tính toán của GPU/NPU
Có thể tồn tại công nghệ AI tốt hơn, nhưng với phần cứng hiện có thì chi phí tính toán sẽ quá lớn
Não của chúng ta đâu có tiêu thụ 500 watt, và có lẽ đó chính là gợi ý