Những nhân viên Google đã tạo ra transformer

(wired.com)

2 điểm bởi GN⁺ 2024-03-21 | 1 bình luận | Chia sẻ qua WhatsApp

Năm 2017, “Attention Is All You Need” của 8 nhà nghiên cứu Google đã chuyển xử lý ngôn ngữ từ trọng tâm là các mô hình tuần tự sang kiến trúc transformer, trở thành nền tảng của AI tạo sinh
Jakob Uszkoreit cho rằng LSTM dễ bỏ lỡ các manh mối ngữ cảnh ở phần sau của văn bản dài, nên đã thúc đẩy self-attention — tham chiếu toàn bộ câu cùng lúc — như một hướng thay thế
Khi Illia Polosukhin, Ashish Vaswani, Niki Parmar, Llion Jones, Łukasz Kaiser, Aidan Gomez và Noam Shazeer tham gia, các thử nghiệm dịch thuật được mở rộng; sau phần triển khai của Shazeer, mô hình Big đã phá kỷ lục dịch English-to-German
Bài báo được nộp ngày 19/5/2017, ngay trước hạn chót NeurIPS; sau các đánh giá trái chiều, nó thu hút sự quan tâm lớn tại phiên poster tháng 12, và Google đã nộp bằng sáng chế tạm thời với mục đích phòng vệ
Cả 8 tác giả đều đã rời Google; ngoại trừ Near, các công ty như Character AI, Sakana AI, Essential AI, Cohere và Inceptive đều phát triển dựa trên công nghệ transformer

Bước ngoặt do “Attention Is All You Need” tạo ra

“Attention Is All You Need” là bài báo được các nhà nghiên cứu Google viết vào mùa xuân năm 2017
- 8 tác giả đã gắn dấu sao vào từng tên và thêm chú thích “Equal contributor”, “Listing order is random” để không xác định thứ tự đóng góp
Bài báo này đã mở rộng AI dựa trên neural network sang kiến trúc transformer, và transformer trở thành kiến trúc cốt lõi của các sản phẩm AI tạo sinh như ChatGPT, Dall-E và Midjourney
Geoffrey Hinton đánh giá rằng nếu không có transformer thì sẽ không thể đạt đến tình hình hiện nay
- Đây là nhận xét nói về xu hướng OpenAI và các công ty khác tạo ra những hệ thống sánh ngang, hoặc trong một số trường hợp vượt qua, sản phẩm do con người tạo ra
Cả 8 tác giả của bài báo đều đã rời Google, và mỗi người hiện làm các công việc liên quan đến những hệ thống vận hành bằng kiến trúc mà họ tạo ra vào năm 2017

Khởi điểm của ý tưởng self-attention

Điểm xuất phát của transformer là ý tưởng self-attention của Jakob Uszkoreit
- Ông từng làm việc trong nhóm Google Translate, rồi năm 2012 gia nhập nhóm xây dựng hệ thống trả lời trực tiếp câu hỏi của người dùng trên trang tìm kiếm Google
- Khi đó Google cho rằng Apple Siri có thể đe dọa lưu lượng tìm kiếm, nên chú ý nhiều hơn đến lĩnh vực này
Các mô hình ngôn ngữ khi đó dựa vào recurrent neural network và LSTM, nhưng có giới hạn trong xử lý văn bản dài
- Trong câu ví dụ Joe is a baseball player... got two hits, để hiểu “two hits” cần nhớ thông tin baseball ở phía trước
- LSTM cho phép xử lý các chuỗi văn bản lớn và phức tạp hơn, nhưng vẫn xử lý từ theo trình tự nên có thể bỏ lỡ manh mối ngữ cảnh ở phần sau
Uszkoreit hình dung self-attention vào khoảng năm 2014
- self-attention có thể tham chiếu mọi vị trí khác trong câu khi dịch một từ
- Đây không phải cách nhìn từng từ tuần tự, mà là cách song song nhìn nhiều đầu vào cùng lúc, nên rất phù hợp với các chip xử lý song song được sản xuất hàng loạt trong làn sóng machine learning
Vì đây là cách tiếp cận vứt bỏ neural architecture hiện có, phản ứng ban đầu khá hoài nghi
- Cha của Uszkoreit, Hans Uszkoreit, cũng không đồng tình với ý tưởng đó trong cuộc trò chuyện bên bàn ăn tối
- Uszkoreit đã thực hiện các thử nghiệm văn bản nhỏ với đồng nghiệp và công bố bài báo năm 2016, nhưng các cộng tác viên hiện có quan tâm hơn đến việc áp dụng nó vào Google Search, quảng cáo và các lĩnh vực khác

Những cuộc gia nhập tình cờ và sự hình thành nhóm “transformer”

Năm 2016, khi ăn trưa với Illia Polosukhin tại quán cà phê của Google, Uszkoreit đã đề xuất self-attention
- Polosukhin cho rằng để trả lời trực tiếp trên Google.com cần một hệ thống rẻ, hiệu năng cao và phản hồi trong đơn vị mili giây
- Ông hợp tác với Ashish Vaswani; Vaswani khi đó đang tìm một dự án lớn tại Google Brain và đã tham gia vào ý tưởng self-attention
Ba người tạo ra một tài liệu thiết kế tên là “Transformers: Iterative Self-Attention and Processing for Various Tasks”
- Tên gọi “transformers” đã được dùng ngay từ đầu, mang ý nghĩa một cơ chế biến đổi thông tin đầu vào để trích xuất mức hiểu tương đương con người, hoặc tạo ấn tượng như vậy
- Uszkoreit cũng liên hệ cái tên này với ký ức thời thơ ấu từng chơi đồ chơi Hasbro Transformer
Sau đó Niki Parmar và Llion Jones gia nhập
- Parmar vào Google sau khi nhận bằng thạc sĩ tại USC, và làm việc cùng Uszkoreit về các biến thể mô hình nhằm cải thiện Google Search
- Jones thuộc Google Research dưới quyền quản lý của Polosukhin; sau khi nghe đồng nghiệp Mat Kelcey nói về khái niệm self-attention, ông tham gia nhóm transformer
Łukasz Kaiser của Google Brain và thực tập sinh Aidan Gomez cũng tham gia
- Gomez tham gia nhóm machine learning có phòng thí nghiệm của Geoffrey Hinton tại University of Toronto, và có cơ hội thực tập sau khi gửi cho Kaiser ý tưởng mở rộng một bài báo liên quan
- Kaiser và Gomez đã thảo luận việc hợp nhất dự án của họ với dự án self-attention, rồi quyết định gộp lại

Thử nghiệm phá kỷ lục và lần nộp sát hạn chót

Nhóm dùng mô hình self-attention để thực hiện dịch máy và đo hiệu năng bằng benchmark BLEU
- Các mô hình ban đầu ngang ngửa các lựa chọn thay thế LSTM nhưng chưa tốt hơn
- Khi Noam Shazeer tình cờ nghe về dự án và tham gia, chất lượng triển khai được cải thiện mạnh
Shazeer tự tay triển khai lại mã của nhóm transformer
- Ông thấy các recurrent neural network hiện có bất tiện và tham gia với ý tưởng thay thế chúng
- Các thành viên mô tả phần triển khai của ông bằng những từ như “magic”, “alchemy”, “bells and whistles”; Uszkoreit cho rằng để một cơ chế trực quan như self-attention thật sự vận hành, cần một số ít người triển khai giàu kinh nghiệm
Trước hạn nộp NeurIPS năm 2017 là ngày 19/5, tốc độ thử nghiệm tăng nhanh
- Nhóm thử nghiệm mô hình transformer cơ bản được huấn luyện 12 giờ và mô hình Big mạnh hơn được huấn luyện 3 ngày rưỡi
- Trong dịch English-to-German, mô hình cơ bản vượt mọi mô hình cạnh tranh, còn Big đạt điểm BLEU phá vỡ rõ ràng kỷ lục trước đó đồng thời có hiệu quả tính toán tốt hơn
Trong 2 tuần ngay trước hạn chót, nhóm tập trung làm việc tại Building 1965
- Bằng ablation, họ loại bỏ và thay thế từng mô-đun, kỹ thuật để xác nhận thứ gì thật sự cần thiết
- Khi sửa các lỗi như vấn đề do không masking đúng cách, các thành phần hiện nay của transformer được định hình qua những vòng thử nghiệm lặp nhanh
Tiêu đề được Llion Jones đề xuất là “Attention Is All You Need”, lấy cảm hứng từ “All You Need Is Love” của Beatles
- Kết quả English-French xuất hiện 5 phút trước khi nộp, và bài báo được nộp khi chỉ còn 2 phút trước hạn chót
- Google nhanh chóng nộp bằng sáng chế tạm thời cho danh mục bằng sáng chế phòng vệ

Google, OpenAI và chặng đường sau đó của 8 người

Các đánh giá tại NeurIPS khá trái chiều: 1 đánh giá tích cực, 1 rất tích cực và 1 ở mức “ổn”; bài báo được nhận vào phiên poster buổi tối
- Phiên kéo dài 4 giờ ngày 6/12/2017 đông kín các nhà khoa học muốn tìm hiểu thêm
- Đến 10:30 tối, thời điểm kết thúc phiên, vẫn còn người ở lại nên nhân viên an ninh phải yêu cầu họ rời đi
- Việc Sepp Hochreiter, đồng phát minh LSTM, đến và khen ngợi công trình là một khoảnh khắc làm Uszkoreit hài lòng
Transformer không lập tức thống trị nội bộ Google và thế giới
- Vào khoảng thời gian bài báo được xuất bản, Shazeer đề xuất với ban lãnh đạo Google rằng hãy bỏ toàn bộ chỉ mục tìm kiếm và huấn luyện một mạng khổng lồ dựa trên transformer
- Ngay cả Kaiser khi đó cũng xem đề xuất ấy là phi lý
- OpenAI hành động nhanh hơn; sau khi Ilya Sutskever đề nghị Alec Radford thử làm việc với ý tưởng này, sản phẩm GPT đầu tiên ra đời
Google bắt đầu tích hợp transformer vào sản phẩm từ năm 2018
- Ứng dụng đầu tiên là công cụ dịch
- Cùng năm đó, Google công bố mô hình ngôn ngữ dựa trên transformer BERT, rồi bắt đầu áp dụng vào tìm kiếm trong năm sau
- Về lý do không phát hành trước các mô hình ngôn ngữ lớn như ChatGPT, Sundar Pichai nói rằng sau khi những người khác cho thấy cách chúng hoạt động, Google đã có thể làm được nhiều việc hơn
Cả 8 tác giả bài báo đều đã rời Google
- Noam Shazeer đồng sáng lập Character AI, với định giá ước tính 5 tỷ USD
- Llion Jones đồng sáng lập Sakana AI có trụ sở tại Tokyo, được định giá 200 triệu USD
- Inceptive của Jakob Uszkoreit là một công ty công nghệ sinh học được định giá 300 triệu USD
- Near của Illia Polosukhin tạo ra một blockchain có token với vốn hóa thị trường khoảng 4 tỷ USD
- Niki Parmar và Ashish Vaswani khởi động Adept vào năm 2021, sau đó sáng lập Essential AI; Essential AI đã nhận đầu tư 8 triệu USD
- Aidan Gomez đồng sáng lập Cohere tại Toronto vào năm 2019, với định giá ước tính 2,2 tỷ USD
- Łukasz Kaiser không sáng lập công ty mà gia nhập OpenAI, và là một trong những người phát minh công nghệ mới có tên Q*
Ngoại trừ Near, các công ty của họ đều dựa trên công nghệ transformer
- Google đã tạo ra môi trường cho phép theo đuổi các ý tưởng phi truyền thống, và tất cả tác giả đều làm việc trong cùng một văn phòng
- Những cuộc gặp ở hành lang và trò chuyện trong bữa trưa đã trở thành các bước ngoặt quan trọng
- Trong 8 người, 6 người sinh ra ngoài nước Mỹ; 2 người còn lại lần lượt là trường hợp có cha mẹ người Đức tạm thời ở California khi họ chào đời, và người Mỹ thế hệ thứ nhất có gia đình chạy trốn khỏi đàn áp
- Uszkoreit cho rằng đổi mới xuất hiện khi có đúng điều kiện, đúng người ở đúng thời điểm, niềm vui, đúng vấn đề và cả may mắn

1 bình luận

GN⁺ 2024-03-21

Ý kiến trên Hacker News

Đúng hơn là không phải mô hình attention; attention đã tồn tại từ trước các bài báo đó
Điều họ làm gần hơn với việc chứng minh rằng chỉ riêng nó đã đủ để dự đoán chuỗi từ tiếp theo trong một ngữ cảnh nhất định. Khi tôi dùng một framework tương tự vào năm 2018, nó cho ra những hành vi rất kỳ lạ nhưng thú vị, và tôi đã cố sửa chúng, nhưng tôi không nhìn ra như các nhóm khác rằng với một thuật toán đơn giản thì tăng quy mô tính toán lại tốt hơn. Tôi thấy khó chịu khi một nhóm được nói như thể đã khám phá và thay đổi AI rồi phớt lờ các nhóm khác. Những nhà nghiên cứu này xứng đáng được ca ngợi, nhưng họ không phải là người phát minh ra AI hiện đại mà là những người đã phát triển nó theo một cách thú vị. Ngay cả bây giờ vẫn có xu hướng quay lại các cách tiếp cận mang tính quyết định hơn, world model, bộ nhớ, đồ thị, và tối thiểu hóa năng lượng; generative thì thú vị và chúng ta cũng học được nhiều điều, nhưng việc chỉ tiếp tục nhét thêm chip liệu có giải được AGI/SGI hay không thì vẫn chưa được chứng minh trên giấy tờ
- Đây là một cách diễn giải quá cay nghiệt và hạ thấp vấn đề một cách kỳ quặc. Nói vậy thì chắc cũng rất hợp với HN
  Trạng thái tiên tiến đáng kinh ngạc ngày nay sẽ không tồn tại nếu không có kiến trúc Transformer. Nếu transformer chỉ là kẻ ăn may được hưởng lợi từ quy mô tính toán, thì ứng dụng làm rung chuyển thế giới đã là ChatMLP hay ChatCNN chứ không phải ChatGPT. Nhưng không phải vậy, và đến năm 2024 vẫn không có kiến trúc nào đủ sức cạnh tranh trong xử lý ngôn ngữ tự nhiên. Transformer là một ý tưởng thực sự sâu sắc và đáng kinh ngạc, với những thuộc tính xuất sắc như khả năng song song hóa trong huấn luyện. Nhìn lại sau này rất dễ xem nhẹ GPT như phần lớn chỉ là ý tưởng phái sinh, và rồi một ngày nào đó người ta cũng sẽ áp kiểu xét lại đó lên những thứ như state space model có thể thay thế transformer. Dĩ nhiên GPT được xây trên nghiên cứu trước đó và các cách tiếp cận khác cũng cần được ghi nhận. Đó là khoa học. Nhưng những người tạo ra transformer xứng đáng với lời ca ngợi như trong bài viết này, và điều đó không có nghĩa là hạ thấp tất cả những người khác. Tám người này đã thay đổi thế giới và chân thành xứng đáng được yêu mến
- Đây lại là một lần nữa của bài học cay đắng rằng “với một thuật toán đơn giản thì tăng quy mô tính toán lại tốt hơn”
  http://www.incompleteideas.net/IncIdeas/BitterLesson.html
- Tôi chắc chắn cho rằng họ đã thay đổi AI, nhưng không nghĩ điều đó có nghĩa là họ phát minh ra AI hiện đại
  Cá nhân tôi nghĩ để tiến gần AGI hơn thì cần cả năng lực tính toán lẫn kiến trúc mạng nơ-ron
- Tôi học neuroscience nhưng cũng quan tâm đến cách AI hoạt động
  Tôi đã đọc các hướng đi cũ rồi, nhưng những cách nói như đồ thị bộ nhớ hay tối thiểu hóa năng lượng thì còn mới. Tôi muốn biết có bài báo hay bài viết gần đây nào đáng giới thiệu cho người muốn tìm hiểu thêm không
- Nếu đây là một bài về “các kỹ sư Google đã dần dần phát triển AI” thì chắc đã không bán được nhiều quảng cáo
Tôi từng nghe kể về vai trò của nhóm xử lý ngôn ngữ tự nhiên của Uszkoreit vào khoảng năm 2014, thời kỳ đỉnh cao của Google
Khi được hỏi “nếu ngân sách là vô hạn thì anh sẽ làm gì”, ông ấy chỉ trả lời: “đã là như vậy rồi”
- Khi còn là thực tập sinh tiến sĩ, tôi dùng chung văn phòng với Uszkoreit và luôn thấy thật ngầu việc ông ấy đã bỏ dở chương trình tiến sĩ
- Câu chuyện hay đấy, nhưng thời kỳ đỉnh cao của Google có lẽ là khoảng 10 năm trước đó. Đến 2014 thì sự đi xuống đã bắt đầu rồi
- Tôi từng làm ở Borg
  Hệ thống quota có thể hoạt động bất cứ lúc nào khi chạm giới hạn, và GPU bị phân tán qua nhiều Borg cell nên mức trần bị giới hạn. Vì vậy XBorg đã được tạo ra để các nhà nghiên cứu có thể tìm kiếm toàn cục trên mọi Borg cell. Chi tiêu vốn cho datacenter là khoảng 5 tỷ USD mỗi năm và Google tạo ra doanh thu hàng trăm tỷ USD mỗi năm. Hỏi về tình huống bất khả thi là ngân sách vô hạn cũng giống như hỏi “sau khi chết bạn sẽ làm gì”. Sau khi chết thì đúng nghĩa là không làm được gì cả. Trong ngữ cảnh câu hỏi đó, tôi cũng khó hiểu “đã là như vậy rồi” nghĩa là gì, và phản ứng trực tiếp với giả định rằng mình có ngân sách vô hạn là thế này
- Đó là một thời kỳ thú vị. Lâu rồi mới nhìn lại nên thấy thật vui, và nghĩ tới những gì chúng tôi từng làm khi đó thì thật đáng kinh ngạc là công nghệ đã đi được xa đến vậy
“Trên thực tế, vào năm 2019, hoặc có lẽ 2020, GPT-3 hay thậm chí GPT-3.5 đã có thể xuất hiện. Câu hỏi lớn không phải là họ có nhìn thấy nó hay không, mà là vì sao chúng ta đã thấy mà vẫn không làm gì. Câu trả lời thì phức tạp”
Câu trả lời là độc quyền bóp nghẹt đổi mới công nghệ. Doanh nghiệp tìm kiếm dựa vào quảng cáo vốn đã được thiết lập có thể mất doanh thu quảng cáo tìm kiếm vì chatbot mới nổi. Điều này giống như khi công ty điện lực, nhà máy điện khí và nhà sản xuất shale gas bị buộc chung trong một consortium thuộc sở hữu nhà đầu tư. Liệu bộ phận điện lực có muốn lắp đặt hàng loạt tấm pin mặt trời rồi bán cho utility để cắt đứt doanh thu khí tự nhiên hay không? Tất nhiên là không. Đây là một lập luận rất tốt để áp dụng chia tách chống độc quyền kiểu Ma Bell với Alphabet
- Ví dụ còn hay hơn là Kodak, công ty đã phát minh ra máy ảnh số đầu tiên vào năm 1975 nhưng giết luôn dự án vì nó đe dọa mảng phim hóa học của họ
- Tôi biết các chi tiết của vụ này. Sundar đã ngăn đội NEMA công bố tại I/O một sản phẩm ở mức GPT-3 được đóng gói dưới dạng nhân vật
  Sundar sợ công nghệ đó và phản ứng của công chúng, nên đã muốn chôn nó xuống
- Ngược lại, việc Alphabet không thể triển khai GPT-3 hay GPT-3.5 lại có thể khiến họ tự bị phá vỡ từ bên trong, nên có lẽ không cần biện pháp chống độc quyền
- Thành thật mà nói, đây là một trong những lý do tôi nghĩ 10 năm nữa Google sẽ không còn là công ty thống trị
  Tìm kiếm thông tin trên web từng giải quyết được rất nhiều việc hữu ích, nhưng giờ phần lớn việc đó ChatGPT, Claude và các công cụ khác làm tốt hơn. Gemini thì có đấy, nhưng liệu Google có thể chịu được việc mất doanh thu quảng cáo tìm kiếm từ sản phẩm hiện tại để một ngày nào đó kiếm tiền bằng tìm kiếm Gemini hay không? Vẫn chưa ai giải được cách chèn quảng cáo vào giao diện mô hình ngôn ngữ lớn. Google đôi khi tạo cảm giác như một tòa soạn báo cũ kỹ trong kỷ nguyên Internet. Mô hình quảng cáo web trước đây cũng mất thời gian mới ổn định
Việc Google không phải là OpenAI của ngày nay thật khá kỳ lạ. Họ đã có DeepMind và cả một đội quân nhân lực tiến sĩ từ rất sớm mà vẫn không làm được
- Cách trò chuyện với các mô hình ngôn ngữ lớn gây xáo trộn cực mạnh mô hình kinh doanh của Google, và rất khó để sản phẩm hóa nó mà không giết con ngỗng đẻ trứng vàng
- Rốt cuộc đây là bằng chứng cho thấy thời điểm là tất cả
  Deep learning trong thập niên 2010 vẫn còn đang ở giai đoạn tìm hiểu cách tận dụng GPU. Quy mô tính toán cần thiết sau GPT-2 có lẽ gần như bất khả thi vào giai đoạn 2017/2018. Ngay cả trong các khóa học của Udacity cũng chỉ dùng GPU K80 trong vài giờ. Phải đến khoảng năm 2020 mới có thể đổ vào lượng tài nguyên tính toán phi lý đủ để kiểm chứng giả thuyết về quy mô. Sự trỗi dậy của các mô hình ngôn ngữ lớn cũng là câu chuyện về sự phát triển của GPU không kém gì về thuật toán, và đây là minh chứng rất rõ cho bài học cay đắng đó
- Cần giải thích thêm OpenAI của ngày nay là gì. Google là một công ty nghìn tỷ đô với nhiều mảng kinh doanh, còn OpenAI là công ty bán quyền truy cập vào các mô hình tạo sinh lớn
- Để trở thành OpenAI thì Google sẽ phải sa sút khá nhiều
- Trước khi Microsoft can dự, trong cộng đồng AI từng có một quy tắc ngầm ở mức nào đó: hợp tác công khai nhưng không công bố rộng rãi một số mô hình nhất định cho đại chúng
Cuộc trò chuyện này giữa Geoffrey Hinton và Fei-Fei Li đề cập khá nhiều lịch sử liên quan. Độ dài là 1 giờ 50 phút
https://www.youtube.com/watch?v=QWWgr2rN45o
https://www.youtube.com/watch?v=E14IsFbAbpI
Nội dung nói về quá trình nghiên cứu của Hinton và lý do ông đi theo hướng đó, cũng như những nỗ lực Li đã bỏ ra cho ImageNet
“Không chỉ tất cả các tác giả đều là nhân viên Google mà họ còn làm việc trong cùng một văn phòng”
Trông hơi giống một màn quảng bá quay lại văn phòng khá kín đáo. Có lẽ cách tốt nhất để tạo ra đổi mới là kết hợp giữa hợp tác trực tiếp và những khoảng thời gian tập trung sâu không bị làm phiền
- “Những khoảng thời gian tập trung sâu không bị làm phiền” thường là điều bất khả thi trong văn phòng
  Vì vậy thực tế sẽ gần với mô hình kết hợp hơn, và những người hợp lý đều nói như vậy
- Tôi đã làm việc từ xa suốt 2 năm rồi quay lại văn phòng ở đội mới, và khi thực sự muốn hoàn thành công việc thật nhanh thì cảm giác như cuộc đời thay đổi hẳn
- Cũng chẳng kín đáo lắm
- “Văn phòng” không nhất thiết phải có nghĩa là open office
  Có lý do khiến giới học thuật có phòng làm việc riêng với cửa. Tôi thực sự ghét open office, nhưng một văn phòng riêng trong cùng tòa nhà với những người khác thì lại rất tuyệt
“6 trong số 8 người sinh ra ngoài nước Mỹ, và 2 người còn lại lần lượt là con của cha mẹ người Đức có thẻ thường trú đang tạm thời ở California, và một người Mỹ thế hệ thứ nhất có gia đình chạy trốn khỏi sự đàn áp”
Tôi nghĩ nước Mỹ có nhiều thứ cần sửa, nhưng trên Trái Đất này không có quốc gia nào ngoài Mỹ có thể khiến chuyện như vậy xảy ra. Đó là sự thật
- Tôi không nghĩ vậy. Ngược lại, Mỹ khiến cuộc sống của người nhập cư lao động trình độ cao trở nên rất khó khăn
  Cũng có nhiều nước như Singapore, Úc, Đức, Canada có tỷ lệ cư dân sinh ở nước ngoài cao hơn Mỹ. Hồi tôi làm ở Google UK, đội của tôi gồm 100% kỹ sư sinh ra ở nước ngoài đến từ mọi châu lục
- Đồng ý. Với trải nghiệm từng sống hoặc làm việc ở châu Á, châu Âu và Mỹ, nơi tôi luôn thấy nhóm đồng nghiệp đa dạng nhất chính là Mỹ
Việc nhân viên Google có thể xem bản triển khai Transformer đầu tiên và các bình luận phản biện trên cs/ là điều khá tuyệt
Có quá nhiều khoảnh khắc mang tính biểu tượng trong lịch sử AI được lưu lại như thế trên intranet của Google
Đây là một đoạn rất đáng chú ý
“6 trong số 8 người sinh ra ngoài nước Mỹ, và 2 người còn lại lần lượt là con của cha mẹ người Đức có thẻ thường trú đang tạm thời ở California, và một người Mỹ thế hệ thứ nhất có gia đình chạy trốn khỏi sự đàn áp”
- Điều thú vị hơn là trong số đó chỉ có đúng một người học cử nhân ở một trường top của Mỹ là Duke
  Những người còn lại học cử nhân ở Ấn Độ, Ukraine, Đức và Canada, còn University of Toronto có tỷ lệ trúng tuyển là 43%
- Tôi không hiểu vì sao điều đó lại đáng chú ý, đặc biệt là ở Mỹ
  Nếu đó là một nước ít chào đón người nhập cư hơn Mỹ như Trung Quốc hay Nhật Bản thì có thể là một nhận xét thú vị
- Đúng vậy. Đây là một trong những đặc điểm thực sự đáng ngưỡng mộ của Mỹ, đặc biệt là California
  Một phần lý do California là một trong những nền kinh tế lớn nhất thế giới là vì nơi này thu hút và chấp nhận con người từ gần như mọi khu vực trên thế giới

Những nhân viên Google đã tạo ra transformer

Bước ngoặt do “Attention Is All You Need” tạo ra

Khởi điểm của ý tưởng self-attention

Những cuộc gia nhập tình cờ và sự hình thành nhóm “transformer”

Thử nghiệm phá kỷ lục và lần nộp sát hạn chót

Google, OpenAI và chặng đường sau đó của 8 người

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News