Word2Vec bị đánh giá 'từ chối mạnh' bốn lần tại ICLR2013

(openreview.net)

1 điểm bởi GN⁺ 2023-12-19 | 1 bình luận | Chia sẻ qua WhatsApp

Ước lượng không gian vectơ cho biểu diễn từ hiệu quả

Các nhà nghiên cứu đề xuất hai kiến trúc mô hình mới để tính toán biểu diễn vectơ liên tục của từ trên các tập dữ liệu rất lớn.
Chất lượng của các biểu diễn này được đo bằng các bài toán tương đồng từ và được so sánh với nhiều loại kỹ thuật dựa trên mạng nơ-ron từng cho hiệu năng tốt nhất trước đó.
Nhóm nghiên cứu quan sát thấy độ chính xác được cải thiện đáng kể với chi phí tính toán thấp hơn nhiều. Cụ thể, có thể suy ra các vectơ 300 chiều chất lượng cao cho 1 triệu từ vựng từ tập dữ liệu 1,6 tỷ từ trong vòng chưa đầy một ngày chỉ với một CPU.
Ngoài ra, họ cho thấy các vectơ này đạt hiệu năng hàng đầu trên các bộ kiểm thử dùng để đo nhiều loại tương đồng từ khác nhau.
Họ dự định công bố bộ kiểm thử này để cộng đồng nghiên cứu có thể sử dụng.

Ý kiến

Các reviewer chỉ ra rằng bài báo thiếu động lực rõ ràng về việc mô hình được đề xuất khác với các mô hình hiện có như thế nào và vì sao nó tốt hơn.
Phần mô tả mô hình là tối giản, khiến khó xác định nó khác với các nghiên cứu trước ra sao.
Các reviewer nhấn mạnh rằng bài báo bao gồm các phép so sánh thiếu nhất quán giữa các mô hình được huấn luyện trên những tập dữ liệu khác nhau và ở các số chiều khác nhau, trong khi đây là điều cần thiết để khiến các lập luận của bài báo trở nên thuyết phục.

Ý kiến của GN⁺

Nghiên cứu này đề xuất một kỹ thuật mới để ước lượng vectơ từ hiệu quả, và đây là một bước tiến quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên.
Mô hình được đề xuất có thể được huấn luyện nhanh hơn nhiều so với các mô hình mạng nơ-ron phức tạp hiện có, điều này có thể hữu ích cho các nghiên cứu xử lý dữ liệu ngôn ngữ quy mô lớn.
Bài báo cũng đưa ra một phương pháp mới để đánh giá chất lượng của vectơ từ, và điều này có khả năng trở thành một tiêu chuẩn để đo mức độ tương đồng từ trong các nghiên cứu tương lai.

1 bình luận

GN⁺ 2023-12-19

Các ý kiến trên Hacker News

Bài đăng FB gần đây của Tomas Mikolov (tác giả word2vec) có thêm chi tiết: https://www.facebook.com/share/p/kXYaYaRvRCr5K2Ze
Điểm vừa thú vị vừa cay đắng là chuyên gia cũng mắc sai lầm. Có những phản ứng kiểu Geoff Hinton về phép suy luận tương tự giữa các từ, rằng “tôi cũng biết rồi nhưng quên trình bày”, cho đến những người còn chưa đọc bài báo hay tự thử đã nói “đúng là trò mánh khóe nên không thể nào hoạt động”. Cũng có nhắc đến chuyện Ian Goodfellow nổi giận trên Twitter
- Tomas nói rằng ý tưởng encoder-decoder (seq-to-seq) là do ông nghĩ ra, rồi sau khi ông sang Facebook thì Ilya và Quoc tiếp tục phát triển
  Nhưng Quoc nói điều đó không đúng: https://twitter.com/quocleix/status/1736523075943125029
  Phía Quoc nhớ rằng Tomas không phải là người đề xuất ý tưởng; trái lại, khi họ chia sẻ ý tưởng dịch đầu-cuối, Tomas rất hoài nghi, và bất chấp sự hoài nghi đó họ đã nỗ lực để làm cho nó chạy được. Có lẽ không hẳn ai đó đang nói dối mà là một bên nhớ sai, nhưng dư vị thì không dễ chịu
- Công bằng mà nói, tôi cũng nhớ rằng bài báo và các kỹ thuật xung quanh thời đó khá tệ. Những bản triển khai được dùng rộng rãi thực ra chạy khác với nội dung bài báo, và kỹ thuật này cũng không mấy tốt ngoài so sánh ở mức từ
  Gán trọng số tf-idf cho một số từ cụ thể thì có tác dụng đôi chút, nhưng một tập từ có áp dụng trọng số tf-idf cũng mạnh tương tự. Cách lấy tổng của nhiều vector từ rồi dùng độ tương đồng cosine, nhìn lại bây giờ, nghe thật sự ngớ ngẩn
- Tôi có hỏi trong một thread khác rằng Goodfellow đã nổi giận theo kiểu nào, nhưng đây là thứ duy nhất tôi tìm được: https://twitter.com/goodfellow_ian/status/113352818965167718...
  Nếu đúng là cái này thì thành thật mà nói Mikolov tạo cảm giác khá bất ổn
- Thành thật mà nói, bài viết đó có quá nhiều câu chữ châm chọc nhiều người nên nghe giống một bài diễn văn dài dòng. Hoàn toàn có thể viết một cách nhã nhặn hơn nhiều
  Tuy vậy, việc phần lớn nhà nghiên cứu cũng là con người, chịu ảnh hưởng mạnh từ cái tôi và tiền bạc hơn là đặt sự phát triển tri thức chung lên hàng đầu, là điều đáng tin. khụ OpenAI khụ
- Bài đó có lẽ hợp với Twitter hơn là FB “bị lãng quên”. Những cá nhân và tổ chức được nhắc đến hoặc ám chỉ sẽ có cơ hội nhìn thấy bài viết và chia sẻ góc nhìn của họ
  Nếu không thì nó chỉ nghe như một bài than phiền
Tôi nghĩ các reviewer đã làm khá tốt. Nội dung review cũng khá hợp lý. Review nên là quy trình đánh giá chất lượng của bài báo, chứ không phải bài báo sẽ có ảnh hưởng đến mức nào trong tương lai
Không phải mọi bài báo có ảnh hưởng đều thực sự là bài báo hay
- Đồng ý. Bài báo có ảnh hưởng nhất của tôi khi nộp lần đầu cũng bị từ chối mạnh, và nhìn lại thì tôi nghĩ điều đó là chính đáng
  Động lực nghiên cứu còn thiếu, đóng góp không được trình bày rõ ràng, và cách giải thích cũng rất rối. Cốt lõi ý tưởng gần như không thay đổi, nhưng bài báo cuối cùng được xuất bản đã tốt hơn nhiều, và đó là nhờ những review đầu tiên khá gay gắt. Bản thân review không có gì đặc biệt sâu sắc, chỉ ở mức “khó hiểu, không biết đang làm gì và tại sao làm”, nhưng đôi khi một góc nhìn bên ngoài như vậy là thứ thật sự cần thiết
  Tôi cũng từng review và từ chối những bài mà có thể thấy mầm mống của ý tưởng tuyệt vời, nhưng bản thân bài viết thì chưa tốt. Tôi luôn thấy vui khi những bài như vậy về sau được xuất bản dưới dạng tốt hơn nhiều
- Tôi đồng ý rằng trên thực tế bài báo thường được đánh giá như vậy, nhưng phản đối mạnh việc cho rằng nên như thế. Đây giống vấn đề reviewer tìm dưới cột đèn, chứ không phải ở nơi họ làm mất chìa khóa
  Không nên hỏi “bài này có tick đủ các ô không”, mà nên hỏi “bài này có thúc đẩy lĩnh vực tiến lên nên cần được phơi bày nhiều hơn không”. Việc cái trước không dẫn đến cái sau tốt hơn là thất bại của hệ thống
  Nó giống quan niệm tuyển dụng chọn ứng viên có kiểu tóc gọn gàng và nói đúng các mật ngữ, trong khi bỏ lỡ người thật sự ảnh hưởng đến doanh thu
  Một bài báo “hay” rất chặt chẽ nhưng không dẫn đến điều gì thì có thật sự là bài báo hay không? Nếu xem tiến bộ khoa học như xúc xắc, trong đó bài báo chặt chẽ là con xúc xắc có xác suất thành công cao, còn bài kém chặt chẽ là con xúc xắc xác suất thấp, thì chỉ cần tìm các bài chặt chẽ. Khi đó kết luận sẽ là việc word2vec, dù kém chặt chẽ, tạo ra tiến bộ chỉ là “thật sự gặp may”, và nó không cần được đánh giá tốt
  Nhưng word2vec cũng rất đổi mới, và điểm đó nên là yếu tố tích cực trong review. Tôi thậm chí cho rằng các bài báo mang tính đổi mới rất khó đạt độ chặt chẽ cao, vì định nghĩa về sự chặt chẽ trong lĩnh vực đó còn chưa được thiết lập. Ở ranh giới cực đoan, tôi muốn lập luận rằng độ chặt chẽ và tính đổi mới có tương quan âm
- “Văn bát cổ từng được xem là cần thiết để thí sinh khoa cử thời xưa thể hiện các phẩm chất cần có cho việc làm quan… Về mặt cấu trúc và văn phong, văn bát cổ bị hạn chế và cứng nhắc. Có nhiều quy tắc về số câu, số từ, hình thức và cấu trúc, thậm chí cả kỹ thuật gieo vần.”
  https://en.wikipedia.org/wiki/Eight-legged_essay#Viewpoints
- Nếu vậy thì tôi không hiểu tại sao lại dành nhiều trọng tâm và công sức đến thế cho hệ thống bình duyệt đồng cấp
  Nếu hỏi những người tài trợ nghiên cứu, rất có thể họ muốn đầu tư vào các ý tưởng có ảnh hưởng hơn là sản xuất các bài báo “chất lượng cao” nhưng không có ảnh hưởng
- Đây là cách diễn giải đúng. Có người sẽ muốn lái chuyện này thành “reviewer ngu ngốc”, nhưng không phải vậy
Nhìn lại thì bình luận của reviewer f5bf khá thú vị. Người này nói sẽ tốt hơn nếu giải thích các mô hình này xử lý tương đồng ngữ nghĩa phi bắc cầu như thế nào, chẳng hạn “river”, “bank”, “bailout”, và cho biết những người như Tversky đã phê phán rằng các mô hình không gian ngữ nghĩa không mô hình hóa đúng kiểu tương đồng này
Điều nổi bật ở các mô hình hiện đại (GPT, mô hình khuếch tán ảnh, v.v.) là khả năng chơi đùa với từ ngữ khi có nghĩa nước đôi. Trước đây điều này trông như một năng lực rất con người, nhưng giờ dường như đã nằm trong hộp công cụ của các mô hình sinh. Tôi đoán phần lớn chúng dùng một thứ gì đó tương tự word2vec để lấy vector embedding từ prompt
Tôi không biết tính mơ hồ của word2vec có góp phần vào khả năng chơi chữ hay không, nhưng nó cho thấy một tình huống tính năng đối lập lỗi: kiểu mơ hồ này là tính năng cho mục đích sáng tạo, nhưng lại là lỗi nếu muốn mô hình hóa không gian ngữ nghĩa như một không gian vector nghiêm ngặt
Tôi diễn giải rằng embedding từ/prompt của các mô hình hiện nay quá lớn, bị nhồi nhét quá mức bằng các chiều dư thừa, và sẽ không thỏa mãn bất kỳ chủ nghĩa hình thức toán học nào kiểu một không gian vector hoạt động tốt
- Khác biệt cốt lõi có thể gọi là embedding không ngữ cảnh và embedding theo ngữ cảnh. Các phương pháp giống word2vec, do cấu trúc của chúng, buộc phải gán đúng cùng một vector cho “bank” trong mọi câu
  Nhưng các mô hình về sau, chẳng hạn họ Transformer, BERT, GPT, v.v., gán những vector hoàn toàn khác nhau tùy theo ngữ cảnh của các từ xung quanh “bank” đó
- Ngay cả mô hình nhỏ (ví dụ chiều ẩn 32) cũng có thể xử lý tính mơ hồ của token nếu có attention. Thông tin nằm trong ngữ cảnh nhiều hơn rất nhiều so với trong bản thân token
Có vẻ các phiên bản đầu của bài báo đã bị từ chối, rồi sau đó được cập nhật và bổ sung giải thích dựa trên review. Cuối cùng việc đó có ích và trông giống cách quy trình review nên vận hành
Đặc biệt vì bài báo này là một công trình đột phá, việc dành nhiều công sức hơn để giải thích vì sao nó hoạt động, thay vì chỉ dựa vào kết quả benchmark tốt, là hợp lý
Nhìn lại bây giờ, những reviewer ẩn danh khi đó tưởng như thông minh chắc hẳn sẽ thấy mình khá ngớ ngẩn
Bình duyệt không hoạt động tốt với các ý tưởng mới. Vì chẳng ai có thời gian hay dư dả để bỏ ra hàng giờ, rồi thêm hàng giờ nữa, chỉ để hiểu một thứ mới
- Cũng đáng chỉ ra rằng phần lớn khoa học xuất sắc nhất xuất hiện trước khi bình duyệt trở nên thống trị
  Tôi từng đọc một bài, giờ khó tìm lại ngay, đại khái tóm lược lịch sử hệ thống bình duyệt hiện nay. Bình duyệt như chúng ta biết ngày nay chủ yếu hình thành vào thập niên 1970, như một phản ứng trước nhiều cuộc khủng hoảng tài trợ trong giới học thuật. Tức nó là một chiến lược để khiến nghiên cứu trông đáng tin cậy hơn
  Phê phán chí tử nhất đối với bình duyệt tất nhiên là nó hoàn toàn thất bại trong việc ngăn khủng hoảng tái lập kết quả, thậm chí có thể còn góp phần gây ra. Học thuật là một hệ thống có động lực chính là đảm bảo tài trợ thông qua hình ảnh đáng tin cậy, và về nguyên tắc, đó là công thức cho gian lận trên diện rộng
- Tôi đã hoàn thành tiến sĩ AI trong năm qua, và có thể nói rằng thực sự có những reviewer dành hàng giờ để làm một review cho đàng hoàng. Đúng là ngày nay khả năng gặp reviewer lười cao hơn và có thể bạn gặp xui, nhưng bài báo này không có vẻ là trường hợp như vậy
  Ví dụ review của f5bf đã tóm tắt CBOW và skip-gram, đồng thời chỉ ra rằng phần mô tả mô hình quá tối giản nên khó đánh giá nó khác các mô hình hiện có đến mức nào. Người này cho rằng nên thêm biểu diễn đồ họa hoặc chi tiết toán học, và vì bài đang dành nhiều chỗ cho một phương trình hơi không cần thiết về số lượng tham số trong khi vẫn còn gần một trang trống, điều đó hoàn toàn khả thi
  Những review như vậy đã dẫn tới các chỉnh sửa đáng kể trong bài báo, chỉ là có lẽ vẫn chưa đủ lớn: https://openreview.net/forum?id=idpCdOWtqXd60&noteId=C8Vn84f...
  Đó là các review chất lượng khá tốt, và cá nhân tôi nghĩ bài báo đã được lợi từ quy trình review này
- Trong năm qua, tôi đã rất thất vọng với các track hội nghị về học máy. Có quá nhiều bài và quá ít reviewer, khiến số lượng nghiên cứu sinh tiến sĩ làm reviewer cao một cách bất thường
  Tôi đã nhận được những review thật sự vô lý, thậm chí có những điều đi ngược tinh thần khoa học. Chẳng hạn có reviewer về cơ bản khăng khăng rằng nếu không có ý tưởng kiến trúc mới và kết quả state-of-the-art thì không đáng xuất bản. Như thể việc hiểu rõ hơn và đơn giản hóa các công cụ đã tồn tại là tuyệt đối không được phép
- Kết luận tôi rút ra không phải vậy. Quy trình review đã cải thiện bài báo và làm nó chặt chẽ hơn. Tôi không hiểu tại sao đó lại là điều xấu
  Tất nhiên đôi khi reviewer tập trung vào những vấn đề khác, thay vì “liệu thứ này có cách mạng hóa A, B, C hay không”
- Vấn đề ở đây không phải là các reviewer không xử lý nổi ý tưởng mới. Họ đều rất quen thuộc với word embedding và cách tạo ra chúng
  word2vec không có quá nhiều khái niệm mới; điểm khác biệt là nó đơn giản, nhanh và có chất lượng tốt. Phần mềm và các vector đã huấn luyện sẵn cũng dễ tiếp cận và sử dụng hơn các phương pháp trước đó
Đúng là có bốn “strong reject”, nhưng tất cả có vẻ do cùng một reviewer viết cùng nội dung vào cùng thời điểm. Vậy chẳng phải chỉ là một lần từ chối thôi sao?
Và tôi cũng thắc mắc vì sao chỉ thấy điểm của reviewer đó
Tôi tò mò không biết trong số những người ở đây phát biểu rất mạnh về giá trị hay sự vô giá trị của bình duyệt, có bao nhiêu người thực sự từng tham gia với cả hai vai trò tác giả và reviewer. Càng tò mò hơn về những người từng làm vai trò biên tập viên, phải gộp và tổng hợp nhiều review thành một khuyến nghị duy nhất
Có rất nhiều nơi để chia sẻ nghiên cứu hay ý tưởng mà không cần bình duyệt chính thức, tiêu biểu là arXiv/bioRxiv. Nếu bác bỏ chính bình duyệt, có vẻ vẫn có đủ lựa chọn thay thế
- Vì đây là internet, nên với bất kỳ chủ đề nào, phần lớn những niềm tin rất chắc chắn thường đến từ những người có rất ít kinh nghiệm hoặc năng lực trong lĩnh vực đó
  Vì là HN nên có lẽ tốt hơn mức trung bình một chút, nhưng đồng thời cũng sẽ bị lệch về phía những người đang trì hoãn việc khác. Chỉ cần tự cân nhắc điểm đó là được
Khi còn là sinh viên đại học, tôi đã làm một hệ thống đơn giản để sửa văn bản dựa trên vài heuristic cho bài tập môn học
Giáo viên của môn đó đề nghị tôi gửi một bài báo mô tả hệ thống và kết quả tới một hội nghị khu vực vào mùa hè, và tôi đã viết với sự giúp đỡ của thầy, nhưng bài bị từ chối ngay vì lý do kiểu như ngữ pháp kém. Hội nghị tổ chức ở Brazil nhưng yêu cầu bài viết bằng tiếng Anh. Lúc đó tôi là sinh viên và nghĩ tiếng Anh của mình thật sự rất tệ
Thầy bảo tôi gửi email cho reviewer để xin phản hồi, rồi sửa và nộp lại. Vì vậy tôi hỏi cụ thể đoạn nào gây khó hiểu, thì họ gửi lại những mảnh câu rõ ràng là sai. Nhưng đó là câu trước khi sửa trong các ví dụ cho thấy hệ thống của tôi sửa trước/sau như thế nào
Tôi cố giải thích rằng đó là phần vốn phải sai ngữ pháp, nhưng câu trả lời là “hãy sửa lỗi tiếng Anh rồi nộp lại”. Tôi thử thêm hai ba lần nữa rồi cuối cùng bỏ cuộc
- Làm tôi nhớ đến các giai thoại Feynman trải qua ở Brazil. Đặc biệt có thể tìm “I was invited to give a talk at the Brazilian Academy of Sciences”, nhưng nếu chưa đọc thì toàn bộ bài đều đáng đọc
  https://southerncrossreview.org/81/feynman-brazil.html
- Nghe đúng kiểu vậy đến mức tôi phải đảo mắt. Dù sao nếu vẫn muốn xuất bản, bạn có thể đưa lên arXiv và nhờ trí tuệ tập thể của HN gợi ý nơi nộp phù hợp
  Nếu không có quyền truy cập arXiv thì tìm người bảo chứng là được: <https://info.arxiv.org/help/endorsement.html>. Hãy gửi một email ngắn gọn, lịch sự, ưu tiên sự súc tích hơn nghi thức. Đại khái: “Năm yyyy, tôi viết một bài báo về tự động sửa ngữ pháp ở đại học, và bị Venue từ chối vì các lỗi ngữ pháp trong hình. Tôi vẫn muốn xuất bản. Anh/chị có thể bảo chứng tài khoản arXiv cho tôi không? Và có thể gợi ý nơi nộp phù hợp không?” Khi xin bảo chứng, cứ làm theo hướng dẫn trên website arXiv
- Tôi từng là reviewer và đôi khi cũng viết những review tương tự
  Một bài báo là bài luyện truyền đạt thông tin tới người đọc. Nếu cách viết khiến người đọc rất khó hiểu thông tin đó, thì bất kể chất lượng ý tưởng bên trong ra sao, bài báo cũng không mấy hữu ích và không phù hợp để xuất bản
  Việc của reviewer không phải là viết lại bài báo sao cho dễ hiểu. Họ không có thời gian, và đó cũng không phải nhiệm vụ của họ
  Viết không dễ, và viết bài báo kỹ thuật là một kỹ năng thật sự khó học. Nhưng đó là điều cần thiết để nghiên cứu trở nên hữu ích
  Nói thật thì nghe như giáo viên đã đề nghị viết bài báo đã không làm tròn vai, khiến bạn mất thời gian. Nếu công trình đó đáng xuất bản thì thầy nên dành thời gian chỉnh nó thành dạng có thể xuất bản; còn nếu không định làm vậy thì ngay từ đầu không nên đề nghị
Tôi flag vì tiêu đề dễ gây hiểu lầm. Bốn đánh giá strong reject là từ một tác giả
Không rõ vì sao nó được liệt kê bốn lần, nhưng có khả năng là hành vi lạ của OpenReview. Trạng thái thực tế mà trang hiển thị là 2 unknown kèm văn bản dài, 1 weak reject, và 1 strong reject
Luồng review trông giống một luồng Show HN bắt đầu từ dưới rồi đọc lên trên, và diễn biến theo hướng tiêu cực
Khi bài báo ban đầu nhận được câu hỏi và phản hồi tiêu cực, các tác giả đã cập nhật và hơi chạm nhẹ vào các reviewer. Họ trả lời rằng: “chúng tôi hoan nghênh thảo luận… đóng góp chính có vẻ bị bỏ sót trong một số review là việc có thể tính được biểu diễn vector từ tốt ngay cả bằng một mô hình rất nông”
Phản hồi cho bản cập nhật đó là: “Các sửa đổi và phản biện không giải quyết được những vấn đề mà reviewer nêu ra. Ở hình thức hiện tại, tôi cho rằng không nên chấp nhận bài báo. Đánh giá chất lượng: Strong reject. Độ chắc chắn: reviewer có kiến thức”

Word2Vec bị đánh giá 'từ chối mạnh' bốn lần tại ICLR2013

Ước lượng không gian vectơ cho biểu diễn từ hiệu quả

Ý kiến

Ý kiến của GN⁺

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News