Deep learning được chú ý, còn deep fact-checking bị ngó lơ

(rachel.fast.ai)

3 điểm bởi GN⁺ 2025-06-04 | 1 bình luận | Chia sẻ qua WhatsApp

Nghiên cứu huấn luyện Transformer trên dữ liệu 22 triệu enzyme để dự đoán chức năng của 450 enzyme chưa biết đã được đăng trên Nature Communications và lọt top 5% mức độ quan tâm theo Altmetric, nhưng bản preprint tiếp theo kiểm chứng các lỗi quy mô lớn lại ít được chú ý hơn nhiều
Dự đoán chức năng enzyme trông giống bài toán đoán mã EC từ chuỗi amino acid, nhưng việc kết luận thực tế cần bằng chứng sinh học như không chỉ độ tương đồng cấu trúc mà còn bối cảnh vùng lân cận của gene, docking cơ chất, và sự đồng xuất hiện trong các con đường chuyển hóa
Trong 450 dự đoán “mới”, 135 dự đoán đã tồn tại trên UniProt, còn 148 dự đoán cho thấy các mẫu hình gượng gạo về mặt sinh học, chẳng hạn cùng một chức năng rất cụ thể bị lặp lại tới 12 lần
Trường hợp yciO cho thấy hiệu năng trên tập test và một số ít kiểm chứng in vitro là chưa đủ; yciO tương tự TsaC về cấu trúc, nhưng các nghiên cứu trước đây và khác biệt về hoạt tính enzyme cho thấy chúng không thực hiện cùng một chức năng cốt lõi
Mô hình học có giám sát có thể hữu ích để lan truyền nhãn chức năng đã biết trong cùng nhóm chức năng, nhưng có giới hạn trong việc khám phá chức năng thực sự chưa biết, và nhãn sai có thể tiếp tục lan rộng qua các cơ sở dữ liệu như UniProt rồi đi vào quá trình huấn luyện các mô hình sau này

Sự tương phản giữa bài báo dự đoán enzyme bằng AI và kiểm chứng sau đó

Nghiên cứu gốc huấn luyện và đánh giá một mô hình dựa trên Transformer bằng tập dữ liệu có 22 triệu enzyme và mã EC, rồi dự đoán chức năng của khoảng 450 enzyme chưa rõ chức năng
Bài được đăng dưới tiêu đề Functional annotation of enzyme-encoding genes using deep learning with transformer layers | Nature Communications, đạt 22.000 lượt xem và nằm trong top 5% toàn bộ sản phẩm nghiên cứu theo mức độ quan tâm của Altmetric
Bài kiểm chứng tiếp theo Limitations of Current Machine-Learning Models in Predicting Enzymatic Functions for Uncharacterized Proteins | bioRxiv phát hiện các lỗi nghiêm trọng và hàng trăm kết quả có khả năng cao là sai trong các dự đoán của bài gốc, nhưng không nhận được số lượt xem hay trích dẫn tương đương bài gốc
Trường hợp này cho thấy khó đánh giá tính hợp lệ của kết quả AI trong sinh học nếu thiếu chuyên môn sâu về lĩnh vực

Vì sao dự đoán chức năng enzyme khó

Enzyme xúc tác các phản ứng trong sinh vật, và mã Enzyme Commission (EC) phân loại hàng nghìn chức năng enzyme theo hệ thống phân cấp
Nhìn từ việc đầu vào là chuỗi amino acid cấu thành protein và đầu ra là mã EC, đây có vẻ là bài toán rất phù hợp với machine learning
UniProt có hơn 22 triệu enzyme kèm mã EC, có thể dùng làm tập dữ liệu huấn luyện quy mô lớn
Tuy nhiên, kết luận chức năng enzyme không thể chỉ dựa vào độ tương đồng chuỗi/cấu trúc, và các quan hệ tiến hóa đã tách chức năng là một cái bẫy phổ biến

Cách tiếp cận Transformer và thành quả bề ngoài

Bài trên Nature Communications dùng mô hình deep learning Transformer để dự đoán chức năng của các enzyme trước đó chưa rõ chức năng
Kiến trúc mô hình áp dụng cách tiếp cận từ BERT, gồm hai bộ mã hóa Transformer, hai lớp tích chập và một lớp tuyến tính
Nhóm nghiên cứu kiểm tra liệu các vùng có attention cao có ý nghĩa sinh học hay không, rồi nhận định rằng mô hình đã học được ý nghĩa nền tảng và cũng cung cấp khả năng diễn giải
Họ dùng cách chia train/validation/test tiêu chuẩn trên tập dữ liệu có hàng triệu mục, rồi áp dụng mô hình lên tập dữ liệu không có ground truth để tạo khoảng 450 dự đoán mới
Trong số đó, họ chọn ngẫu nhiên ba dự đoán để kiểm thử in vitro và xác nhận dự đoán là chính xác

Các lỗi lộ ra và mẫu hình lặp lại

Phân tích tiếp theo kết luận rằng hàng trăm dự đoán “mới” trong bài Nature Communications gần như chắc chắn là lỗi
Bài gốc đạt hiệu năng tốt trên tập test được giữ lại, nhưng cuộc điều tra sau đó phát hiện khả năng có rò rỉ dữ liệu
Trong 450 kết quả “mới”:
- 135 kết quả đã được liệt kê trên UniProt, nên thực ra không mới
- 148 kết quả cho thấy mẫu hình bất thường, khi cùng một chức năng enzyme rất cụ thể bị lặp lại tới 12 lần trong các gene của E. coli
Sự lặp lại này không hợp lý về mặt sinh học; thiên lệch, mất cân bằng dữ liệu, thiếu đặc trưng liên quan, giới hạn kiến trúc và thiếu hiệu chỉnh độ bất định có thể khiến mô hình buộc phải đưa ra các nhãn phổ biến trong dữ liệu huấn luyện
YjhQ được dự đoán là mycothiol synthase, nhưng E. coli không tổng hợp mycothiol
YrhB được dự đoán là tổng hợp một hợp chất cụ thể, nhưng hợp chất đó vốn đã được dự đoán là do enzyme QueD tổng hợp, và E. coli đột biến QueD không thể tổng hợp hợp chất ấy, cho thấy đó không phải là chức năng của YrhB

Vai trò của kiến thức chuyên ngành qua trường hợp yciO

Một trong các đối tượng được kiểm thử in vitro, yciO, là enzyme đã được Dr. de Crécy-Lagard nghiên cứu hơn 10 năm
Bài gốc kết luận yciO có cùng chức năng với TsaC, nhưng các nghiên cứu trước đó không ủng hộ điều này
TsaC là gene thiết yếu ở E. coli; yciO tồn tại trong cùng genome, và ngay cả khi yciO được biểu hiện quá mức, tính thiết yếu của TsaC vẫn không biến mất
Hoạt tính yciO mà Kim et al. báo cáo yếu hơn TsaC hơn 4 bậc độ lớn, tức hơn 10.000 lần
yciO và TsaC tương tự nhau về cấu trúc, và yciO tiến hóa từ tổ tiên của TsaC, nhưng sau khi nhân đôi gene, việc chức năng đa dạng hóa là phổ biến trong tiến hóa protein/enzyme
Ngoài độ tương đồng cấu trúc, các bằng chứng sau cũng quan trọng trong phân loại chức năng enzyme
- bối cảnh vùng lân cận của gene
- docking cơ chất
- sự đồng xuất hiện của các gene trong con đường chuyển hóa
- các đặc điểm khác của enzyme

Phân biệt “lan truyền chức năng đã biết” và “khám phá chức năng thực sự chưa biết”

Việc nhận diện chức năng enzyme trộn lẫn hai bài toán khác nhau
- lan truyền nhãn chức năng đã biết cho các enzyme cùng nhóm chức năng
- khám phá những chức năng thực sự chưa được biết
Theo thiết kế, mô hình machine learning học có giám sát không thể dùng để dự đoán chức năng của true unknowns
Machine learning có thể hữu ích trong việc lan truyền chức năng đã biết sang các enzyme bổ sung
Tuy nhiên, các lỗi sau có thể xảy ra
- không lan truyền nhãn đáng lẽ phải lan truyền
- lan truyền nhãn không nên lan truyền
- lỗi curate dữ liệu
- lỗi thí nghiệm
Nếu một chức năng sai đi vào các cơ sở dữ liệu trực tuyến cốt lõi như UniProt, nó có thể được dùng làm dữ liệu huấn luyện cho các mô hình dự đoán sau này, khiến lỗi lan rộng hơn
Vấn đề này có thể ngày càng lớn theo thời gian

Phần thưởng thấp cho nghiên cứu kiểm chứng dữ liệu

Công việc xây dựng mô hình AI nhận được phần thưởng và hỗ trợ lớn hơn so với việc kiểm tra kỹ dữ liệu nền và tích hợp kiến thức chuyên ngành sâu
Everyone Wants to do the Model Work, not the Data Work nghiên cứu hàng chục người thực hành machine learning tham gia các dự án AI rủi ro cao, và xem thiếu chuyên môn miền ứng dụng phù hợp là một trong những nguyên nhân chính dẫn đến thất bại nghiêm trọng
Việc đánh giá kết quả AI ngoài lĩnh vực chuyên môn của mình có thể rất khó hoặc bất khả thi
Nhiều bài deep learning được đọc trong khi chất lượng kết quả chưa được các chuyên gia miền rà soát kỹ lưỡng
Việc kiểm tra hàng trăm dự đoán enzyme có thể kém hào nhoáng hơn xây dựng mô hình AI, nhưng có thể quan trọng hơn đối với chất lượng kết quả
Hệ thống khuyến khích tập trung mất cân đối vào các lời giải AI hào nhoáng có thể đánh đổi bằng chất lượng kết quả

1 bình luận

GN⁺ 2025-06-04

Ý kiến trên Hacker News

Trước đây tôi từng gặp chuyện tương tự. Tôi thử ném BERT vào dữ liệu enzyme, khi đánh giá thì trông vẫn ổn, nhưng ra môi trường thực tế thì hỏng hoàn toàn. Đó là tình huống điển hình của việc “overfit vào bầu không khí”
Nói thật, nếu chỉ là phân loại đơn giản thì lúc nào tôi cũng sẽ chọn SVM hoặc hồi quy logistic. Transformer thì ngầu thật, nhưng nếu dữ liệu không cực kỳ sạch, nó sẽ tự tin nói nhảm. Giống như đưa cho GPT một bài trắc nghiệm vô lý, nó vẫn chọn một đáp án rồi nói rất chắc chắn
Dạo này tôi chuyển sang lấy embedding từ các mô hình lớn rồi đặt một bộ phân loại đơn giản lên trên. Hiệu quả hơn, nhanh hơn, và ít ồn ào hơn
- Transformer có thể đạt điểm tuyệt đối trên tập kiểm thử, rồi ngã sấp ngay khi gặp thực tế. Tôi cũng từng nhảy cẫng lên vì “ồ, độ chính xác 92%!”, để rồi sau đó nhận ra mình chỉ tạo ra một bộ khớp mẫu tự tin nhận ra các đặc điểm vụn vặt của bộ dữ liệu
- Có thể bạn đã biết, nhưng cách lấy embedding từ mô hình lớn rồi đặt bộ phân loại lên trên, nhìn rộng ra, được gọi là học chuyển giao
- Đúng, nhưng dù sao đó vẫn là dùng Transformer một cách gián tiếp
- Trớ trêu là chính bình luận này đọc lên lại giống như do Transformer, chính xác hơn là ChatGPT, tạo ra
- Một câu hỏi hơi khác: bạn thấy SVM hữu ích đến mức nào trong production? Tôi thường cảm thấy nó quá chậm so với các thuật toán khác nên không đáng dùng
Trước khi để AI làm nghiên cứu, có lẽ trước hết nên bắt nó tái lập nghiên cứu đã. Ví dụ, đưa cho nó một bài báo về một kỹ thuật deep learning nào đó và yêu cầu nó tạo phần triển khai của bài báo đó
Nếu nó không làm được điều đó, thì tôi không kỳ vọng nó có thể tạo ra ý tưởng mới
- Tính tái lập là đường cơ sở. Cho đến khi mô hình có thể đọc, hiểu và triển khai đúng các nghiên cứu hiện có một cách ổn định, cụm từ “nhà khoa học AI” phần lớn vẫn giống branding hơn
- OpenAI đã tạo một benchmark cho việc này: https://openai.com/index/paperbench/
- Cần một audit trail rất đầy đủ đối với LLM, và cũng phải đảm bảo rằng bài báo đó không nằm ở bất kỳ đâu trong dataset
  Gian lận học thuật hiếm nhưng không phải không có. LLM chỉ cần có một kẽ hở nhỏ là sẽ bịa dữ liệu và nói dối
- Tôi tưởng bạn định nói: “Hãy đưa cho AI phần đầu của bài báo, tức prompt, rồi để nó hoàn thiện phần còn lại, nhằm kiểm chứng xem nó có thể tạo ra khoa học tương đương với kết quả nghiên cứu không.” Nếu nó không làm được điều đó, thì tôi không kỳ vọng nó có thể tạo ra ý tưởng mới
- Hoặc cũng có thể đưa cho nó một bài báo đầy các thống kê về quan sát thí nghiệm rồi yêu cầu tái tạo dữ liệu thô
Tôi nghe nói có một nhà nghiên cứu đã dành 6 tháng để kiểm chứng kết quả của một bài báo đã xuất bản. Cuối cùng, thứ anh ấy nhận được chỉ là một câu “cảm ơn đã chỉ ra”
Anh ấy lặng lẽ nói: “Có những việc quan trọng không phải vì chúng được nhìn thấy, mà vì chúng ngăn người khác đi sai đường”
Tôi tin rằng nếu ta thậm chí không sẵn lòng cẩn thận kiểm tra xem dự đoán có khớp với thực tế hay không, thì công nghệ dù trông ấn tượng đến đâu cũng chỉ là ảo ảnh thoáng qua
- Có thể sẽ không nhận giải Nobel, nhưng xét về thành tựu và giá trị đóng góp cho nhân loại thì vượt xa phần lớn nhân viên doanh nghiệp. Ước gì chúng ta cũng có thể nói như vậy về những việc mình đã làm trong 10 năm qua
Có vẻ phần “các điều tra sau đó cho thấy có khả năng đã có rò rỉ dữ liệu” thường bị quên mất. Cho đến khi có bằng chứng phản bác mạnh mẽ, mọi người nên giả định là có rò rỉ dữ liệu
Trách nhiệm chứng minh không phải thuộc về độc giả hay người hoài nghi để chứng minh rằng có rò rỉ; trách nhiệm chứng minh rằng không có rò rỉ thuộc về tác giả
Với các dataset nhỏ, rò rỉ dữ liệu rất dễ xảy ra. Ngay cả với dataset có thể nhìn hết bằng mắt, rò rỉ cũng rất dễ lọt vào, và thường xảy ra mà chính người làm cũng không biết. Những yếu tố tinh vi có thể dễ dàng làm hỏng dữ liệu
Giờ đây ta xử lý các dataset khổng lồ mà con người không có khả năng xem hết. Ta cũng biết các phương pháp lọc là không hoàn hảo, vậy làm sao có thể tin rằng không có rò rỉ? Có thể nói là đã lọc, nhưng không thể nói là không có rò rỉ
Hơn nữa, ngay cả với những dataset có thể tiếp cận, chúng ta vẫn liên tục phát hiện ô nhiễm. Tức là bằng chứng cho thấy việc này thực sự xảy ra thường xuyên cứ tiếp tục xuất hiện
Vậy tại sao vẫn cứ giả định là không có ô nhiễm? Vì hype chăng? Thành thật mà nói, nghe giống như một lời nói dối tự nhủ với bản thân vì muốn tin vào điều đó. Không thể sửa vấn đề kiểu này bằng cách tự lừa mình
- Mọi hệ thống đều có vấn đề. Câu hỏi tốt hơn là ngưỡng chấp nhận được nằm ở đâu
  Ví dụ, tỷ lệ chi trả sai trong Medicare và Medicaid là 7,66%. Đó là quy mô hàng chục tỷ đô la và vẫn còn chỗ để cải thiện, nhưng không có nghĩa là toàn bộ hệ thống đã thất bại. 93% trường hợp vẫn được bảo đảm đúng như dự định
  Các mô hình như thế này cũng có thể tương tự. Nếu tỷ lệ ô nhiễm là 10%, thì toàn bộ hệ thống là tệ, hay đó là mức có thể chịu được?
  [1]: https://www.cms.gov/newsroom/fact-sheets/fiscal-year-2024-im...
- Trách nhiệm chứng minh nằm ở đâu không phải là tiêu chí quyết định về việc nên tin điều gì, ít nhất không đến mức như người ta thường nghĩ trên mạng
Điều tôi đã dự đoán đã xảy ra y như vậy: https://news.ycombinator.com/context?id=44041114 https://news.ycombinator.com/context?id=41786908
Cũng giống như “AI có thể code”. Nếu vấn đề không nằm trong tập huấn luyện, nó cứ thất bại một cách hào nhoáng, và lần nào mọi người cũng ngạc nhiên
- Với phía “AI có thể code” thì nếu đi đường vòng vẫn có thể tiến khá xa. Chỉ cần bổ trợ workflow của kỹ sư phần mềm thực thụ và gắn thêm các lớp an toàn như linter, test
  Nó không làm được những phần khó như kiến trúc, thiết kế, review, nhưng có thể lấy đi một lượng cực lớn các phần lặp lại và đã được giải quyết sẵn vốn chiếm phần lớn thời gian của kỹ sư. Vì con người vẫn đảm bảo chất lượng, việc tăng năng suất 2–5 lần mà không mất chất lượng là hoàn toàn có thể
  Nhưng nếu không có quản lý và không kiểm tra, nó không thể thay thế trọn vẹn công việc của bất kỳ con người nào. Vẫn còn hoàn toàn chưa gần tới mức đó
“Trong phần lớn các bài báo deep learning mà tôi đã đọc, các chuyên gia miền không rà soát kỹ kết quả để kiểm tra chất lượng đầu ra. Có bao nhiêu bài báo trông có vẻ ấn tượng lại không trụ nổi trước kiểm chứng nghiêm ngặt?”
Có thật vậy không? Tôi đã đọc vài bài báo AI trong lĩnh vực của mình, và tôi biết nhiều chuyên gia miền khác cũng đã đọc rất nhiều. Tuy nhiên, nhìn chung có vẻ các công việc dựa trên khoa học máy tính/phần mềm dễ kiểm chứng hơn sinh học. Hoặc cũng có thể vì tôi gần như không biết gì về sinh học
- Việc kiểm chứng nhãn sinh học dễ dàng mất vài năm. Ví dụ trong bài gốc gần như là một sự trùng hợp khổng lồ may mắn, khi đã có ai đó dành vài năm cho một trong các nhãn protein được dự đoán
  Không ai sẽ đánh cược 3–5 năm sự nghiệp chỉ để kiểm chứng một dự đoán tùy ý của mô hình
- Đọc bài báo, kiểm chứng kết quả và chứng nhận độ chính xác là những việc khác nhau. Tôi cũng đọc rất nhiều bài báo, nhưng thường chỉ xem dữ liệu nền tảng khi định tái sử dụng dữ liệu đó cho mục đích khác
  Khi làm vậy, tôi thường phát hiện lỗi nhãn đáp án khá nhanh. Tất nhiên, đa số mô hình không đủ tốt để các lỗi như vậy ảnh hưởng lớn đến kết quả
- Trong ngôn ngữ học, tôi có ấn tượng rằng mọi người đọc khá kỹ và cũng đưa ra phê bình đối với các bài báo dùng những kỹ thuật này. Chỉ là mọi người không coi trọng nhà ngôn ngữ học, nên những người ở các lĩnh vực liên quan phớt lờ các phê bình đó
Không nên gọi Nature Communications là “Nature”. Uy tín hoàn toàn khác nhau. Và altmetrics cũng không liên quan nhiều lắm, trừ khi muốn đo mức độ thổi phồng trong công chúng
- Cập nhật: có vẻ tác giả đã đọc điều này và sửa lại
Rất khớp với trải nghiệm LLM hạn chế của tôi với tư cách nhà nghiên cứu. Khả năng hiểu văn bản và diễn đạt câu bề ngoài rất ấn tượng
Nhưng việc đi đến câu trả lời tốt nhất có thể, đặc biệt với những câu hỏi chưa được giải quyết, lại là chuyện khác. Với những câu hỏi vốn có thể tốn nửa ngày mà vẫn không kết luận được, câu trả lời được đưa ra gần như tức thì hiếm khi làm tôi hài lòng
Câu hỏi phức tạp cần thời gian để thăm dò. Cho đến nay, ngay cả trong những tình huống LLM đáng ra phải không thể kết luận vì thiếu năng lực, chúng vẫn có xu hướng đưa ra câu trả lời trông tự tin, đôi khi hoàn toàn sai, thay vì thừa nhận trạng thái chưa giải quyết đó
Một bài viết xuất sắc của Rachel Thomas
Điều này trông như một luận cứ khác rằng vì deep learning dựa vào dữ liệu huấn luyện, vốn là biểu diễn rất mất mát của miền nền tảng, nên rốt cuộc nó chỉ hoạt động như truy xuất thông tin sinh tạo. Nói cách khác, là con vẹt ngẫu nhiên
Vì dữ liệu gene hay nhãn không phải lúc nào cũng biểu diễn hoàn hảo sinh học, tức miền nền tảng, nên đầu ra có thể là sai, vô hiệu hoặc vô nghĩa
Khi nó hoạt động rất tốt thì có hiện tượng rò rỉ dữ liệu. Vì LLM theo thiết kế là công cụ truy xuất thông tin. Nhìn từ góc độ lý thuyết thông tin, trong bất kỳ mô hình nào cũng tồn tại những điều căn bản “không biết rằng mình không biết”
Kết luận của tôi là vấn đề không hẳn nằm ở thuật toán, mà gần với lỗi của tập dữ liệu huấn luyện hơn
Con người hoạt động linh hoạt trong miền ngôn ngữ tự nhiên, và ngay cả trẻ em cũng có thể đọc và đánh giá xem văn bản có hợp lý không. Điều này giải thích thành công của các mô hình được huấn luyện bằng xử lý ngôn ngữ tự nhiên
Nhưng trong các lĩnh vực mà dữ liệu huấn luyện biểu diễn miền nền tảng một cách mất mát, chúng không thể tránh khỏi sự không hoàn chỉnh
- Nghịch lý của các LLM hiện đại là chúng không trực tiếp biểu diễn miền nền tảng, nhưng có thể biểu diễn thông tin có thể được trình bày bằng văn bản. Vì vậy chúng biểu diễn một số thông tin, nhưng không phải lúc nào cũng rõ chính xác đó là gì và được biểu diễn như thế nào
  Không gian embedding có thể biểu diễn quan hệ giữa từ, câu và đoạn văn; những thứ này có thể chứa thông tin về miền nền tảng, nên nếu truy vấn các quan hệ đó bằng văn bản, ta có thể nhận được câu trả lời có vẻ hợp lý. Vấn đề là văn bản là một cách mã hóa lộn xộn, nên không phải lúc nào cũng rõ các quan hệ đó biểu diễn điều gì
  Một điểm yếu khác là tính sinh tạo. Để tạo ra tính sinh tạo, thay vì hardcode mọi câu hỏi và câu trả lời có thể có vào cơ sở dữ liệu, một phần dữ liệu được đẩy sang thuật toán, tức dự đoán token tiếp theo. Nhờ vậy có thể đặt các câu hỏi/prompt mang tính xác suất dù không chính xác, và có lợi thế là hỏi được bất cứ điều gì
  Nhưng không một thuật toán đơn lẻ nào có thể mã hóa chính xác mọi câu trả lời có thể có cho mọi câu hỏi có thể có trong một miền. Vì vậy độ chính xác của thông tin bị mất đi một phần. Tôi nhìn các LLM hiện nay theo cách đó
- Ngay cả nếu đơn giản hóa cuộc thảo luận và giả định rằng nói LLM là truy xuất thông tin sinh tạo là hoàn toàn đúng, LLM vẫn sẽ tiếp tục tồn tại
  Chỉ cần nghĩ xem trong lập trình, một lập trình viên junior dưới trung bình hoặc trung bình làm việc như thế nào. Họ “tìm kiếm” thông tin giải quyết vấn đề trên Stack Overflow hoặc tutorial
  Việc cung cấp cho mọi lập trình viên một công cụ tự động hóa AI được làm tốt cũng giống như gán cho mỗi người một lập trình viên junior để ủy thác các công việc nhàm chán và đơn giản. Cũng không phải lo junior không trưởng thành được vì chỉ làm việc đơn giản. Nếu có đủ các công cụ như phân tích mã tĩnh và kiểm thử, công cụ AI sẽ thực hiện khá tốt vòng lặp làm việc, chạy công cụ và sửa vấn đề
  Giá của công cụ đó chẳng phải khoảng 1/30 chi phí của một lập trình viên junior sao? Như vậy có thể dành nhiều thời gian hơn cho những việc quan trọng, bao gồm cả việc đào tạo lập trình viên junior thật
  Tôi không nghĩ AI đã hoàn toàn đạt đến mức đó, nhưng tôi cho rằng các mô hình nền tảng hiện nay, nếu được kết nối và kết hợp đúng cách, có thể đã đủ để đạt tới đó
- Tôi tò mò liệu quá trình tư duy dẫn đến tình huống mà Rachel Thomas mô tả có vận hành ở mức độ nào đó trong các lĩnh vực khác hay không. Đây là một bài viết quan trọng và tôi đồng ý
Chỉ ra đúng một vấn đề cốt lõi của chu kỳ thổi phồng AI hiện nay. Chúng ta đang tối ưu hóa sự chú ý, chứ không phải độ chính xác
Và đây không chỉ là vấn đề của sinh học. Có thể thấy những mô thức tương tự trong nhiều ứng dụng machine learning ở các lĩnh vực như khoa học khí hậu, luật và y học

Deep learning được chú ý, còn deep fact-checking bị ngó lơ

Sự tương phản giữa bài báo dự đoán enzyme bằng AI và kiểm chứng sau đó

Vì sao dự đoán chức năng enzyme khó

Cách tiếp cận Transformer và thành quả bề ngoài

Các lỗi lộ ra và mẫu hình lặp lại

Vai trò của kiến thức chuyên ngành qua trường hợp yciO

Phân biệt “lan truyền chức năng đã biết” và “khám phá chức năng thực sự chưa biết”

Phần thưởng thấp cho nghiên cứu kiểm chứng dữ liệu

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News