Ask HN: Xu hướng nào trong lĩnh vực ML không bị nhấn chìm bởi tiếng ồn của LLM?

(news.ycombinator.com)

19 điểm bởi GN⁺ 2024-03-29 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Trong lĩnh vực machine learning (ML) và khoa học dữ liệu đang bị tiếng ồn từ các mô hình ngôn ngữ lớn (LLM) lấn át, vẫn có nhiều điều thú vị đang diễn ra
Cynthia Rudin vẫn liên tục công bố các nghiên cứu xuất sắc về AI có thể giải thích được
Một số dự án thú vị trong vài tháng gần đây:
- Tái dựng cảnh 3D từ vài tấm ảnh: NAVER LABS Europe
- Avatar Gaussian: Gaussian Avatars
- Codec Gaussian có thể tái chiếu sáng: Relightable Gaussian Codec
- Theo dõi mọi thứ: Co-Tracker, Omnimotion
- Phân đoạn mọi thứ: Segment Anything by Facebook Research
- Các mô hình ước lượng tư thế người xuất sắc: Yolov8, các mô hình MediaPipe của Google
- TTS chân thực: XTTS-v2 by Coqui on Hugging Face, Bark TTS
- STT rất tốt: chủ yếu dựa trên Whisper
- Dịch máy: ví dụ như SeamlessM4T của Meta
- Sự ngưỡng mộ trước rất nhiều thành quả đến từ bộ phận R&D của Meta
Giải thích về NeRFs:
- Đây là cách suy nghĩ lại một cách căn bản về đồ họa 3D, bằng cách sắp đặt các khối cầu bán trong suốt phát sáng thay vì các đa giác có texture
- Vị trí và màu sắc của các khối cầu được mạng nơ-ron học từ các ảnh chụp nhiều góc độ và tư thế camera chính xác, rồi có thể render bằng ray tracing trên GPU
- Vì các cảnh được tạo từ ảnh chụp nên chúng hoàn toàn chân thực, nhưng vẫn có thể khám phá được
- Về lý thuyết có thể tạo hoạt ảnh cho các cảnh như vậy, nhưng cách thực hiện trong thực tế vẫn còn là một bài toán nghiên cứu
- Chưa rõ liệu nó có tốt hơn các hệ thống dựa trên đa giác đã được tối ưu như Nanite+photogrammetry hay không
Câu hỏi về công cụ có thể quay video đường đi từ xe cộ để tạo cảnh 3D:
- Tập trung vào phong cảnh ven đường, có thể lái nhiều lần từ nhiều góc khác nhau, và không ngại thời gian xử lý lâu
- Muốn tạo những con đường địa phương để dùng trong trình mô phỏng đua xe
Sự quan tâm đến geometric deep learning:
- Cách thiết kế mô hình một cách có nguyên tắc để tôn trọng các tính đối xứng đã biết của dữ liệu
- ConvNets nổi tiếng với tính tương đương theo phép tịnh tiến, nhưng gần đây cũng đã có các ví dụ với những nhóm đối xứng khác
- Cũng có câu hỏi về việc liệu có thể tự động khám phá hoặc nhận diện các tính đối xứng cụ thể hay không
Giới thiệu cuộc marathon machine learning do cộng đồng ML+X của UW-Madison tổ chức:
- Một sự kiện mùa hè kéo dài khoảng 12 tuần, sẽ được giới thiệu như một cuộc thi trên Kaggle
- Cơ hội để cùng nhau học và áp dụng các công cụ machine learning nhằm tìm ra lời giải sáng tạo cho các bộ dữ liệu thực tế
- Có nhiều thử thách khác nhau, phù hợp cho cả người mới bắt đầu lẫn người thực hành nâng cao
- Người tham gia, cố vấn dự án và ban tổ chức gặp nhau hằng tuần hoặc hai tuần một lần để chia sẻ mẹo và thực hiện các demo/thảo luận ngắn
- Ngoài phần thưởng nội tại là nâng cao kỹ năng và xây dựng cộng đồng, các đội chiến thắng còn nhận được giải thưởng tiền mặt
Giới thiệu RT-2, mô hình Vision-Language-Action (VLA) được xem là họ hàng của LLM:
- Ngoài dữ liệu văn bản và thị giác, mô hình còn đưa dữ liệu hành động của robot vào như "một ngôn ngữ khác", dùng làm các token đầu ra cho chuyển động của robot
Ý kiến cho rằng các mô hình thị giác máy tính thuộc họ SAM đã phần nào khiến nhiều dịch vụ và công cụ gán nhãn thủ công của con người trở nên không còn cần thiết:
- Có thể tự động gán nhãn dữ liệu thị giác với chất lượng tương đối cao
Chia sẻ kinh nghiệm ra mắt Scholars.io trên arXiv để nhận các nghiên cứu mới nhất về những chủ đề quan tâm cụ thể:
- Hy vọng việc có thể lọc ra các nghiên cứu không quan tâm sẽ giúp mọi người tìm thấy các hoạt động nghiên cứu ngoài LLM
Câu hỏi về việc liệu đến năm 2024 tiếp tục học ML còn đáng giá hay không, cùng với trực giác cá nhân:
- Chia sẻ kinh nghiệm làm các dự án phụ với xgboost
- Cảm thấy ML vẫn còn giá trị, nhưng không thể chắc chắn

Ask HN: Xu hướng nào trong lĩnh vực ML không bị nhấn chìm bởi tiếng ồn của LLM?

Bài viết liên quan

Chưa có bình luận nào.