- Trong lĩnh vực machine learning (ML) và khoa học dữ liệu đang bị tiếng ồn từ các mô hình ngôn ngữ lớn (LLM) lấn át, vẫn có nhiều điều thú vị đang diễn ra
- Cynthia Rudin vẫn liên tục công bố các nghiên cứu xuất sắc về AI có thể giải thích được
- Một số dự án thú vị trong vài tháng gần đây:
- Giải thích về NeRFs:
- Đây là cách suy nghĩ lại một cách căn bản về đồ họa 3D, bằng cách sắp đặt các khối cầu bán trong suốt phát sáng thay vì các đa giác có texture
- Vị trí và màu sắc của các khối cầu được mạng nơ-ron học từ các ảnh chụp nhiều góc độ và tư thế camera chính xác, rồi có thể render bằng ray tracing trên GPU
- Vì các cảnh được tạo từ ảnh chụp nên chúng hoàn toàn chân thực, nhưng vẫn có thể khám phá được
- Về lý thuyết có thể tạo hoạt ảnh cho các cảnh như vậy, nhưng cách thực hiện trong thực tế vẫn còn là một bài toán nghiên cứu
- Chưa rõ liệu nó có tốt hơn các hệ thống dựa trên đa giác đã được tối ưu như Nanite+photogrammetry hay không
- Câu hỏi về công cụ có thể quay video đường đi từ xe cộ để tạo cảnh 3D:
- Tập trung vào phong cảnh ven đường, có thể lái nhiều lần từ nhiều góc khác nhau, và không ngại thời gian xử lý lâu
- Muốn tạo những con đường địa phương để dùng trong trình mô phỏng đua xe
- Sự quan tâm đến geometric deep learning:
- Cách thiết kế mô hình một cách có nguyên tắc để tôn trọng các tính đối xứng đã biết của dữ liệu
- ConvNets nổi tiếng với tính tương đương theo phép tịnh tiến, nhưng gần đây cũng đã có các ví dụ với những nhóm đối xứng khác
- Cũng có câu hỏi về việc liệu có thể tự động khám phá hoặc nhận diện các tính đối xứng cụ thể hay không
- Giới thiệu cuộc marathon machine learning do cộng đồng ML+X của UW-Madison tổ chức:
- Một sự kiện mùa hè kéo dài khoảng 12 tuần, sẽ được giới thiệu như một cuộc thi trên Kaggle
- Cơ hội để cùng nhau học và áp dụng các công cụ machine learning nhằm tìm ra lời giải sáng tạo cho các bộ dữ liệu thực tế
- Có nhiều thử thách khác nhau, phù hợp cho cả người mới bắt đầu lẫn người thực hành nâng cao
- Người tham gia, cố vấn dự án và ban tổ chức gặp nhau hằng tuần hoặc hai tuần một lần để chia sẻ mẹo và thực hiện các demo/thảo luận ngắn
- Ngoài phần thưởng nội tại là nâng cao kỹ năng và xây dựng cộng đồng, các đội chiến thắng còn nhận được giải thưởng tiền mặt
- Giới thiệu RT-2, mô hình Vision-Language-Action (VLA) được xem là họ hàng của LLM:
- Ngoài dữ liệu văn bản và thị giác, mô hình còn đưa dữ liệu hành động của robot vào như "một ngôn ngữ khác", dùng làm các token đầu ra cho chuyển động của robot
- Ý kiến cho rằng các mô hình thị giác máy tính thuộc họ SAM đã phần nào khiến nhiều dịch vụ và công cụ gán nhãn thủ công của con người trở nên không còn cần thiết:
- Có thể tự động gán nhãn dữ liệu thị giác với chất lượng tương đối cao
- Chia sẻ kinh nghiệm ra mắt Scholars.io trên arXiv để nhận các nghiên cứu mới nhất về những chủ đề quan tâm cụ thể:
- Hy vọng việc có thể lọc ra các nghiên cứu không quan tâm sẽ giúp mọi người tìm thấy các hoạt động nghiên cứu ngoài LLM
- Câu hỏi về việc liệu đến năm 2024 tiếp tục học ML còn đáng giá hay không, cùng với trực giác cá nhân:
- Chia sẻ kinh nghiệm làm các dự án phụ với xgboost
- Cảm thấy ML vẫn còn giá trị, nhưng không thể chắc chắn
Chưa có bình luận nào.