- Cuốn sách nhập môn và trung cấp trình bày nền tảng của thị giác máy tính từ góc nhìn xử lý ảnh và machine learning
- Mỗi chương được tổ chức ngắn gọn và rõ ràng để tập trung vào các khái niệm cốt lõi
- Giải thích những thay đổi sau cuộc cách mạng deep learning và quá trình tái cấu trúc các ý tưởng kinh điển, cùng với kinh nghiệm viết sách
- Gồm 15 phần, bao quát các chủ đề xuyên suốt của thị giác máy tính như xử lý ảnh, mạng nơ-ron, mô hình sinh, xử lý chuỗi, hiểu cảnh
- Cấu trúc tập trung vào lý thuyết thiết yếu và xây dựng trực giác hơn là xu hướng nghiên cứu mới nhất hay các ứng dụng cụ thể
Lời mở đầu
Về cuốn sách này
- Cuốn sách đề cập đến các chủ đề cốt lõi của thị giác máy tính từ góc nhìn của xử lý ảnh và machine learning
- Bao gồm nhiều tài liệu trực quan hóa để giúp người đọc phát triển trực giác
- Đối tượng độc giả chính là sinh viên đại học và cao học mới bước vào thị giác máy tính, nhưng cũng hữu ích với những người làm thực tiễn giàu kinh nghiệm
- Ban đầu sách hướng tới phạm vi rất rộng, nhưng vì lĩnh vực thị giác máy tính quá đồ sộ nên mỗi chương được giới hạn trong 5 trang để tập trung vào các khái niệm cốt lõi
- Tác giả chia sẻ một cách chân thành rằng mục tiêu là viết một cuốn sách ngắn, nhưng cuối cùng dung lượng vẫn trở nên khá lớn
Quá trình viết sách
- Tác giả dùng dữ liệu để cho thấy tính phi tuyến giữa ý định ban đầu khi bắt đầu viết và quá trình thực tế, với hơn 10 năm để hoàn thành
- Trong quá trình viết, cuộc cách mạng deep learning (2012) đã diễn ra, kéo theo quá trình hội tụ giữa các phương pháp truyền thống và cách tiếp cận hiện đại
- Do sự nổi tiếng ban đầu của deep learning, các ý tưởng trước đó từng bị lãng quên trong một thời gian, nhưng theo thời gian các khái niệm bản chất lại được nhìn nhận lại
- Dù hành trình viết sách rất gian nan, tác giả cho biết đã học được rất nhiều nhờ tự mình thực hiện nhiều ví dụ và thí nghiệm khác nhau
- Sách cũng trực quan hóa cách các sự kiện lớn trong thị giác máy tính và AI thay đổi cùng với thời điểm viết sách
Cấu trúc của sách
- Lĩnh vực thị giác máy tính đã phát triển nhanh chóng trong hơn 10 năm qua; dù cách làm hiện tại có vẻ hoàn toàn khác trước, sách vẫn nhấn mạnh tính liên tục về mặt lịch sử
- Xuyên suốt cuốn sách, tầm quan trọng của chủ đề và góc nhìn thống nhất cùng nhiều quan điểm khác nhau được lặp lại nhiều lần
- Sách gồm 15 phần, mỗi phần tập trung vào một chủ đề nhất quán của thị giác máy tính
Giới thiệu từng phần
- Part I: Giới thiệu động lực, bối cảnh xã hội và nền tảng toán học cho các bài toán thị giác máy tính
- Part II: Quá trình tạo ảnh
- Part III: Giải thích các khái niệm cơ bản của machine learning thông qua các ví dụ hình ảnh
- Part IV: Nhập môn xử lý tín hiệu và xử lý ảnh
- Part V: Các bộ lọc tuyến tính hữu ích (Gaussian kernel, bộ lọc nhị phân, đạo hàm ảnh, Laplacian, bộ lọc thời gian) và ứng dụng
- Part VI: Biểu diễn ảnh đa tỉ lệ
- Part VII: Mạng nơ-ron cho thị giác máy tính (mạng nơ-ron tích chập, mạng nơ-ron hồi quy, Transformer)
- Part VIII: Mô hình thống kê của ảnh và mô hình đồ thị
- Part IX: Cách tiếp cận hiện đại xoay quanh mô hình sinh và học biểu diễn (vector embedding, v.v.)
- Part X: Các thách thức phát sinh khi xây dựng hệ thống thị giác dựa trên học máy
- Part XI: Công cụ hình học cho tái dựng cấu trúc 3D
- Part XII: Xử lý chuỗi và đo chuyển động
- Part XIII: Hiểu cảnh và phát hiện đối tượng
- Part XIV: Lời khuyên dành cho nhà nghiên cứu trẻ về thuyết trình, viết bài báo và tư duy nghiên cứu hiệu quả
- Part XV: Thử giải các bài toán đã nêu ở Part I bằng nhiều phương pháp khác nhau được trình bày trong sách
Những nội dung không đề cập
- Sách không đề cập đến xu hướng mới nhất của thị giác máy tính hay nhiều lĩnh vực ứng dụng thực tiễn khác nhau (phân tích hình dạng, theo dõi đối tượng, phân tích hành động, nhận diện khuôn mặt, v.v.)
- Với những ứng dụng chi tiết như vậy, tham khảo bài báo hội nghị hoặc sách chuyên sâu sẽ hiệu quả hơn
Lời cảm ơn
- Tác giả bày tỏ lời cảm ơn tới giảng viên, sinh viên và đồng nghiệp đã ảnh hưởng đến nhiều hoạt động giảng dạy và nghiên cứu thị giác máy tính
- Có những lời cảm ơn cụ thể cho nhiều sự hợp tác như tài liệu bài giảng của các hội nghị, thí nghiệm, hỗ trợ theo từng chương, thiết kế bìa, v.v.
- Mỗi tác giả cũng gửi lời cảm ơn tới gia đình và người thân cận vì sự hỗ trợ bền bỉ
Thông tin trích dẫn
- Cung cấp định dạng BibTeX có thể dùng khi trích dẫn cuốn sách
Tài nguyên cho giảng viên
- Bản in của sách có thể mua từ MIT Press
- Cung cấp trực tuyến slide bài giảng liên kết với sách
Tài liệu tham khảo
- Cung cấp danh sách các tác phẩm kinh điển và sách mới quan trọng liên quan đến thị giác máy tính, machine learning, xử lý tín hiệu, hình học, khoa học thị giác, v.v.
1 bình luận
Ý kiến Hacker News
Có một đoạn thú vị trong cuốn sách "On Research, Writing and Speaking". "Trông việc này có vẻ khó đấy." Đúng vậy. Chỉ thông minh thôi thì không còn đủ để tạo khác biệt nữa. Chia sẻ rằng ở bậc cao học, những người chăm chỉ nỗ lực sẽ vượt lên trước
Có người đang làm trong ngành hỏi liệu với những thay đổi công nghệ trong 2 năm gần đây, nội dung cũ về machine learning, đặc biệt là computer vision, còn hữu ích hay không
Vẫn rất hữu ích. Các kỹ thuật mới nhất về cơ bản cũng là những bước phát triển xây trên cùng một nền tảng cơ bản. Thậm chí còn nên đọc nhiều hơn về các khái niệm nền tảng và các thuật toán truyền thống. Phải hiểu rõ những kỹ thuật kinh điển như Hough transform, canny edge, sift, Harris corner thì mới có thể gọi là chuyên gia thực thụ. Đây là thứ tạo ra khác biệt về năng lực so với những lập trình viên chỉ học thuộc các từ khóa công nghệ đang hot rồi ghép API vào dùng
Ngay cả bây giờ, trong những hệ thống khó tăng tốc bằng GPU, các kỹ thuật computer vision "kinh điển" vẫn là bắt buộc. Tôi là người làm thực tế, giải bài toán Simultaneous localization and mapping trong môi trường tài nguyên hạn chế. Tôi dự định chắc chắn sẽ đọc chương Structure from Motion
Có ý kiến rằng phần "Writing this book" có thể khiến người ta hiểu như thể LLM đã viết 2/3 bản thảo. Có lẽ ý tác giả là vì LLM tạo ra nhiều thứ để viết hơn nên nội dung sách dài ra, nên tốt hơn là cần làm rõ điều đó
Một cuốn sách hay khác trong lĩnh vực computer vision được đề xuất là sách dưới đây
Nhiều lời khen ngợi rằng thật khó tin cuốn sách này lại được phát hành miễn phí
Quá đúng luôn. Không biết có ai tìm được cách tải xuống dưới dạng PDF chưa. Tôi nghĩ khi học, việc lưu lại ghi chú và tài liệu tham khảo cá nhân là điều thực sự cần thiết
Cộng đồng machine learning, computer vision và robotics có một văn hóa rất tuyệt là công bố miễn phí giáo trình trên mạng. Bạn có thể tìm được cả những giáo trình hàng đầu của lĩnh vực này miễn phí online. Ở các lĩnh vực khác, các giáo sư Mỹ thường yêu cầu mua bản mới nhất nên chi phí rất cao, còn lĩnh vực này thì mở những tài liệu tốt nhất cho cả các nước đang phát triển lẫn bất kỳ ai trên thế giới. Tài liệu bài giảng và video cũng thường được công khai rất nhiều
Có người hỏi gợi ý sách hay về machine vision. Họ cho rằng không chỉ machine vision hiệu quả mà cốt lõi của computer vision còn nằm ở việc chọn camera, quang học và ánh sáng. Nếu chất lượng ảnh đầu vào không tốt thì đầu ra cũng khó mà tốt được