Học cách đọc và viết để quay trở lại sổ ghi chép viết tay
(research.google)Quay trở lại sổ ghi chép viết tay thông qua việc đọc và viết chữ tay
-
Giới thiệu
- Blagoj Mitrevski và Andrii Maksai, các kỹ sư phần mềm của Google Research, giới thiệu một mô hình chuyển đổi ảnh chụp chữ viết tay sang định dạng số.
- Mô hình này có thể tái tạo các nét bút mà không cần thiết bị chuyên dụng.
- Ghi chú số có ưu điểm về độ bền, khả năng chỉnh sửa và dễ lập chỉ mục, nhưng vẫn tồn tại khác biệt so với việc viết tay truyền thống.
- Để thu hẹp khoảng cách đó, cần có công nghệ “de-rendering” chuyển chữ viết tay thành mực số.
-
Ưu điểm của mực số
- Ngay cả những người dùng ưa thích chữ viết tay truyền thống cũng có thể tiếp cận ghi chú ở định dạng số.
- Vượt xa OCR, công nghệ này có thể tạo ra tài liệu có thể chỉnh sửa tự do mà vẫn giữ nguyên phong cách chữ viết tay.
- Việc tích hợp và tổ chức cùng nội dung số trở nên dễ dàng hơn.
-
InkSight: chuyển đổi chữ viết tay từ offline sang online
- Đề xuất phương pháp trích xuất nét bút từ ảnh chụp chữ viết tay mà không cần thiết bị chuyên dụng.
- Không phụ thuộc vào cấu trúc hình học truyền thống mà học cách “đọc” và “viết”, nhờ đó đạt hiệu năng mạnh mẽ trong nhiều tình huống khác nhau.
-
Tổng quan
- Mục tiêu là ghi lại chi tiết quỹ đạo ở cấp độ nét bút của chữ viết tay.
- Các nét bút kết quả có thể được lưu vào ứng dụng ghi chú do người dùng lựa chọn.
-
Thách thức
- Dữ liệu giám sát hạn chế: việc thu thập dữ liệu cặp giữa hình ảnh và mực số tốn kém cả chi phí lẫn thời gian.
- Khả năng mở rộng với ảnh lớn: cần xử lý hiệu quả các ảnh đầu vào có độ phân giải và lượng nội dung đa dạng.
-
Phương pháp
- Học cách đọc và viết để khái quát hóa tác vụ de-rendering cho đầu vào là hình ảnh với nhiều phong cách khác nhau.
- Không dựa vào cấu trúc hình học mà vẫn trích xuất chính xác các thành phần văn bản và tạo ra biểu diễn vector tương tự cách con người viết tay.
-
Quy trình hệ thống
- Sử dụng OCR để trích xuất các bounding box ở cấp độ từ, rồi de-render từng từ một cách riêng biệt.
- Giảm khác biệt miền giữa ảnh tổng hợp và ảnh chụp thực tế thông qua tăng cường dữ liệu.
-
Mô hình thị giác-ngôn ngữ
- Tạo một hỗn hợp huấn luyện gồm năm loại tác vụ.
- Mỗi tác vụ được phân biệt trong quá trình huấn luyện và suy luận bằng văn bản đầu vào riêng cho từng tác vụ.
-
Kết quả
- Thu thập bộ dữ liệu đánh giá và huấn luyện ba biến thể mô hình để đánh giá hiệu năng.
- Đánh giá tự động và đánh giá của con người cho thấy đầu ra của mô hình tương tự ảnh đầu vào và mực số do con người tạo ra.
-
Kết luận
- Trình bày cách tiếp cận đầu tiên để chuyển ảnh chụp chữ viết tay thành mực số.
- Đề xuất một phương pháp có thể được xây dựng từ các khối thành phần tiêu chuẩn mà không cần mô hình hóa phức tạp.
Tóm tắt của GN⁺
- Công nghệ chuyển chữ viết tay sang định dạng số kết hợp ưu điểm của ghi chép truyền thống và ghi chú số để mang lại trải nghiệm tốt hơn cho người dùng.
- Công nghệ này có thể đạt hiệu năng mạnh mẽ trong nhiều tình huống mà không cần thiết bị chuyên dụng, nên có khả năng được áp dụng rộng rãi.
- Các sản phẩm trong ngành có chức năng tương tự bao gồm bút thông minh của Wacom hoặc smartpen của Livescribe.
1 bình luận
Ý kiến Hacker News
Ứng dụng có thể biến chữ viết tay xấu thành nét chữ gọn gàng thông qua một hệ thống này khá thú vị
Đã từng kỳ vọng vào việc học lại viết tay, nhưng nghiên cứu của Google lại giúp cải thiện ghi chú số
Quan tâm đến công nghệ mới nhất trong việc nhận dạng chữ viết tay từ ảnh
10 năm trước đã thử OCR tiếng Anh bằng tesseract, nhưng hiệu năng không tốt với các ngôn ngữ không phải tiếng Anh
Tò mò liệu nó có thể chạy cả trên thiết bị công suất thấp hay không
Ý tưởng mô phỏng chữ viết tay của con người khá thú vị
Câu hỏi đặt ra là liệu công nghệ này có thể được dùng để tạo chữ viết tay hoặc chữ ký giả mạo hay không
Đây là một dự án nghiên cứu có thể tạo tác động lớn trong giáo dục, với ghi chú viết tay số hóa, hoặc trong việc bảo tồn các tài liệu cũ
Đang tìm một giải pháp OCR tốt cho chữ viết tay
Giới thiệu một mô hình chuyển ảnh chữ viết tay sang định dạng số