1 điểm bởi GN⁺ 2025-02-10 | 1 bình luận | Chia sẻ qua WhatsApp
  • Thử nghiệm nhận diện chữ viết tay trên remarkable2, phản hồi theo cử chỉ hoặc nội dung trên màn hình rồi viết trở lại lên màn hình
    • Dự án khám phá tương tác giữa chữ viết tay và màn hình

Thiết lập/Cài đặt

  • Cần thiết lập các biến môi trường như OPENAI_API_KEY.
  • Cần cài đặt và chạy binary trên reMarkable.

Cách sử dụng

  • Cần khởi động ghostwriter trên reMarkable.
  • Có thể vẽ trên màn hình và chạm vào góc trên bên phải để kích hoạt tính năng hỗ trợ.
  • Trong lúc xử lý, các chấm sẽ được vẽ ra và bạn có thể xem phản hồi được gõ hoặc được vẽ.

Trạng thái / Nhật ký

  • 2024-10-06: Hoàn thành bản chứng minh khái niệm cơ bản. Tính năng vẽ lại lên màn hình chưa hoạt động tốt.
  • 2024-10-07: Triển khai các cử chỉ cơ bản và hiển thị trạng thái.
  • 2024-10-10: Bắt đầu thiết lập bàn phím ảo.
  • 2024-10-20: Giới thiệu đầu ra văn bản và các chế độ khác.
  • 2024-10-21: Hoàn tất bản dựng phát hành binary.
  • 2024-10-23: Lên kế hoạch refactor mã và thử nghiệm mô hình Anthropic mới.
  • 2024-11-02: Chuyển sang cung cấp công cụ.
  • 2024-11-07: Thêm Claude/Anthropic.
  • 2024-11-22: Bắt đầu phác thảo hệ thống đánh giá.
  • 2024-12-02: Thêm bước phân đoạn hình ảnh cơ bản.
  • 2024-12-15: Tích hợp engine.
  • 2024-12-18: Giải quyết vấn đề nâng cấp hệ thống.
  • 2024-12-19: Thử chế độ VLM trên mạng cục bộ.
  • 2024-12-22: Bắt đầu xây dựng hệ thống đánh giá.
  • 2024-12-25: Đơn giản hóa và mở rộng CLI.
  • 2024-12-28: Cải thiện khả năng sử dụng.

Ý tưởng

  • Kích hoạt yêu cầu bằng cử chỉ hoặc nội dung.
  • Đưa ảnh chụp màn hình vào mô hình thị giác và xuất kết quả ra màn hình.
  • Có thể gửi sự kiện bàn phím.
  • Xây dựng hệ thống đánh giá cơ bản.
  • Phát triển thư viện prompt.
  • Tự động hóa thiết lập ban đầu.
  • Thêm tính năng tạo sơ đồ.
  • Thêm khả năng tra cứu và gửi thông tin bên ngoài.
  • Triển khai chế độ hội thoại.
  • Thử sử dụng VLM cục bộ trên mạng.

Tài liệu tham khảo

  • Tận dụng tài nguyên từ Awesome reMarkable.
  • Áp dụng kỹ thuật chụp màn hình từ reSnap.
  • Lấy cảm hứng vẽ màn hình từ rmkit lamp.
  • Dùng resvg để chuyển SVG sang png.
  • Dùng rM-input-devices để tạo thiết bị nhập bàn phím.
  • Trong reMarkableAI, phát hiện quy trình OCR→OpenAI→PDF→Device.
  • rMAI là ứng dụng riêng, dùng replicate làm dịch vụ API mô hình.
  • Crazy Cow là công cụ chuyển văn bản thành nét bút.

1 bình luận

 
GN⁺ 2025-02-10
Ý kiến trên Hacker News
  • Tôi là tác giả của dự án. Dự án vẫn đang được tiếp tục, và insight lớn nhất là giới hạn về nhận thức không gian của mô hình thị giác

  • Thật sự rất tuyệt. Thật vui khi thấy mọi người hack app cho máy tính bảng reMarkable

    • Tôi cũng đã làm một app nhỏ cho reMarkable và cách đây không lâu đã chia sẻ nó ở đây: https://digest.ferrucc.io/
  • Tôi ước máy tính bảng reMarkable đừng bị khóa kín đến vậy

    • Đây là một trong những phần cứng tôi thích nhất, và tôi ước nó có nhiều app hơn
  • Tuyệt vời

    • Tôi đã muốn thử triển khai thứ này trong nhiều tháng rồi. Bạn làm rất tốt
  • Thật sự rất hay. Cuối tuần này tôi sẽ thử

    • Tôi từng nghịch ý tưởng gửi PDF qua email và chuyển cho LLM để tự động tạo tác vụ khi viết việc cần làm
    • Dự án này mở ra một cách tốt hơn để đạt được mục tiêu đó theo thời gian thực
  • Với những người đọc tài liệu PDF, tôi tò mò liệu kích thước 11 inch của reMarkable có đủ không

    • Tôi có phiên bản Sony DPT thế hệ 2 cỡ 13 inch, và trải nghiệm xem là hoàn hảo
    • Nhưng những dự án như thế này cứ tiếp tục kéo tôi về phía sản phẩm reMarkable
  • Tôi rất thích dự án này. Có các mô hình khuếch tán vector; nếu mô hình quyết định vẽ thứ gì đó, vậy giao việc đó ra ngoài thông qua lời gọi công cụ thì sao?

    • Sau đó có thể chỉ định phạm vi tọa độ và prompt
  • Trường hợp sử dụng kết hợp nhập chữ viết tay với LLM này rất tuyệt

    • Tôi tò mò nó xử lý chữ viết tay cẩu thả tốt đến mức nào, và liệu việc tinh chỉnh trên ghi chú cá nhân có thể cải thiện khả năng nhận dạng theo thời gian hay không
  • Tôi đang sở hữu một máy tính bảng boox (máy tính bảng Android đầy đủ với màn hình eink), và những thứ như thế này sẽ rất hoàn hảo

    • Tôi tự hỏi liệu 5 năm nữa phần cứng di động có thể hỗ trợ việc này cục bộ hay không
  • Còn dự án này trên máy đọc sách điện tử Onyx Boox chạy Android thì sao?

    • Có khả thi không?