8 điểm bởi GN⁺ 2023-12-29 | 1 bình luận | Chia sẻ qua WhatsApp
  • Ghi lại mọi thao tác diễn ra trên màn hình máy tính (chụp ảnh màn hình mỗi 2 giây một lần)
  • Có thể di chuyển theo thời gian bằng cách cuộn trái/phải trong chế độ xem dòng thời gian
    • Nếu Live Text nhận diện được văn bản thì có thể chọn văn bản đó
  • Có thể tìm màn hình bằng cách tìm kiếm từ khóa cụ thể, xem toàn bộ nội dung OCR của màn hình đó hoặc gửi văn bản đó tới ChatGPT v.v. để xử lý thêm
  • Chỉ được thử nghiệm trên Apple Silicon và bản phát hành cũng chỉ dành cho Apple Silicon.
  • Đây là phiên bản rất sơ khai: được viết trong vài ngày nghỉ lễ, tác giả là người mới với Swift

Bắt đầu

  • Tự build hoặc tải bản phát hành, sau đó chạy xattr -c rem.app để macOS chấp thuận ứng dụng.
  • Sau khi chạy ứng dụng, nhấn "Start Remembering" để cấp quyền truy cập "Screen Recording".
  • Mở chế độ xem dòng thời gian bằng "Open timeline" hoặc "Cmd + Scroll Up".
  • Trong dòng thời gian, cuộn sang trái hoặc phải để di chuyển theo thời gian.
  • Nhấn "Search" để mở chế độ xem tìm kiếm, rồi nhấn vào ảnh thu nhỏ trong dòng thời gian để chuyển đến thời điểm đó.
  • Có thể chọn văn bản sau khi bật Live Text trong dòng thời gian.
  • Nhấn "Copy Recent Context" để sao chép nội dung vừa xem gần đây thành prompt dùng để tương tác với LLM.
  • Nhấn "Purge All Data" để xóa toàn bộ dữ liệu.

Tính năng hiện được hỗ trợ:

  • Quay lại quá khứ (thanh cuộn toàn màn hình cho mọi thứ đã xem).
  • Sao chép văn bản trong quá khứ.
  • Tìm kiếm mọi thứ đã xem.
  • Dễ dàng lấy ngữ cảnh gần đây để tương tác với LLM.

Tính năng muốn bổ sung:

  • Tìm kiếm ngôn ngữ tự nhiên/tương tác tác tử thông qua cập nhật embedding vector cục bộ.
  • Khám phá cách tiếp cận mới với cơ sở dữ liệu vector.
  • Hỗ trợ nhiều màn hình.

1 bình luận

 
GN⁺ 2023-12-29
Ý kiến trên Hacker News
  • Tóm tắt bình luận thứ nhất:

    • Công cụ này trông rất tuyệt. Nó khiến tôi nhớ lại lần gần đây dọn dung lượng ổ đĩa và phát hiện ra một tệp ghi màn hình dài 9 tiếng từ gần 1 năm trước. Có lẽ tôi đã vô tình bật ghi hình. Việc tua nhanh và xem toàn bộ chỉ trong vài phút là một trải nghiệm đầy cuốn hút, cho tôi thoáng nhìn lại quá trình suy nghĩ của mình khi đó. Tôi có thể xem lại cách mình nghiên cứu một thứ gì đó trên mạng, và điều đó vừa mang tính giáo dục vừa hữu ích, giống như xem lại một trận đấu thể thao. Ngoài ra, việc xem lại các chi tiết ở thời điểm đó cũng tạo ra khác biệt. Tôi đã tạo ra một công cụ tên là 'DownloadNet', công cụ này lưu trữ ngoại tuyến mọi trang tôi đã truy cập và lập chỉ mục đầy đủ cho chúng. Bạn cũng có thể cấu hình để chỉ lưu các trang đã bookmark. Công cụ này là mã nguồn mở, nên hãy thử xem: liên kết GitHub của DownloadNet
    • Việc sao chép văn bản từ video đã lưu thật đáng kinh ngạc.
  • Tóm tắt bình luận thứ hai:

    • Trước đây tôi từng dùng một tiện ích tên là TimeSnapper Classic để chụp ảnh màn hình theo định kỳ. Nhưng rồi ảnh chụp bắt đầu lấp đầy ổ đĩa, và phần lớn chúng trông gần như giống hệt nhau. Tôi đã nghĩ mình nên tạo một codec tối ưu cho chuỗi hình ảnh, rồi cuối cùng nhận ra mình đang phát minh lại GIF/video codec. Vì thế tôi viết một script dùng ImageMagick để đóng dấu thời gian lên ảnh và dùng ffmpeg để chuyển chúng thành video. Nhờ vậy kích thước tệp giảm 99,9%.
  • Tóm tắt bình luận thứ ba:

    • Từ lâu rồi tôi từng làm một dự án chụp ảnh màn hình mỗi vài giây và tự động trích xuất thông tin. Tôi đã tạo ra một PNG DB, chia ảnh PNG thành nhiều khối và lưu các khối đó vào cơ sở dữ liệu. Những khối trùng lặp chỉ được lưu một lần, và có thể tra cứu nhanh qua bảng băm. Với PNG DB này tôi đạt được mức nén khoảng 400-500%. liên kết GitHub của PNG DB Tuy nhiên, các script phân tích ảnh chụp màn hình cuối cùng lại không thực sự thành công. liên kết GitHub của screenshooting Trải nghiệm đó dẫn sang các dự án khác, nơi thông tin như ứng dụng đang dùng hoặc tệp đang mở được lưu lại trực tiếp hơn. liên kết GitHub của timecapture
  • Tóm tắt bình luận thứ tư:

    • Bạn có vẻ là người coi trọng quyền riêng tư và bảo mật, nên khá thú vị khi lại dùng một trình duyệt web mã nguồn đóng (Arc Browser).
  • Tóm tắt bình luận thứ năm:

    • Tôi muốn một công cụ như thế này thực sự đa nền tảng và chạy cục bộ. Linux và Windows là bắt buộc, và nó phải hoạt động 100% ngoại tuyến, kể cả khi không có Internet. Tôi sẵn sàng trả 60 đô la cho mỗi phiên bản chính mỗi năm. Nếu thêm một giấy phép mã nguồn mở kiểu permissive thì tôi sẽ là khách hàng trọn đời. Có lẽ nếu những người khác cũng quan tâm thì tôi sẽ phải tự làm lấy.
  • Tóm tắt bình luận thứ sáu:

    • Về 'Remember Everything': tôi dùng tiện ích mở rộng trình duyệt 'singleFile' để lưu bản sao của mọi trang web tôi xem trên Chrome và FireFox. Tôi cũng dùng chương trình 'AutomaticScreenshotter' để ghi lại hoạt động màn hình ngoài hoạt động trên trình duyệt. Nhờ vậy tôi có thể biết mình đã làm gì trên PC vào một ngày nào đó trong quá khứ. Tất cả tệp được lưu theo cấu trúc thư mục năm/tháng/ngày. Hiện tại tôi dùng tìm kiếm của Windows để tìm tệp. Tôi dùng 'ditto' để lưu mọi thao tác sao chép và dán vào mysqldb. Tôi đã dùng cấu trúc thư mục này từ trước năm 2010, còn tiện ích mở rộng và ảnh chụp màn hình thì bắt đầu khoảng 3-4 năm trước. Tôi tự hỏi liệu có thể dùng hoặc chỉnh sửa các công cụ điều tra PC pháp chứng để giúp tạo ra dòng thời gian hoạt động trên PC hay không.
  • Tóm tắt bình luận thứ bảy:

    • Sẽ rất thú vị khi xem những công nghệ này sẽ được sử dụng như thế nào trong 5 hay 10 năm tới. Chúng ta đang có những thiết bị ghi nhớ mạnh nhất từ trước đến nay, nhưng lại liên tục cố gắng không dùng đến chúng, điều đó khá lạ. Ở khía cạnh nghiêm túc hơn, tôi nghĩ những công cụ này cũng có thể cản trở sự sáng tạo. Chúng có thể khiến ta hình thành thói quen phụ thuộc vào chúng thay vì tự ghi nhớ, trong khi sáng tạo là khả năng tái kết hợp những ký ức trong quá khứ với những điều trong tương lai.
  • Tóm tắt bình luận thứ tám:

    • Bản demo của OP rất ấn tượng. Tôi thắc mắc vì sao nó chỉ dành cho Apple Silicon. Có phải vì hỗ trợ ML tốt hơn Windows không? Thật tiếc là Olama không dùng được trên Windows. Tôi không có laptop Apple Silicon, chỉ có Apple Intel và một máy Windows mạnh, nên không thể thử cái này. Tôi thiếu ý tưởng về cách xây dựng thứ như vậy từ đầu nếu chỉ là một lập trình viên cơ bản hoặc không biết ngôn ngữ Swift. Nếu là OP, có lẽ tôi sẽ học thật nhiều tutorial về Swift trước. Việc làm một bản clone bằng Java hay C# để chạy trên Linux hoặc Windows nghe có vẻ là điều tôi mong muốn, nhưng tôi hoàn toàn không có kinh nghiệm với ML, DirectX API hay Linux desktop API. Có rất nhiều API và công cụ cần phải làm quen trước khi bắt đầu dự án. Tôi tò mò không biết OP đã làm được việc này như thế nào dù không có kinh nghiệm Swift, và liệu tạo dự án trên Apple Silicon có dễ hơn không. Tôi có 4 năm kinh nghiệm và đang làm web API cùng WinForm/DevExpress bằng Java và C#.
  • Tóm tắt bình luận thứ chín:

    • Tôi nghĩ có thể dùng thứ này như một cách để tự quản lý trách nhiệm bản thân. Tôi tự hỏi liệu có thể dễ dàng phân loại ảnh chụp màn hình thành hoạt động "lãng phí thời gian" và "năng suất" hay không (có lẽ có thể thông qua mô hình ML). Gamify các thống kê cũng là một lựa chọn. Ví dụ, bạn có thể xem thống kê rằng trong một giờ qua mình 78% năng suất, 12% Hacker News, 10% không hoạt động. Bạn thậm chí có thể cố đạt kỷ lục cá nhân của riêng mình (ví dụ: có 3 lần đạt 100% năng suất trong một ngày có lẽ sẽ là một ngày tuyệt vời!). Tôi thích video demo. Chỉ trong chưa đầy 30 giây tôi đã hiểu công cụ này làm gì. Cảm ơn! PPS: (rất nhỏ nhặt) trình điều khiển tốc độ video (tiện ích trình duyệt) giờ đã hoạt động với video loom — vài tháng trước thì chưa.
  • Tóm tắt bình luận thứ mười:

    • Có một kịch bản ác mộng tiềm tàng cho những công nghệ như thế này. Các nhà tuyển dụng sẽ rất thích dùng kiểu công cụ này để giám sát nhân viên một cách toàn diện. Nếu kết nối với AI, họ có thể theo dõi mọi thứ mọi người làm trong thời gian thực và nhận cảnh báo.