Haru Ongi - Nhật ký biết ơn bằng giọng nói AI
(play.google.com)Xin chào.
Tôi là một nhà phát triển mong muốn công nghệ AI trở thành một công cụ ấm áp, mang lại những thay đổi tích cực cho cuộc sống hằng ngày của mọi người.
Với niềm tin rằng những ghi chép và suy ngẫm nhỏ bé mỗi ngày có thể cùng nhau thay đổi cuộc sống,
tôi đã phát triển ứng dụng nhật ký biết ơn 'Haru Ongi' để bất kỳ ai cũng có thể viết một cách dễ dàng và bền bỉ.
Trên thị trường hiện đã có nhiều ứng dụng nhật ký AI rất tuyệt vời, nhưng tôi cảm thấy việc chỉ được an ủi bằng văn bản thôi thì vẫn có giới hạn.
Tôi cần một 'giọng nói' như thể một người bạn thật sự đang ở bên cạnh và trò chuyện với mình.
Để làm được điều đó, tôi đã tận dụng mô hình Gemini mới nhất để hiện thực hóa phản hồi âm thanh tự nhiên.
[Giới thiệu dịch vụ]
Haru Ongi là ứng dụng mà khi bạn viết nhật ký biết ơn, nhân vật AI do bạn chọn sẽ ngay lập tức gửi lại lời hồi đáp bằng 'giọng nói' với sự đồng cảm và khích lệ.
[Tính năng chính]
-
Phản hồi bằng giọng nói từ bạn AI:
Ngay sau khi viết nhật ký, ứng dụng sẽ phân tích nội dung và tạo phản hồi bằng giọng nói. -
3 người bạn AI với cá tính riêng:
-
Người bạn 'Seona' tươi sáng và ấm áp: khi bạn cần năng lượng tích cực
-
Người cố vấn 'Hyunjun' điềm tĩnh và dịu dàng: khi bạn cần lời khuyên để trưởng thành hơn
-
'Bà Soonja' luôn đứng về phía bạn và đầy ấm áp: khi bạn cần sự an ủi và đồng cảm
-
-
Quyền riêng tư dữ liệu:
- Nội dung nhật ký do người dùng viết được lưu trữ an toàn với mã hóa AES256.
[Tech stack & trải nghiệm phát triển]
-
AI Model: Google Gemini 2.5 Flash Native Audio Preview
- So với cách tạo văn bản rồi gắn TTS vào sau, mô hình Native Audio tự nhiên hơn nhiều về ngữ điệu và nhịp nghỉ (Pause).
- Đặc biệt, nó rất hiệu quả trong việc thể hiện giọng nói ấm áp và chậm rãi của nhân vật 'Soonja (bà)'.
- Trong quá trình tinh chỉnh prompt, tôi có thể tạo ra giọng nói như mong muốn bằng cách điều chỉnh persona của từng nhân vật, tốc độ nói, nhịp thở, ngữ điệu và biểu cảm cảm xúc.
- Tôi cũng đã xem xét GPT Realtime API của OpenAI, nhưng sau khi cân nhắc hiệu quả chi phí ($20.00 per 1M tokens), cuối cùng đã tích hợp Gemini.
-
Cost Optimization:
- Vì chi phí token cho đầu ra âm thanh cao hơn rất nhiều so với văn bản ($12.00 per 1M tokens), nên cần có quá trình tối ưu để kiểm soát độ dài phản hồi bằng system prompt.
-
UI Workflow: Đã nâng cao hiệu quả phát triển bằng Figma Dev Mode.
- Khi cung cấp cho AI cả bản thiết kế và thông tin asset của Figma dưới dạng ngữ cảnh (Context), việc triển khai UI trở nên dễ dàng hơn rất nhiều.
-
Backend: Supabase (DB, Auth), Railway (Fastify), Cloudflare R2 (File Storage)
-
Frontend: React Native (Expo), TypeScript
-
Dev Tools: Claude Code (Main), Cursor (Sub)
[Lời kết]
Nếu hôm nay bạn đang cảm thấy mệt mỏi trong lòng, hãy ghé thử một lần nhé.
Hiện tại ứng dụng chỉ hỗ trợ trên Android.
Xin cảm ơn.
3 bình luận
Đã phát hành trên App Store rồi!
https://smplu.link/F8JwF
Mình cũng đang tự làm một dịch vụ tương tự để dùng một mình nên thấy rất muốn ủng hộ! Mong sản phẩm sẽ trở nên thật tốt. Chắc mình sẽ phải đổi sang Native Audio rồi phát triển lại thử thôi.
Cảm ơn mọi người đã ủng hộ haha Vì giọng của mô hình Native Audio khá tự nhiên nên nếu dùng thử, có lẽ bạn sẽ có một trải nghiệm tốt.