Embedding đang bị đánh giá thấp (2024)

(technicalwriting.dev)

2 điểm bởi GN⁺ 2025-05-13 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Embedding gần đây mang lại tiềm năng đột phá cho lĩnh vực viết kỹ thuật
Có đặc điểm là trả về một mảng số có số chiều cố định bất kể kích thước của văn bản đầu vào
Thông qua mảng số này, có thể so sánh toán học giữa các đoạn văn bản bất kỳ
Embedding tính khoảng cách theo ý nghĩa của văn bản trong không gian đa chiều, và có thể được ứng dụng đa dạng như gợi ý nội dung liên quan, phân tích ngữ nghĩa, v.v.
Trong tương lai, khi các trang tài liệu kỹ thuật công khai dữ liệu embedding, các công cụ mới và các trường hợp sử dụng trong cộng đồng được kỳ vọng sẽ mở rộng

Tổng quan về công nghệ embedding dựa trên machine learning

Trong công nghệ machine learning, khác với các mô hình tạo sinh văn bản, embedding có tiềm năng tạo ra ảnh hưởng mang tính cách mạng đối với viết kỹ thuật
Trong vài năm gần đây, việc sử dụng embedding đã trở nên dễ tiếp cận hơn nhiều
Nhờ embedding, các technical writer có thể thực hiện so sánh và phân tích ngữ nghĩa giữa nhiều loại văn bản khác nhau

Embedding nhận đầu vào là văn bản (từ, câu, nhiều tài liệu, v.v.) và trả về một mảng số có kích thước cố định
Bất kể độ dài của văn bản đầu vào, luôn tạo ra dữ liệu mảng có cùng kích thước
Nhờ vậy, nảy sinh khả năng so sánh toán học giữa các văn bản bất kỳ có độ dài khác nhau

Có thể tạo embedding chỉ với vài dòng code thông qua các nhà cung cấp dịch vụ lớn
Tùy theo mô hình được sử dụng, kích thước mảng của embedding sẽ khác nhau; trong trường hợp của Gemini là 768 giá trị số, còn Voyage AI là 1024 giá trị
Vì ý nghĩa của embedding hoàn toàn khác nhau tùy theo nhà cung cấp hoặc mô hình, nên thiếu khả năng tương thích lẫn nhau

Bản thân việc tạo embedding không tốn nhiều chi phí
Quá trình tạo được ước tính là tiêu tốn ít tài nguyên tính toán hơn so với mô hình sinh văn bản, nhưng tác động môi trường vẫn cần thêm thông tin trong tương lai

Mô hình phù hợp nhất sẽ khác nhau tùy theo khả năng hỗ trợ dữ liệu đầu vào dung lượng lớn
Tính đến năm 2024, Voyage AI voyage-3 cung cấp giới hạn đầu vào cao nhất
Việc chọn mô hình phù hợp với mục đích sử dụng và nhu cầu là điều quan trọng

Mỗi giá trị trong mảng số embedding tương ứng với một tọa độ trong không gian đa chiều, và đặc điểm của văn bản được biểu diễn như một vị trí ngữ nghĩa trong không gian đó
Ví dụ, phép toán như ‘king’ - ‘man’ + ‘woman’ ≈ ‘queen’ cho thấy khả năng biểu diễn quan hệ ngữ nghĩa
Đặc tính của từng chiều trong không gian embedding phần lớn là mơ hồ và trừu tượng
Thông qua quá trình này, máy có thể học ý nghĩa và suy luận ngữ nghĩa của văn bản

Embedding được tạo ra sẽ được lưu trong cơ sở dữ liệu theo từng văn bản (ví dụ: từng trang)
Có thể đánh giá mức độ tương đồng ngữ nghĩa bằng cách tính khoảng cách toán học giữa hai embedding (sử dụng đại số tuyến tính)
Có thể dùng các thư viện như NumPy, scikit-learn để giảm gánh nặng phải tự triển khai công thức phức tạp

Embedding được sử dụng hiệu quả cho chức năng gợi ý các trang liên quan trên các trang tài liệu kỹ thuật
Sau khi tạo embedding cho từng trang, có thể đề xuất các tài liệu liên quan về mặt ngữ nghĩa giữa các trang có độ tương đồng số học cao
Mỗi khi nội dung trang thay đổi, chỉ cần làm mới embedding nên hiệu quả rất cao
Kết quả áp dụng thực tế cho tài liệu [Sphinx] cho thấy hiệu năng tích cực

Trong tương lai, các trang tài liệu có thể cung cấp dữ liệu embedding thông qua REST API hoặc well-known URI
Nhờ đó, cộng đồng có thể phát triển nhiều công cụ và dịch vụ ứng dụng đa dạng

Thật thú vị khi có cơ hội liên hệ khái niệm không gian hàng trăm chiều với công việc thường ngày
Có thể kỳ vọng embedding sẽ mang lại tiềm năng phát triển đột phá trong bảo trì tài liệu và mở rộng tính năng