Điều chỉnh tỷ lệ tóm tắt phía máy khách trong các cửa sổ ngữ cảnh nhỏ

André Cipriani Bandarra

Alexandra Klepper

Xuất bản: Ngày 12 tháng 3 năm 2025, Lần cập nhật gần đây nhất: Ngày 28 tháng 5 năm 2025

Video giải thích	Web	Phần mở rộng	Trạng thái của Chrome	Intent
MDN	Chrome 138	Chrome 138	Xem	Ý định vận chuyển

API Tóm tắt giúp bạn tạo bản tóm tắt thông tin với nhiều độ dài và định dạng. Sử dụng tính năng này với Gemini Nano trong Chrome hoặc các mô hình ngôn ngữ khác được tích hợp vào trình duyệt để giải thích ngắn gọn văn bản dài hoặc phức tạp.

Khi thực hiện phía máy khách, bạn có thể làm việc với dữ liệu cục bộ, giúp bạn giữ an toàn cho dữ liệu nhạy cảm và có thể cung cấp khả năng sử dụng trên quy mô lớn. Tuy nhiên, cửa sổ ngữ cảnh nhỏ hơn nhiều so với các mô hình phía máy chủ, nghĩa là bạn có thể gặp khó khăn khi tóm tắt các tài liệu rất lớn. Để giải quyết vấn đề này, bạn có thể sử dụng kỹ thuật tóm tắt nội dung tóm tắt.

Tóm tắt bản tóm tắt là gì?

Để sử dụng kỹ thuật tóm tắt nội dung tóm tắt, hãy chia nội dung đầu vào thành các điểm chính, sau đó tóm tắt từng phần một cách độc lập. Bạn có thể nối các đầu ra từ mỗi phần, sau đó tóm tắt văn bản đã nối này thành một bản tóm tắt cuối cùng.

Ví dụ: nếu một tài liệu được chia thành 3 phần, thì mỗi phần sẽ được tóm tắt. Ba bản tóm tắt đó được kết hợp và tóm tắt lại để đưa ra kết quả cuối cùng.

Chia nội dung một cách hợp lý

Điều quan trọng là bạn phải xem xét cách chia một đoạn văn bản lớn, vì các chiến lược khác nhau có thể dẫn đến các kết quả khác nhau trên các LLM. Tốt nhất là bạn nên chia văn bản khi có sự thay đổi về chủ đề, chẳng hạn như một phần mới của bài viết hoặc tại một đoạn văn. Bạn cần tránh chia văn bản ở giữa một từ hoặc câu. Điều này có nghĩa là bạn không thể chỉ sử dụng số lượng ký tự làm nguyên tắc phân chia.

Bạn có thể thực hiện việc này theo nhiều cách. Trong ví dụ sau, chúng tôi đã sử dụng Recursive Text Splitter (Trình phân tách văn bản đệ quy) từ LangChain.js, giúp cân bằng hiệu suất và chất lượng đầu ra. Điều này sẽ phù hợp với hầu hết các khối lượng công việc.

Khi tạo một phiên bản mới, có hai tham số chính:

chunkSize là số ký tự tối đa được phép trong mỗi phần.
chunkOverlap là số lượng ký tự trùng lặp giữa hai phần tách liên tiếp. Điều này đảm bảo rằng mỗi đoạn đều có một số ngữ cảnh từ đoạn trước.

Chia văn bản bằng splitText() để trả về một mảng gồm các chuỗi với từng đoạn.

Hầu hết các LLM đều có cửa sổ ngữ cảnh được biểu thị bằng số lượng mã thông báo, thay vì số lượng ký tự. Trung bình, một mã thông báo chứa 4 ký tự. Trong ví dụ của chúng tôi, chunkSize có 3.000 ký tự và đó là khoảng 750 mã thông báo.

Xác định tính sẵn có của mã thông báo

Để xác định số lượng mã thông báo có thể dùng cho một đầu vào, hãy sử dụng phương thức measureInputUsage() và thuộc tính inputQuota. Trong trường hợp này, việc triển khai là không giới hạn, vì bạn không thể biết số lần mà trình tóm tắt sẽ chạy để xử lý tất cả văn bản.

Tạo bản tóm tắt cho từng phần

Sau khi thiết lập cách chia nội dung, bạn có thể tạo bản tóm tắt cho từng phần bằng Summarizer API.

Tạo một phiên bản của trình tóm tắt bằng hàm create(). Để giữ được nhiều ngữ cảnh nhất có thể, chúng tôi đã đặt tham số format thành plain-text, type thành tldr và length thành long.

Sau đó, hãy tạo bản tóm tắt cho từng phần được tạo bởi RecursiveCharacterTextSplitter và nối các kết quả thành một chuỗi mới. Chúng tôi tách từng bản tóm tắt bằng một dòng mới để xác định rõ bản tóm tắt cho từng phần.

Mặc dù dòng mới này không quan trọng khi thực thi vòng lặp này chỉ một lần, nhưng nó hữu ích cho việc xác định cách mỗi bản tóm tắt đóng góp vào giá trị mã thông báo cho bản tóm tắt cuối cùng. Trong hầu hết các trường hợp, giải pháp này sẽ hoạt động đối với nội dung có thời lượng trung bình và dài.

Tóm tắt đệ quy của các bản tóm tắt

Khi bạn có một lượng văn bản quá dài, độ dài của bản tóm tắt được nối có thể lớn hơn cửa sổ ngữ cảnh hiện có, do đó khiến quá trình tóm tắt không thành công. Để giải quyết vấn đề này, bạn có thể tóm tắt các bản tóm tắt một cách đệ quy.

Nếu bản tóm tắt của bạn vẫn quá dài, bạn có thể lặp lại quy trình này. Về lý thuyết, bạn có thể lặp lại quy trình này vô thời hạn cho đến khi nhận được độ dài phù hợp.

Chúng tôi vẫn thu thập các phần chia ban đầu do RecursiveCharacterTextSplitter tạo ra. Sau đó, trong hàm recursiveSummarizer(), chúng ta lặp lại quy trình tóm tắt dựa trên độ dài ký tự của các phần được nối. Nếu độ dài ký tự của bản tóm tắt vượt quá 3000, thì chúng tôi sẽ nối thành fullSummaries. Nếu chưa đạt đến hạn mức, bản tóm tắt sẽ được lưu dưới dạng partialSummaries.

Sau khi tất cả các bản tóm tắt được tạo, các bản tóm tắt một phần cuối cùng sẽ được thêm vào bản tóm tắt đầy đủ. Nếu chỉ có 1 bản tóm tắt trong fullSummaries, bạn không cần đệ quy thêm. Hàm này trả về một bản tóm tắt cuối cùng. Nếu có nhiều bản tóm tắt, hàm này sẽ lặp lại và tiếp tục tóm tắt các bản tóm tắt một phần.

Chúng tôi đã thử nghiệm giải pháp này với RFC của Internet Relay Chat (IRC). RFC này có đến 110.030 ký tự, trong đó có 17.560 từ. Summarizer API đã cung cấp bản tóm tắt sau:

Internet Relay Chat (IRC) là một cách giao tiếp trực tuyến theo thời gian thực bằng tin nhắn văn bản. Bạn có thể trò chuyện trong các kênh hoặc gửi tin nhắn riêng tư, đồng thời có thể dùng lệnh để kiểm soát cuộc trò chuyện và tương tác với máy chủ. Đây là một phòng trò chuyện trên Internet, nơi bạn có thể nhập và xem tin nhắn của người khác ngay lập tức.

Cách này khá hiệu quả! Và chỉ có 309 ký tự.

Các điểm hạn chế

Kỹ thuật tóm tắt bản tóm tắt giúp bạn hoạt động trong cửa sổ ngữ cảnh của mô hình có kích thước máy khách. Mặc dù AI phía máy khách mang lại nhiều lợi ích, nhưng bạn có thể gặp phải những vấn đề sau:

Bản tóm tắt kém chính xác: Với đệ quy, quy trình tóm tắt có thể lặp lại vô hạn và mỗi bản tóm tắt sẽ càng khác xa văn bản gốc. Điều này có nghĩa là mô hình có thể tạo ra một bản tóm tắt cuối cùng quá hời hợt để có thể hữu ích.
Hiệu suất chậm hơn: Mỗi bản tóm tắt đều mất thời gian để tạo. Một lần nữa, với vô số bản tóm tắt có thể có trong các văn bản lớn hơn, phương pháp này có thể mất vài phút để hoàn tất.

Chúng tôi có bản minh hoạ về công cụ tóm tắt và bạn có thể xem toàn bộ mã nguồn.

Chia sẻ ý kiến phản hồi của bạn

Hãy thử sử dụng kỹ thuật tóm tắt của tóm tắt với nhiều độ dài của văn bản đầu vào, nhiều kích thước phân chia và nhiều độ dài trùng lặp, bằng Summarizer API.

Để gửi ý kiến phản hồi về cách triển khai của Chrome, hãy gửi một báo cáo lỗi hoặc một yêu cầu về tính năng.
Đọc tài liệu trên MDN
Trò chuyện với nhóm AI của Chrome về quy trình tóm tắt của bạn hoặc bất kỳ câu hỏi nào khác về AI tích hợp.