توسيع نطاق التلخيص من جهة العميل في النوافذ الصغيرة للسياق

André Cipriani Bandarra

Alexandra Klepper

تاريخ النشر: 12 مارس 2025، تاريخ آخر تعديل: 28 مايو 2025

شرح	الويب	الإضافات	حالة Chrome	النيّة بالشراء
MDN	Chrome 138	Chrome 138	العرض	Intent to Ship

تساعدك Summarizer API في إنشاء ملخّصات للمعلومات بأطوال وتنسيقات مختلفة. يمكنك استخدامها مع Gemini Nano في Chrome أو مع نماذج لغوية أخرى مدمجة في المتصفحات لشرح النصوص الطويلة أو المعقّدة بإيجاز.

عند تنفيذها من جهة العميل، يمكنك العمل مع البيانات محليًا، ما يتيح لك الحفاظ على أمان البيانات الحسّاسة وتوفيرها على نطاق واسع. ومع ذلك، تكون نافذة السياق أصغر بكثير من تلك التي تستخدمها النماذج من جهة الخادم، ما يعني أنّ تلخيص المستندات الكبيرة جدًا قد يكون صعبًا. لحلّ هذه المشكلة، يمكنك استخدام تقنية ملخّص الملخّصات.

ما هو ملخّص الملخّصات؟

لاستخدام أسلوب ملخّص الملخّصات، قسِّم المحتوى المُدخَل إلى نقاط أساسية، ثم لخِّص كل جزء بشكل مستقل. يمكنك دمج النتائج من كل جزء، ثم تلخيص النص المدمج في ملخّص نهائي واحد.

على سبيل المثال، إذا تم تقسيم مستند إلى ثلاثة أجزاء، سيتم تلخيص كل جزء. يتم تجميع هذه الملخّصات الثلاثة وتلخيصها مرة أخرى للحصول على النتيجة النهائية.

تقسيم المحتوى بعناية

من المهم التفكير في كيفية تقسيم نص كبير، لأنّ الاستراتيجيات المختلفة يمكن أن تؤدي إلى نتائج مختلفة في نماذج اللغات الكبيرة. من الأفضل تقسيم النص عند تغيير الموضوع، مثلاً عند الانتقال إلى قسم جديد من مقالة أو عند الانتقال إلى فقرة جديدة. من المهم تجنُّب تقسيم النص في منتصف كلمة أو جملة، ما يعني أنّه لا يمكنك استخدام عدد الأحرف كدليل إرشادي وحيد للتقسيم.

يمكنك إجراء ذلك بطرق عديدة. في المثال التالي، استخدمنا أداة تقسيم النصوص المتكررة من LangChain.js، والتي توازن بين الأداء وجودة الناتج. من المفترض أن ينجح ذلك مع معظم أحجام العمل.

عند إنشاء مثيل جديد، هناك مَعلمتان رئيسيتان:

‫chunkSize هو الحد الأقصى لعدد الأحرف المسموح به في كل تقسيم.
‫chunkOverlap هو عدد الأحرف التي تتداخل بين عمليتَي تقسيم متتاليتَين. يضمن ذلك أن تتضمّن كل قطعة بعض السياق من القطعة السابقة.

قسِّم النص باستخدام splitText() لعرض صفيف من السلاسل مع كل جزء.

يتم التعبير عن قدرة الاستيعاب في معظم النماذج اللغوية الكبيرة على شكل عدد من الرموز المميزة، وليس عددًا من الأحرف. في المتوسط، تحتوي الرمز المميز على 4 أحرف. في مثالنا، يبلغ عدد أحرف chunkSize 3000 حرف، أي ما يعادل 750 رمزًا مميزًا تقريبًا.

تحديد مدى توفّر الرموز المميزة

لتحديد عدد الرموز المميزة المتاحة للاستخدام في إدخال، استخدِم طريقة measureInputUsage() والسمة inputQuota. في هذه الحالة، لا حدود للتنفيذ، إذ لا يمكنك معرفة عدد المرات التي سيتم فيها تشغيل أداة التلخيص لمعالجة كل النص.

إنشاء ملخّصات لكل عملية تقسيم

بعد إعداد طريقة تقسيم المحتوى، يمكنك إنشاء ملخّصات لكل جزء باستخدام Summarizer API.

أنشئ مثيلاً من أداة التلخيص باستخدام الدالة create(). للحفاظ على أكبر قدر ممكن من السياق، ضبطنا المَعلمة format على plain-text، وtype على tldr، وlength على long.

بعد ذلك، أنشئ الملخّص لكل جزء تم إنشاؤه بواسطة RecursiveCharacterTextSplitter، ثم ادمج النتائج في سلسلة جديدة. فصلنا كل ملخّص بسطر جديد لتحديد الملخّص الخاص بكل جزء بوضوح.

مع أنّ هذا السطر الجديد لا يهمّ عند تنفيذ هذه الحلقة مرة واحدة فقط، إلا أنّه مفيد في تحديد كيفية إضافة كل ملخّص إلى قيمة الرمز المميز للملخّص النهائي. في معظم الحالات، من المفترض أن ينجح هذا الحل مع المحتوى المتوسط الطول والطويل.

ملخّص الملخّصات المتكرّرة

عندما يكون لديك كمية كبيرة جدًا من النص، قد يكون طول الملخّص المدمج أكبر من قدرة الاستيعاب المتاحة، ما يؤدي إلى تعذُّر تلخيص النص. لحلّ هذه المشكلة، يمكنك تلخيص الملخّصات بشكل متكرّر.

إذا كان ملخّص الملخّصات لا يزال طويلاً جدًا، يمكنك تكرار العملية. ويمكنك نظريًا تكرار العملية إلى أجل غير مسمّى إلى أن تحصل على طول مناسب.

سنظل نجمع عمليات التقسيم الأولية التي أنشأتها RecursiveCharacterTextSplitter. بعد ذلك، في الدالة recursiveSummarizer()، نكرّر عملية التلخيص استنادًا إلى طول الأحرف في التقسيمات المتسلسلة. إذا تجاوز طول الأحرف في الملخّصات 3000، سيتم دمجها في fullSummaries. إذا لم يتم بلوغ الحد الأقصى، يتم حفظ الملخّص باسم partialSummaries.

بعد إنشاء جميع الملخّصات، تتم إضافة الملخّصات الجزئية النهائية إلى الملخّص الكامل. إذا كان هناك ملخّص واحد فقط في fullSummaries، لن تحتاج إلى تكرار إضافي. تعرض الدالة ملخّصًا نهائيًا. إذا كان هناك أكثر من ملخّص واحد، تتكرّر الدالة وتستمر في تلخيص الملخّصات الجزئية.

اختبرنا هذا الحلّ باستخدام RFC الخاص ببروتوكول الدردشة عبر الإنترنت (IRC)، الذي يتضمّن 110,030 حرفًا، بما في ذلك 17,560 كلمة. قدّمت واجهة برمجة التطبيقات Summarizer الملخّص التالي:

برنامج Internet Relay Chat (IRC) هو طريقة للتواصل على الإنترنت في الوقت الفعلي باستخدام الرسائل النصية. يمكنك الدردشة في القنوات أو إرسال رسائل خاصة، كما يمكنك استخدام الأوامر للتحكّم في الدردشة والتفاعل مع الخادم. وهي تشبه غرفة محادثة على الإنترنت حيث يمكنك كتابة الرسائل ورؤية رسائل الآخرين على الفور.

هذا فعّال جدًا. ويبلغ عدد الأحرف فيه 309 أحرف فقط.

القيود

تساعدك تقنية "ملخّص الملخّصات" في العمل ضمن قدرة الاستيعاب الخاصة بنموذج بحجم العميل. على الرغم من توفّر العديد من المزايا للذكاء الاصطناعي من جهة العميل، قد تواجهك المشاكل التالية:

ملخّصات أقل دقة: مع التكرار، يمكن أن تتكرر عملية التلخيص إلى ما لا نهاية، وكل ملخّص يكون أبعد عن النص الأصلي. وهذا يعني أنّ النموذج قد ينشئ ملخّصًا نهائيًا سطحيًا جدًا وغير مفيد.
انخفاض الأداء: يستغرق إنشاء كل ملخّص بعض الوقت. ومرة أخرى، بما أنّ عدد الملخّصات المحتملة في النصوص الأكبر حجمًا لا نهائي، قد يستغرق هذا الأسلوب عدة دقائق لإكماله.

يتوفّر عرض توضيحي لأداة التلخيص، ويمكنك الاطّلاع على رمز المصدر الكامل.

مشاركة ملاحظاتك

جرِّب استخدام تقنية تلخيص الملخّصات مع نصوص إدخال مختلفة الأطوال وأحجام تقسيم مختلفة وأطوال تداخل مختلفة باستخدام Summarizer API.

لإرسال ملاحظات حول طريقة تنفيذ Chrome لهذه الميزة، يمكنك تقديم تقرير عن خطأ أو طلب ميزة.
قراءة المستندات على MDN
يمكنك الدردشة مع فريق الذكاء الاصطناعي في Chrome بشأن عملية التلخيص أو أي أسئلة أخرى حول الذكاء الاصطناعي المدمج.