ממשק API לזיהוי צורה: תמונה אחת שווה אלף מילים, פנים וברקודים

ממשק ה-API לזיהוי צורות מזהה פנים, ברקודים וטקסט בתמונות.

Thomas Steiner

מה זה Shape Detection API?

בעזרת ממשקי API כמו navigator.mediaDevices.getUserMedia וכלי בחירת התמונות ב-Chrome ל-Android, קל יחסית לצלם תמונות או נתוני וידאו בשידור חי ממצלמות המכשיר, או להעלות תמונות מקומיות. עד עכשיו, לא הייתה גישה לנתוני התמונות הדינמיות האלה – וגם לא לתמונות סטטיות בדף – באמצעות קוד, למרות שבתמונות יכול להיות הרבה מידע מעניין כמו פנים, ברקודים וטקסט.

לדוגמה, בעבר, אם מפתחים רצו לחלץ תכונות כאלה בצד הלקוח כדי ליצור קורא קוד QR, הם נאלצו להסתמך על ספריות JavaScript חיצוניות. הפעולה הזו עלולה להיות יקרה מבחינת ביצועים ולהגדיל את המשקל הכולל של הדף. מצד שני, מערכות הפעלה כמו Android,‏ iOS ו-macOS, אבל גם שבבי חומרה שנמצאים במודולים של מצלמות, בדרך כלל כבר כוללות גלאי תכונות יעילים ומותאמים מאוד כמו FaceDetector של Android או גלאי התכונות הכללי של iOS‏, CIDetector.

‫Shape Detection API חושף את ההטמעות האלה באמצעות קבוצה של ממשקי JavaScript. נכון לעכשיו, התכונות הנתמכות הן זיהוי פנים דרך הממשק FaceDetector, זיהוי ברקוד דרך הממשק BarcodeDetector וזיהוי טקסט (זיהוי תווים אופטי, OCR) דרך הממשק TextDetector.

תרחישים לדוגמה

כפי שצוין למעלה, נכון לעכשיו Shape Detection API תומך בזיהוי של פנים, ברקודים וטקסט. ברשימה הבאה עם התבליטים מופיעות דוגמאות לתרחישים לדוגמה לשימוש בכל שלוש התכונות.

זיהוי פנים

באתרים של רשתות חברתיות או אתרים לשיתוף תמונות באינטרנט, המשתמשים יכולים בדרך כלל לתייג אנשים בתמונות. הדגשת הגבולות של הפנים שזוהו יכולה לעזור במשימה הזו.
אתרים עם תוכן יכולים לחתוך תמונות באופן דינמי על סמך פנים שאולי זוהו, במקום להסתמך על היוריסטיקות אחרות, או להדגיש פנים שזוהו באמצעות אפקטים של פנורמה וזום כמו בKen Burns בפורמטים של סטורי.
אתרים לשליחת הודעות מולטימדיה יכולים לאפשר למשתמשים להוסיף שכבת-על של אובייקטים מצחיקים כמו משקפי שמש או שפמים על נקודות ציון מזוהות בפנים.

זיהוי ברקוד

אפליקציות אינטרנט שקוראות קודי QR יכולות לפתוח תרחישי שימוש מעניינים כמו תשלומים באינטרנט או ניווט באינטרנט, או להשתמש בברקודים כדי ליצור קשרים חברתיים באפליקציות מסנג'ר.
אפליקציות שופינג יכולות לאפשר למשתמשים לסרוק ברקודים של פריטים בחנות פיזית מסוג EAN או UPC כדי להשוות מחירים באינטרנט.
בשדות תעופה אפשר למצוא עמדות אינטרנט שבהן הנוסעים יכולים לסרוק את קודי ה-Aztec של כרטיסי העלייה למטוס כדי לראות מידע מותאם אישית שקשור לטיסות שלהם.

זיהוי טקסט

אתרים של רשתות חברתיות באינטרנט יכולים לשפר את הנגישות של תוכן תמונות שנוצר על ידי משתמשים, על ידי הוספת טקסטים שזוהו כמאפיינים alt לתגי <img> כשלא מסופקים תיאורים אחרים.
באתרי תוכן אפשר להשתמש בזיהוי טקסט כדי להימנע ממיקום כותרות מעל תמונות מרכזיות עם טקסט.
אפליקציות אינטרנט יכולות להשתמש בזיהוי טקסט כדי לתרגם טקסטים כמו תפריטים של מסעדות.

הסטטוס הנוכחי

שלב	סטטוס
1. יצירת הסבר	השלמה
2. יצירת טיוטה ראשונה של המפרט	השלמה
3. איסוף משוב ושיפור העיצוב	בתהליך
4. גרסת מקור לניסיון	השלמה
5. הפעלה	זיהוי ברקוד הושלם
	זיהוי פנים בתהליך
	זיהוי טקסט בתהליך

איך משתמשים ב-Shape Detection API

אזהרה: נכון לעכשיו, רק זיהוי ברקוד זמין כברירת מחדל החל מ-Chrome 83, אבל זיהוי פנים וטקסט זמינים מאחורי דגל. תמיד אפשר להשתמש ב-Shape Detection API לניסויים מקומיים על ידי הפעלת #enable-experimental-web-platform-featuresהדגל

אם רוצים להתנסות ב-Shape Detection API באופן מקומי, צריך להפעיל את הדגל #enable-experimental-web-platform-features ב-about://flags.

הממשקים של שלושת הגלאים, FaceDetector, BarcodeDetector ו-TextDetector, דומים. בכולם יש שיטה אסינכרונית אחת בשם detect() שמקבלת כקלט ImageBitmapSource (כלומר, CanvasImageSource,‏ Blob או ImageData).

במקרה של FaceDetector ו-BarcodeDetector, אפשר להעביר פרמטרים אופציונליים ל-constructor של הגלאי כדי לספק רמזים לגלאים הבסיסיים.

כדאי לעיין בטבלת התמיכה בהסבר כדי לקבל סקירה כללית של הפלטפורמות השונות.

נקודה חשובה: אם ל-ImageBitmapSource יש מקור סקריפט אפקטיבי שלא זהה למקור הסקריפט האפקטיבי של המסמך, הניסיונות לקרוא ל-detect() ייכשלו עם SecurityError DOMException חדש. אם המקור של התמונה תומך ב-CORS, אפשר להשתמש במאפיין crossorigin כדי לבקש גישת CORS.

עבודה עם `BarcodeDetector`

הפונקציה BarcodeDetector מחזירה את הערכים הגולמיים של הברקודים שהיא מוצאת ב-ImageBitmapSource ואת תיבות התוחמות, וגם מידע נוסף כמו הפורמטים של הברקודים שזוהו.

const barcodeDetector = new BarcodeDetector({
  // (Optional) A series of barcode formats to search for.
  // Not all formats may be supported on all platforms
  formats: [
    'aztec',
    'code_128',
    'code_39',
    'code_93',
    'codabar',
    'data_matrix',
    'ean_13',
    'ean_8',
    'itf',
    'pdf417',
    'qr_code',
    'upc_a',
    'upc_e'
  ]
});
try {
  const barcodes = await barcodeDetector.detect(image);
  barcodes.forEach(barcode => searchProductDatabase(barcode));
} catch (e) {
  console.error('Barcode detection failed:', e);
}

עבודה עם `FaceDetector`

הפונקציה FaceDetector תמיד מחזירה את תיבות התוחמות של הפנים שהיא מזהה ב-ImageBitmapSource. בהתאם לפלטפורמה, יכול להיות שיהיה זמין מידע נוסף לגבי נקודות ציון בפנים כמו עיניים, אף או פה. חשוב לזכור שממשק ה-API הזה מזהה רק פנים. התכונה לא מזהה למי שייכות הפנים.

const faceDetector = new FaceDetector({
  // (Optional) Hint to try and limit the amount of detected faces
  // on the scene to this maximum number.
  maxDetectedFaces: 5,
  // (Optional) Hint to try and prioritize speed over accuracy
  // by, e.g., operating on a reduced scale or looking for large features.
  fastMode: false
});
try {
  const faces = await faceDetector.detect(image);
  faces.forEach(face => drawMustache(face));
} catch (e) {
  console.error('Face detection failed:', e);
}

עבודה עם `TextDetector`

הפונקציה TextDetector תמיד מחזירה את תיבות התוחמות של הטקסטים שזוהו, ובפלטפורמות מסוימות גם את התווים שזוהו.

const textDetector = new TextDetector();
try {
  const texts = await textDetector.detect(image);
  texts.forEach(text => textToSpeech(text));
} catch (e) {
  console.error('Text detection failed:', e);
}

זיהוי תכונות

בדיקה של קיום בנאים כדי לזהות תכונות של Shape Detection API לא מספיקה. העובדה שיש ממשק לא אומרת שהפלטפורמה הבסיסית תומכת בתכונה. המצב הזה תקין. לכן אנחנו ממליצים על גישה של תכנות הגנתי, שכוללת זיהוי תכונות באופן הבא:

const supported = await (async () => 'FaceDetector' in window &&
    await new FaceDetector().detect(document.createElement('canvas'))
    .then(_ => true)
    .catch(e => e.name === 'NotSupportedError' ? false : true))();

הממשק של BarcodeDetector עודכן כך שיכלול שיטה של getSupportedFormats(), והוצעו ממשקים דומים ל-FaceDetector ול-TextDetector.

await BarcodeDetector.getSupportedFormats();
/* On a macOS computer logs
  [
    "aztec",
    "code_128",
    "code_39",
    "code_93",
    "data_matrix",
    "ean_13",
    "ean_8",
    "itf",
    "pdf417",
    "qr_code",
    "upc_e"
  ]
*/

כך תוכלו לזהות את התכונה הספציפית שאתם צריכים, למשל סריקת קוד QR:

if (('BarcodeDetector' in window) &&
    ((await BarcodeDetector.getSupportedFormats()).includes('qr_code'))) {
  console.log('QR code scanning is supported.');
}

זה עדיף על הסתרת הממשקים, כי היכולות עשויות להיות שונות בין הפלטפורמות, ולכן מומלץ למפתחים לבדוק בדיוק את היכולת שהם צריכים (כמו פורמט ברקוד מסוים או נקודת ציון בפנים).

תמיכה במערכת הפעלה

התכונה 'זיהוי ברקוד' זמינה ב-macOS, ב-ChromeOS וב-Android. Google Play Services נדרשת ב-Android.

שיטות מומלצות

כל הגלאים פועלים באופן אסינכרוני, כלומר הם לא חוסמים את השרשור הראשי. לכן, אל תסתמכו על זיהוי בזמן אמת, אלא תנו לגלאי זמן לבצע את העבודה שלו.

אם אתם אוהבים את Web Workers, תשמחו לדעת שגם שם יש גלאים. תוצאות הזיהוי ניתנות לסריאליזציה, ולכן אפשר להעביר אותן מה-worker לאפליקציה הראשית באמצעות postMessage(). אפשר לראות את זה בפעולה בהדגמה.

לא כל ההטמעות של הפלטפורמה תומכות בכל התכונות, לכן חשוב לבדוק את מצב התמיכה בקפידה ולהשתמש ב-API כשיפור מתקדם. לדוגמה, יכול להיות שפלטפורמות מסוימות תומכות בזיהוי פנים כשלעצמו, אבל לא בזיהוי נקודות ציון בפנים (עיניים, אף, פה וכו'); או שהמערכת יכולה לזהות את קיומו של טקסט ואת המיקום שלו, אבל לא את התוכן שלו.

משוב

צוות Chrome וקהילת תקני האינטרנט רוצים לשמוע על החוויות שלכם עם Shape Detection API.

נשמח לקבל מידע על עיצוב ה-API

האם יש משהו ב-API שלא פועל כמו שציפית? או שחסרים methods או מאפיינים שאתם צריכים כדי ליישם את הרעיון שלכם? יש לך שאלה או הערה לגבי מודל האבטחה?

אפשר להגיש בעיה במפרט במאגר GitHub של Shape Detection API, או להוסיף את המחשבות שלכם לבעיה קיימת.

בעיה בהטמעה?

מצאתם באג בהטמעה של Chrome? או שההטמעה שונה מהמפרט?

אפשר לדווח על באג בכתובת https://new.crbug.com. חשוב לכלול כמה שיותר פרטים, הוראות פשוטות לשחזור הבאג ולהגדיר את המרכיבים לערך Blink>ImageCapture.

מתכננים להשתמש ב-API?

מתכננים להשתמש ב-Shape Detection API באתר? התמיכה הציבורית שלכם עוזרת לנו לתעדף תכונות, ומראה לספקי דפדפנים אחרים עד כמה חשוב לתמוך בהן.

אפשר לשתף את התוכניות שלכם לשימוש ב-שרשור ב-WICG Discourse.
אתם יכולים לשלוח ציוץ אל @ChromiumDev באמצעות ההאשטאג #ShapeDetection ולספר לנו איפה ואיך אתם משתמשים בו.