API de Shape Detection: una imagen vale más que mil palabras, rostros y códigos de barras

La API de Shape Detection detecta rostros, códigos de barras y texto en imágenes.

Thomas Steiner

¿Qué es la API de Shape Detection?

Con APIs como navigator.mediaDevices.getUserMedia y el selector de fotos de Chrome para Android, se ha vuelto bastante fácil capturar imágenes o datos de video en vivo desde las cámaras de los dispositivos, o bien subir imágenes locales. Hasta ahora, no se podía acceder a estos datos de imágenes dinámicas, ni a las imágenes estáticas de una página, a través de código, a pesar de que las imágenes pueden contener muchas características interesantes, como rostros, códigos de barras y texto.

Por ejemplo, en el pasado, si los desarrolladores querían extraer esas funciones en el cliente para compilar un lector de códigos QR, debían recurrir a bibliotecas externas de JavaScript. Esto podría ser costoso desde el punto de vista del rendimiento y aumentar el peso general de la página. Por otro lado, los sistemas operativos, como Android, iOS y macOS, y los chips de hardware que se encuentran en los módulos de la cámara suelen tener detectores de características de alto rendimiento y muy optimizados, como el FaceDetector de Android o el detector de características genérico de iOS, CIDetector.

La API de Shape Detection expone estas implementaciones a través de un conjunto de interfaces de JavaScript. Actualmente, las funciones compatibles son la detección de rostros a través de la interfaz FaceDetector, la detección de códigos de barras a través de la interfaz BarcodeDetector y la detección de texto (reconocimiento óptico de caracteres, OCR) a través de la interfaz TextDetector.

Casos de uso sugeridos

Como se mencionó anteriormente, la API de Shape Detection actualmente admite la detección de rostros, códigos de barras y texto. En la siguiente lista con viñetas, se incluyen ejemplos de casos de uso para las tres funciones.

Detección de rostro

Los sitios de redes sociales o de uso compartido de fotos en línea suelen permitir que sus usuarios anoten a las personas que aparecen en las imágenes. Esta tarea se puede facilitar destacando los límites de los rostros detectados.
Los sitios de contenido pueden recortar imágenes de forma dinámica en función de los rostros que se detecten potencialmente, en lugar de depender de otras heurísticas, o bien destacar los rostros detectados con efectos de paneo y zoom similares a los de Ken Burns en formatos similares a los de las historias.
Los sitios de mensajería multimedia pueden permitir que sus usuarios superpongan objetos divertidos, como anteojos de sol o bigotes, en los puntos de referencia faciales detectados.

Detección de código de barras

Las aplicaciones web que leen códigos QR pueden desbloquear casos de uso interesantes, como pagos en línea o navegación web, o usar códigos de barras para establecer conexiones sociales en aplicaciones de mensajería.
Las apps de compras pueden permitir que sus usuarios escaneen los códigos de barras EAN o UPC de los artículos en una tienda física para comparar los precios en línea.
Los aeropuertos pueden proporcionar quioscos web en los que los pasajeros pueden escanear los códigos aztecas de sus tarjetas de embarque para mostrar información personalizada relacionada con sus vuelos.

Detección de texto

Los sitios de redes sociales en línea pueden mejorar la accesibilidad del contenido de imágenes generado por los usuarios agregando textos detectados como atributos alt para las etiquetas <img> cuando no se proporcionan otras descripciones.
Los sitios de contenido pueden usar la detección de texto para evitar colocar encabezados sobre imágenes de héroe con texto incluido.
Las aplicaciones web pueden usar la detección de texto para traducir textos como, por ejemplo, menús de restaurantes.

Estado actual

Paso	Estado
1. Crea una explicación	Completar
2. Crea el borrador inicial de la especificación	Completar
3. Recopila comentarios y realiza iteraciones en el diseño	En curso
4. Prueba de origen	Completar
5. Lanzamiento	Detección de código de barras Completada
	Detección de rostro En progreso
	Detección de texto En curso

Cómo usar la API de Shape Detection

Advertencia: Hasta el momento, solo la detección de códigos de barras está disponible de forma predeterminada a partir de Chrome 83, pero la detección de rostros y texto están disponibles detrás de una marca. Siempre puedes usar la API de Shape Detection para experimentos locales si habilitas la marca #enable-experimental-web-platform-features.

Si deseas experimentar con la API de Shape Detection de forma local, habilita la marca #enable-experimental-web-platform-features en about://flags.

Las interfaces de los tres detectores, FaceDetector, BarcodeDetector y TextDetector, son similares. Todos proporcionan un solo método asíncrono llamado detect() que toma un ImageBitmapSource como entrada (es decir, un CanvasImageSource, un Blob o un ImageData).

En el caso de FaceDetector y BarcodeDetector, se pueden pasar parámetros opcionales al constructor del detector que permiten proporcionar sugerencias a los detectores subyacentes.

Consulta con atención la matriz de compatibilidad en la explicación para obtener una descripción general de las diferentes plataformas.

Punto clave: Si tu ImageBitmapSource tiene un origen de secuencia de comandos efectivo que no es el mismo que el origen de secuencia de comandos efectivo del documento, los intentos de llamar a detect() fallarán con un nuevo SecurityError DOMException. Si el origen de tu imagen admite CORS, puedes usar el atributo crossorigin para solicitar acceso a CORS.

Cómo trabajar con `BarcodeDetector`

BarcodeDetector devuelve los valores sin procesar de los códigos de barras que encuentra en ImageBitmapSource y los cuadros delimitadores, así como otra información, como los formatos de los códigos de barras detectados.

const barcodeDetector = new BarcodeDetector({
  // (Optional) A series of barcode formats to search for.
  // Not all formats may be supported on all platforms
  formats: [
    'aztec',
    'code_128',
    'code_39',
    'code_93',
    'codabar',
    'data_matrix',
    'ean_13',
    'ean_8',
    'itf',
    'pdf417',
    'qr_code',
    'upc_a',
    'upc_e'
  ]
});
try {
  const barcodes = await barcodeDetector.detect(image);
  barcodes.forEach(barcode => searchProductDatabase(barcode));
} catch (e) {
  console.error('Barcode detection failed:', e);
}

Cómo trabajar con `FaceDetector`

El método FaceDetector siempre devuelve los cuadros delimitadores de los rostros que detecta en el objeto ImageBitmapSource. Según la plataforma, es posible que haya más información disponible sobre los puntos de referencia faciales, como los ojos, la nariz o la boca. Es importante tener en cuenta que esta API solo detecta rostros. No identifica a quién pertenece un rostro.

const faceDetector = new FaceDetector({
  // (Optional) Hint to try and limit the amount of detected faces
  // on the scene to this maximum number.
  maxDetectedFaces: 5,
  // (Optional) Hint to try and prioritize speed over accuracy
  // by, e.g., operating on a reduced scale or looking for large features.
  fastMode: false
});
try {
  const faces = await faceDetector.detect(image);
  faces.forEach(face => drawMustache(face));
} catch (e) {
  console.error('Face detection failed:', e);
}

Cómo trabajar con `TextDetector`

El método TextDetector siempre devuelve los cuadros de límite de los textos detectados y, en algunas plataformas, los caracteres reconocidos.

const textDetector = new TextDetector();
try {
  const texts = await textDetector.detect(image);
  texts.forEach(text => textToSpeech(text));
} catch (e) {
  console.error('Text detection failed:', e);
}

Detección de características

No basta con verificar la existencia de los constructores para detectar la función de la API de Shape Detection. La presencia de una interfaz no indica si la plataforma subyacente admite la función. Esto funciona según lo previsto. Por eso, recomendamos un enfoque de programación defensiva que detecte funciones de la siguiente manera:

const supported = await (async () => 'FaceDetector' in window &&
    await new FaceDetector().detect(document.createElement('canvas'))
    .then(_ => true)
    .catch(e => e.name === 'NotSupportedError' ? false : true))();

Se actualizó la interfaz BarcodeDetector para incluir un método getSupportedFormats(), y se propusieron interfaces similares para FaceDetector y para TextDetector.

await BarcodeDetector.getSupportedFormats();
/* On a macOS computer logs
  [
    "aztec",
    "code_128",
    "code_39",
    "code_93",
    "data_matrix",
    "ean_13",
    "ean_8",
    "itf",
    "pdf417",
    "qr_code",
    "upc_e"
  ]
*/

Esto te permite detectar la función específica que necesitas, por ejemplo, el escaneo de códigos QR:

if (('BarcodeDetector' in window) &&
    ((await BarcodeDetector.getSupportedFormats()).includes('qr_code'))) {
  console.log('QR code scanning is supported.');
}

Esto es mejor que ocultar las interfaces, ya que, incluso entre plataformas, las capacidades pueden variar, por lo que se debe alentar a los desarrolladores a verificar con precisión la capacidad (como un formato de código de barras o un punto de referencia facial en particular) que requieren.

Compatibilidad con el sistema operativo

La detección de códigos de barras está disponible en macOS, ChromeOS y Android. Google Play Services son obligatorios en Android.

Prácticas recomendadas

Todos los detectores funcionan de forma asíncrona, es decir, no bloquean el subproceso principal. Por lo tanto, no confíes en la detección en tiempo real, sino que permite que el detector haga su trabajo.

Si te gustan los Web Workers, te complacerá saber que los detectores también se exponen allí. Los resultados de la detección se pueden serializar y, por lo tanto, se pueden pasar del trabajador a la app principal a través de postMessage(). La demostración muestra esto en acción.

No todas las implementaciones de la plataforma admiten todas las funciones, por lo que debes verificar la situación de compatibilidad con atención y usar la API como una mejora progresiva. Por ejemplo, algunas plataformas pueden admitir la detección de rostros en sí, pero no la detección de puntos de referencia faciales (ojos, nariz, boca, etc.); o bien, se puede reconocer la existencia y la ubicación del texto, pero no su contenido.

Comentarios

Al equipo de Chrome y a la comunidad de estándares web les interesa conocer tu experiencia con la API de Shape Detection.

Cuéntanos sobre el diseño de la API

¿Hay algo sobre la API que no funciona como esperabas? ¿O faltan métodos o propiedades que necesitas para implementar tu idea? ¿Tienes alguna pregunta o comentario sobre el modelo de seguridad?

Informa un problema de especificación en el repositorio de GitHub de la API de Shape Detection o agrega tus ideas a un problema existente.

¿Tienes problemas con la implementación?

¿Encontraste un error en la implementación de Chrome? ¿O la implementación es diferente de las especificaciones?

Presenta un error en https://new.crbug.com. Asegúrate de incluir tantos detalles como puedas, instrucciones sencillas para reproducir el error y configura Components en Blink>ImageCapture.

¿Planeas usar la API?

¿Planeas usar la API de Shape Detection en tu sitio? Tu apoyo público nos ayuda a priorizar funciones y les muestra a otros proveedores de navegadores lo importante que es brindarles compatibilidad.

Comparte cómo planeas usarlo en el hilo de Discourse del WICG.
Envía un tweet a @ChromiumDev con el hashtag #ShapeDetection y cuéntanos dónde y cómo lo usas.

Vínculos útiles

Explicación pública
Demostración de la API | Fuente de la demostración de la API
Error de seguimiento
Entrada de ChromeStatus.com
Componente Blink: Blink>ImageCapture