게시일: 2024년 11월 21일
Gemini API 개발자 대회에 수많은 멋진 작품이 제출된 후 최고의 웹 애플리케이션으로 ViddyScribe가 선정되었습니다.
ViddyScribe는 Gemini가 시각 장애인에게 맞춤설정된 동영상의 오디오 설명을 생성하여 YouTube뿐만 아니라 그 밖의 플랫폼에서도 동영상 접근성을 높이는 데 어떻게 도움이 되는지 보여주는 예입니다.
기능 및 Gemini 기능
ViddyScribe는 사용자 중심 설계의 애플리케이션을 빌드했습니다. 스크립트와 오디오 설명을 생성하는 솔루션은 이미 많이 있지만, ViddyScribe는 빠른 결과와 특정 시청자층(시각 장애인)을 위한 즐거운 사용자 환경을 모두 중시하는 결과물을 만드는 데 중점을 두었습니다.
이 시청자층을 위해 동영상에 추가 세부정보를 제공하기 위해 동영상을 수동으로 주석 처리하는 데는 시간이 너무 많이 걸리고 종종 소홀히 처리됩니다. ViddyScribe는 Gemini를 사용하여 텍스트 파일에 임의의 프레임 설명을 추가하는 것 이상으로 확장되는 맞춤 솔루션을 만들었습니다.
ViddyScribe는 프롬프트 엔지니어링을 사용하여 최상의 결과를 얻고 Gemini 1.5 Pro의 질문 언어와 스타일을 선별했습니다. 이 프롬프트는 연쇄적 사고 프롬프팅을 사용하여 다음을 요청했습니다.
- 동영상의 목적과 맥락
- 동영상별 분석 및 가이드라인을 사용하여 맞춤설정된 오디오 설명
- 예측 가능하고 일관된 형식을 위해 타임스탬프와 설명의 형식을 다시 지정했습니다.
ViddyScribe를 선택한 이유
ViddyScribe는 실제 사용자 문제를 해결하는 우아한 솔루션이므로 선택했습니다.
시장에는 오디오 설명을 제공하는 다른 애플리케이션이 있지만 청각 장애인과 시각 장애인의 니즈가 충분히 이해되지 않았다고 생각했습니다. 이러한 개발자는 이러한 장애가 있는 실제 사용자와 협력하여 오디오 설명 애플리케이션에 필요한 사항을 정확하게 파악했습니다.
장애인의 경험은 매우 다양할 수 있으며 때로는 상충하는 요구사항이 있을 수 있습니다. 또한 오디오 설명을 통해 신경 발달 장애가 있거나 동영상을 시청하는 대신 스크립트를 읽는 것을 선호하는 사용자도 이러한 동영상을 이용할 수 있습니다.
개발자가 ViddyScribe를 계속해서 개선하여 향후 사용자층과 기능을 확대해 나갈지 기대됩니다.
내장된 AI API로 계속 빌드
ViddyScribe는 Gemini로 빌드한 여러 멋진 애플리케이션 중 하나일 뿐입니다.
Google에서는 대규모 언어 모델(LLM)을 비롯한 AI 모델을 브라우저에 직접 통합하도록 설계된 웹 플랫폼 API 및 브라우저 기능인 기본 제공 AI를 개발하고 있습니다. 여기에는 최신 데스크톱 및 노트북 컴퓨터에서 로컬로 실행되도록 설계된 Gemini 계열 LLM의 가장 효율적인 버전인 Gemini Nano가 포함됩니다.
사용 가능한 API를 살펴보고 강력한 웹사이트, 웹 애플리케이션, Chrome 확장 프로그램을 빌드해 보세요.
@ChromiumDev에서 빌드한 내용을 공유하거나 LinkedIn의 개발자용 Chrome과 공유하세요.