Film z informacjami o dostępności zdobył nagrodę internetową w konkursie dla deweloperów Gemini API

Data publikacji: 21 listopada 2024 r.

Po otrzymaniu wielu niesamowitych zgłoszeń do konkursu dla deweloperów interfejsu Gemini API wybraliśmy zwycięzcę w kategorii najlepszej aplikacji internetowej: ViddyScribe.

ViddyScribe pokazuje, jak Gemini może ułatwić dostęp do filmów w YouTube i poza nim, generując audiodeskrypcje dostosowane do osób niedowidzących.

Funkcje i możliwości Gemini

ViddyScribe stworzył aplikację, która jest przyjazna użytkownikom. Chociaż istnieje już wiele rozwiązań do generowania transkrypcji i audiodeskrypcji, ViddyScribe postawiło sobie za priorytet tworzenie wyjścia, które będzie zarówno szybkie, jak i przyjemne w użyciu dla określonej grupy odbiorców: osób z zaburzeniami wzroku.

Ręczne dodawanie adnotacji do filmów w celu zaoferowania dodatkowych informacji dla tej grupy odbiorców zajmuje zbyt dużo czasu i często jest pomijane. Firma ViddyScribe wykorzystała Gemini do stworzenia niestandardowego rozwiązania, które umożliwia skalowanie wykraczającego poza dodawanie dowolnych opisów klatek do pliku tekstowego.

ViddyScribe zawiera 2 próbki i miejsce na przesyłanie.
Aplikacja ViddyScribe umożliwia użytkownikom użycie przykładowego filmu lub przesłanie własnego (o długości 100 MB i 2 minuty), aby wygenerować opisy audio za pomocą Gemini.

Aby uzyskać najlepsze wyniki, ViddyScribe wykorzystała inżynierię promptów, dostosowując język i styl pytań do Gemini 1.5 Pro. Ten prompt używał łańcucha myśli, aby poprosić o:

  • cel i kontekst filmu;
  • dostosowane napisy audio na podstawie analizy i wytycznych dotyczących konkretnego filmu;
  • Zmienione formatowanie sygnatur czasowych i opisów w celu zapewnienia spójnego i przewidywalnego formatu.

Dlaczego wybraliśmy ViddyScribe

Wybraliśmy ViddyScribe, ponieważ było to eleganckie rozwiązanie prawdziwego problemu użytkowników.

Chociaż na rynku dostępne są inne aplikacje z audiodeskrypcjami, zdaniem autorów nie spełniają one w pełni potrzeb osób niesłyszących i niewidomych. Aby dowiedzieć się, czego potrzebują użytkownicy z takimi niepełnosprawnościami, deweloperzy współpracowali z prawdziwymi osobami z takimi ograniczeniami.

Doświadczenia osób niepełnosprawnych mogą się znacznie różnić, a czasami mogą mieć sprzeczne potrzeby. Dodatkowo audiodeskrypcje mogą ułatwić dostęp do filmów osobom z zaburzeniami neurorozwojowymi oraz tym, które wolą czytać transkrypcję zamiast oglądać film.

Cieszymy się, że deweloperzy stale ulepszają ViddyScribe, zwiększając w ten sposób liczbę odbiorców i funkcjonalności tej usługi.

Dalsze tworzenie za pomocą wbudowanych interfejsów API AI

ViddyScribe to tylko jedna z wielu niesamowitych aplikacji stworzonych za pomocą Gemini.

Opracowujemy wbudowaną AI: interfejsy API platformy internetowej i funkcje przeglądarki, które umożliwiają integrację modeli AI, w tym dużych modeli językowych (LLM), bezpośrednio w przeglądarce. Dotyczy to m.in. Gemini Nano, czyli najbardziej wydajnej wersji modeli LLM z rodziny Gemini, która została zaprojektowana do uruchamiania lokalnie na większości nowoczesnych komputerów stacjonarnych i laptopów.

Poznaj dostępne interfejsy API, aby zacząć tworzyć wydajne witryny, aplikacje internetowe i rozszerzenia do Chrome.

Udostępniaj swoje rozwiązania na @ChromiumDev lub w grupie Chrome for Developers na LinkedIn.