Data publikacji: 21 listopada 2024 r.
Po otrzymaniu wielu niesamowitych zgłoszeń do konkursu dla deweloperów interfejsu Gemini API wybraliśmy zwycięzcę w kategorii najlepszej aplikacji internetowej: ViddyScribe.
ViddyScribe pokazuje, jak Gemini może ułatwić dostęp do filmów w YouTube i poza nim, generując audiodeskrypcje dostosowane do osób niedowidzących.
Funkcje i możliwości Gemini
ViddyScribe stworzył aplikację, która jest przyjazna użytkownikom. Chociaż istnieje już wiele rozwiązań do generowania transkrypcji i audiodeskrypcji, ViddyScribe postawiło sobie za priorytet tworzenie wyjścia, które będzie zarówno szybkie, jak i przyjemne w użyciu dla określonej grupy odbiorców: osób z zaburzeniami wzroku.
Ręczne dodawanie adnotacji do filmów w celu zaoferowania dodatkowych informacji dla tej grupy odbiorców zajmuje zbyt dużo czasu i często jest pomijane. Firma ViddyScribe wykorzystała Gemini do stworzenia niestandardowego rozwiązania, które umożliwia skalowanie wykraczającego poza dodawanie dowolnych opisów klatek do pliku tekstowego.

Aby uzyskać najlepsze wyniki, ViddyScribe wykorzystała inżynierię promptów, dostosowując język i styl pytań do Gemini 1.5 Pro. Ten prompt używał łańcucha myśli, aby poprosić o:
- cel i kontekst filmu;
- dostosowane napisy audio na podstawie analizy i wytycznych dotyczących konkretnego filmu;
- Zmienione formatowanie sygnatur czasowych i opisów w celu zapewnienia spójnego i przewidywalnego formatu.
Dlaczego wybraliśmy ViddyScribe
Wybraliśmy ViddyScribe, ponieważ było to eleganckie rozwiązanie prawdziwego problemu użytkowników.
Chociaż na rynku dostępne są inne aplikacje z audiodeskrypcjami, zdaniem autorów nie spełniają one w pełni potrzeb osób niesłyszących i niewidomych. Aby dowiedzieć się, czego potrzebują użytkownicy z takimi niepełnosprawnościami, deweloperzy współpracowali z prawdziwymi osobami z takimi ograniczeniami.
Doświadczenia osób niepełnosprawnych mogą się znacznie różnić, a czasami mogą mieć sprzeczne potrzeby. Dodatkowo audiodeskrypcje mogą ułatwić dostęp do filmów osobom z zaburzeniami neurorozwojowymi oraz tym, które wolą czytać transkrypcję zamiast oglądać film.
Cieszymy się, że deweloperzy stale ulepszają ViddyScribe, zwiększając w ten sposób liczbę odbiorców i funkcjonalności tej usługi.
Dalsze tworzenie za pomocą wbudowanych interfejsów API AI
ViddyScribe to tylko jedna z wielu niesamowitych aplikacji stworzonych za pomocą Gemini.
Opracowujemy wbudowaną AI: interfejsy API platformy internetowej i funkcje przeglądarki, które umożliwiają integrację modeli AI, w tym dużych modeli językowych (LLM), bezpośrednio w przeglądarce. Dotyczy to m.in. Gemini Nano, czyli najbardziej wydajnej wersji modeli LLM z rodziny Gemini, która została zaprojektowana do uruchamiania lokalnie na większości nowoczesnych komputerów stacjonarnych i laptopów.
Poznaj dostępne interfejsy API, aby zacząć tworzyć wydajne witryny, aplikacje internetowe i rozszerzenia do Chrome.
Udostępniaj swoje rozwiązania na @ChromiumDev lub w grupie Chrome for Developers na LinkedIn.