Model akustyczny ASR
Nazwa technologii
Model akustyczny ASR
Abstrakt (krótki opis oferowanej technologii)
Technologia pt. „Model akustyczny ASR” jest innowacyjnym, wysoce precyzyjnym rozwiązaniem do rozpoznawania mowy, w którym wykorzystuje się informacje akustyczne zawarte w sygnale mowy do rozpoznawania i interpretacji wypowiedzi. Po stosownym skonfigurowaniu może stanowić samodzielne narzędzie informatyczne, lub być elementem szerszego systemu. Wyróżnia się ponadprzeciętną dokładnością i precyzją działania.
Szczegóły technologiczne i opis oferowanej technologii
Technologia pt. „Model akustyczny ASR” jest wynikiem procesu uczenia maszynowego w obszarze rozpoznawania mowy. Ma ona postać bazy danych i algorytmów, reguł, wzorców i parametrów.
Model akustyczny ASR (Automatic Speech Recognition) to tryb działania systemu rozpoznawania mowy, w którym wykorzystuje się tylko informacje akustyczne zawarte w sygnale mowy do rozpoznawania i interpretacji wypowiedzi. W tym trybie nie uwzględnia się żadnych dodatkowych informacji semantycznych, takich jak kontekst czy znaczenie słów. Model akustyczny ASR koncentruje się na analizie właściwości akustycznych dźwięku, takich jak częstotliwość, intensywność i długość dźwięków, aby przetworzyć mowę na tekst. Jest to podstawowy tryb działania ASR, który jest stosowany w wielu aplikacjach, takich jak systemy rozpoznawania mowy w samochodach, systemy transkrypcji nagrań czy systemy dyktowania.
Technologia została zweryfikowana na podstawie opracowanego prototypowego serwisu WWW pozwalającego na rozpoznawanie zewnętrznych plików wav i mp3 oraz pracę interaktywną polegającą na mówieniu do podłączonego do komputera mikrofonu i natychmiastowym wyświetlaniu kolejnych rozpoznanych fraz. Dostępne są następujące funkcjonalności:
• rozpoznawania przygotowanych zewnętrznie plikóoe wav i mp3,
• detekcja aktywności głosowej i eliminacja segmentów nie zawierających mowy,
• diaryzacja,
• wyświetlanie wyników rozpoznawania w oknie przeglądarki i zapis ich do pliku,
• nagrywanie plików dżwiękowych z możliwością pauzy (składanie nagrania z wypowiedzi oddzielonych w czasie) i rozpoznawanie tak przygotowanego pliku,
• rozpoznawanie online z automatyczną segmentacją na chwilach ciszy,
• możliwość rozpoznawania w języku polskim, angielskim i niemieckim w trybie online.
Technologia została opracowana w projekcie „CLARIN – wspólne zasoby językowe i infrastruktura technologiczna”.
Docelowe branże dla oferowanej technologii
Technologia znajdzie zastosowanie w do transkrypcji notatek, nagrań, do dyktowania, w systemach obsługi klienta (wstępna obsługa klienta infolinii), w mediach społecznościowych (dodawanie napisów do wideo lub relacji), do systemów sterowania urządzeniami na podstawie komunikatów głosowych użytkownika itp.
Innowacyjność i korzyści z zastosowania technologii
Dzięki zastosowaniu uczenia maszynowego (ML) w procesie długotrwałego trenowania algorytmów modelu, oferowane rozwiązanie wyróżnia się ponadprzeciętną dokładnością i precyzją działania. Zapewnia wysoką jakość wyniku procesu rozpoznawania mowy, także w przypadku spotkań, w których udział bierze wielu uczestników (wysoka wierność transkrypcji).
Technologia została opracowana w latach 2022-2023, zatem model został opracowany na aktualnych zasobach językowych.
Poziom gotowości wdrożeniowej oferowanej technologii
TRL 8 – Zakończono badania i demonstrację ostatecznej formy technologii
Poziom gotowości wdrożeniowej oferowanej technologii (old)
Finalna technologia / prototyp
Imię i nazwisko konsultanta
Jacek Pietrzak
Numer telefonu stacjonarnego
(71) 320 43 42
Adres e-mail
jacek.pietrzak@pwr.edu.pl