Model akustyczny ASR

Imię i nazwisko konsultanta

Numer telefonu stacjonarnego

Adres e-mail

Jacek Pietrzak

(71) 320 43 42

jacek.pietrzak@pwr.edu.pl

Download PDF

Nazwa technologii

Model akustyczny ASR

Abstrakt (krótki opis oferowanej technologii)

Technologia pt. „Model akustyczny ASR” jest innowacyjnym, wysoce precyzyjnym rozwiązaniem do rozpoznawania mowy, w którym wykorzystuje się informacje akustyczne zawarte w sygnale mowy do rozpoznawania i interpretacji wypowiedzi. Po stosownym skonfigurowaniu może stanowić samodzielne narzędzie informatyczne, lub być elementem szerszego systemu. Wyróżnia się ponadprzeciętną dokładnością i precyzją działania.

Szczegóły technologiczne i opis oferowanej technologii

Technologia pt. „Model akustyczny ASR” jest wynikiem procesu uczenia maszynowego w obszarze rozpoznawania mowy. Ma ona postać bazy danych i algorytmów, reguł, wzorców i parametrów.

Model akustyczny ASR (Automatic Speech Recognition) to tryb działania systemu rozpoznawania mowy, w którym wykorzystuje się tylko informacje akustyczne zawarte w sygnale mowy do rozpoznawania i interpretacji wypowiedzi. W tym trybie nie uwzględnia się żadnych dodatkowych informacji semantycznych, takich jak kontekst czy znaczenie słów. Model akustyczny ASR koncentruje się na analizie właściwości akustycznych dźwięku, takich jak częstotliwość, intensywność i długość dźwięków, aby przetworzyć mowę na tekst. Jest to podstawowy tryb działania ASR, który jest stosowany w wielu aplikacjach, takich jak systemy rozpoznawania mowy w samochodach, systemy transkrypcji nagrań czy systemy dyktowania.

Technologia została zweryfikowana na podstawie opracowanego prototypowego serwisu WWW pozwalającego na rozpoznawanie zewnętrznych plików wav i mp3 oraz pracę interaktywną polegającą na mówieniu do podłączonego do komputera mikrofonu i natychmiastowym wyświetlaniu kolejnych rozpoznanych fraz. Dostępne są następujące funkcjonalności:

• rozpoznawania przygotowanych zewnętrznie plikóoe wav i mp3,

• detekcja aktywności głosowej i eliminacja segmentów nie zawierających mowy,

• diaryzacja,

• wyświetlanie wyników rozpoznawania w oknie przeglądarki i zapis ich do pliku,

• nagrywanie plików dżwiękowych z możliwością pauzy (składanie nagrania z wypowiedzi oddzielonych w czasie) i rozpoznawanie tak przygotowanego pliku,

• rozpoznawanie online z automatyczną segmentacją na chwilach ciszy,

• możliwość rozpoznawania w języku polskim, angielskim i niemieckim w trybie online.

Technologia została opracowana w projekcie „CLARIN – wspólne zasoby językowe i infrastruktura technologiczna”.

Docelowe branże dla oferowanej technologii

Technologia znajdzie zastosowanie w do transkrypcji notatek, nagrań, do dyktowania, w systemach obsługi klienta (wstępna obsługa klienta infolinii), w mediach społecznościowych (dodawanie napisów do wideo lub relacji), do systemów sterowania urządzeniami na podstawie komunikatów głosowych użytkownika itp.

Innowacyjność i korzyści z zastosowania technologii

Dzięki zastosowaniu uczenia maszynowego (ML) w procesie długotrwałego trenowania algorytmów modelu, oferowane rozwiązanie wyróżnia się ponadprzeciętną dokładnością i precyzją działania. Zapewnia wysoką jakość wyniku procesu rozpoznawania mowy, także w przypadku spotkań, w których udział bierze wielu uczestników (wysoka wierność transkrypcji).

Technologia została opracowana w latach 2022-2023, zatem model został opracowany na aktualnych zasobach językowych.

Poziom gotowości wdrożeniowej oferowanej technologii

TRL 8 – Zakończono badania i demonstrację ostatecznej formy technologii

Poziom gotowości wdrożeniowej oferowanej technologii (old)

Finalna technologia / prototyp

Imię i nazwisko konsultanta

Jacek Pietrzak

Numer telefonu stacjonarnego

(71) 320 43 42

Adres e-mail

jacek.pietrzak@pwr.edu.pl