Pochopenie rozpoznávania hlasu

Vyskúšajte Náš Nástroj Na Odstránenie Problémov





Predstavte si, že sedíte uvoľnene na pohovke a len prikáže vášmu počítaču, notebooku alebo mobilnému telefónu, aby vykonával jednoduché úlohy, ako je písanie písmen alebo vykonávanie niekoľkých príkazov. Je to možné?

To je samozrejme miesto, kde sa prejaví rozpoznávanie hlasu.




Podľa definície ide o proces rozpoznávania ľudskej reči a jej dekódovanie do textovej podoby.

Princíp

Základný princíp rozpoznávanie hlasu zahŕňa skutočnosť, že reč alebo slová hovorené ktoroukoľvek ľudskou bytosťou spôsobujú vibrácie vo vzduchu, známe ako zvukové vlny. Tieto spojité alebo analógové vlny sa digitalizujú a spracujú, potom sa dekódujú na príslušné slová a potom na príslušné vety.



rozpoznávanie hlasu

Súčasti systému rozpoznávania reči

Z čoho teda pozostáva základný systém rozpoznávania reči?

Súčasti systému rozpoznávania reči

  • Zariadenie zachytávajúce reč : Skladá sa z mikrofónu, ktorý prevádza signály zvukových vĺn na elektrické signály, a analógovo-digitálneho prevodníka, ktorý vzorkuje a digitalizuje analógové signály, aby získal diskrétne údaje, ktorým počítač dokáže porozumieť.
  • Modul digitálneho signálu alebo procesor : Vykonáva spracovanie surového rečového signálu, ako je konverzia vo frekvenčnej doméne, obnovuje iba požadované informácie atď.
  • Predspracované ukladanie signálu : Predbežne spracovaná reč je uložená v pamäti na vykonanie ďalšej úlohy rozpoznávania reči.
  • Referenčné vzory reči : Počítač alebo systém sa skladá z preddefinovaných rečových vzorov alebo šablón už uložených v pamäti, ktoré sa majú použiť ako referencia pri párovaní.
  • Algoritmus porovnávania vzorov : Neznámy rečový signál sa porovnáva s referenčným vzorom reči, aby sa určili skutočné slová alebo vzor slov.
Fungovanie systému

Teraz sa pozrime, ako celý systém skutočne funguje.


Fungovanie systému

  • Reč je možné vnímať ako akustický tvar vlny, tj. Informáciu o správe nesúce signál. Normálna ľudská bytosť s obmedzenou rýchlosťou pohybu svojich artikulátorov (rečových orgánov) môže produkovať reč priemernou rýchlosťou 10 zvukov za sekundu. Priemerná rýchlosť prenosu je asi 50-60 bitov za sekundu. To znamená, že v skutočnosti je v rečovom signáli potrebných iba 50 bitov za sekundu. Tento akustický priebeh sa prevádza mikrofónom na analógové elektrické signály. Analógovo-digitálny prevodník prevádza tento analógový signál na digitálne vzorky presným meraním vlny v diskrétnych intervaloch.
  • Digitalizovaný signál pozostáva z toku periodických signálov vzorkovaných rýchlosťou 16 000 krát za sekundu a nie je vhodný na vykonávanie skutočných rozpoznávanie reči proces, pretože vzor nie je možné ľahko nájsť. Na extrahovanie skutočných informácií sa signál v časovej doméne prevádza na signál vo frekvenčnej doméne. Toto vykonáva procesor digitálneho signálu pomocou techniky FFT. V digitálnom signáli komponent po každých 1/100thanalyzuje sa sekunda a pre každú takúto zložku sa počíta frekvenčné spektrum. Inými slovami, digitalizovaný signál je segmentovaný na malé časti frekvenčných amplitúd.
  • Každý segment alebo frekvenčný graf predstavuje rôzne zvuky vydávané ľuďmi. Počítač vykoná porovnanie neznámych segmentov s uloženou fonetikou konkrétneho jazyka. Toto priraďovanie vzorov sa vykonáva 3 spôsobmi:

Používanie akustického fonetického prístupu : Pri akustickom fonetickom prístupe sa všeobecne používa skrytý Markovov model. Tento model vyvíja nedeterministický model pravdepodobnosti rozpoznávania reči. Tento model sa skladá z dvoch premenných - skrytých stavov fonémov uložených v pamäti počítača a segmentu viditeľnej frekvencie digitálneho signálu. Každá fonéma má svoju vlastnú pravdepodobnosť a segment sa porovnáva s fonémou podľa pravdepodobnosti a porovnané fonémy sa potom zhromažďujú spolu, aby vytvorili správne slová podľa uložených gramatických pravidiel jazyka.

Použitie prístupu rozpoznávania vzorov : V prístupe rozpoznávania vzorov je systém trénovaný s konkrétnym rečovým vzorom pre akýkoľvek jazyk a neznámy rečový vzor je porovnávaný s referenčným rečovým vzorom stanovením vzdialenosti medzi signálmi pomocou techniky časovej deformácie.

Používanie umelej inteligencie : Prístup umelej inteligencie je založený na využití základných zdrojov poznatkov, ako je znalosť zvukov hovorených na základe spektrálnych meraní, znalosť správnych významových a syntaktických slov.

Faktory, od ktorých závisí systém rozpoznávania reči

Systém rozpoznávania reči závisí od nasledujúcich faktorov:

  • Izolované slová : Medzi po sebe idúcimi vyslovenými slovami musí byť pauza, pretože spojité slová sa môžu prekrývať, čo systému sťažuje porozumenie, kedy slovo začína alebo končí. Medzi nasledujúcimi slovami musí byť preto ticho.
  • Jeden reproduktor : Mnoho rečníkov, ktorí sa pokúšajú dať súčasne hlasový vstup, môže spôsobiť prekrývanie signálov a prerušenia. Väčšina použitých systémov rozpoznávania reči sú systémy závislé od reproduktorov.
  • Veľkosť slovnej zásoby : Pre zhodu vzorov je ťažké uvažovať o jazykoch s veľkou slovnou zásobou ako s jazykmi s malou slovnou zásobou, pretože v prípade druhej slovnej zásoby je šanca, že budete mať nejednoznačné slová, menšia.
Systém rozpoznávania reči v systéme Windows 7

Nasledujúce kroky by som odporučil všetkým osobám, ktoré používajú systém Windows 7 pre systém rozpoznávania reči

  • Otvorte Ovládací panel z ponuky Štart alebo kliknutím na ikonu.
  • Vyberte možnosť Zjednodušený prístup a potom kliknite na položku Rozpoznávanie reči.
  • Ďalej kliknite na nastavenie mikrofónu a z dostupných možností vyberte stolný mikrofón.
  • Ďalej sa zúčastnite rečového tutoriálu a postupujte podľa uvedených pokynov.
  • Potom trénujte svoj počítač, aby získal lepšie možnosti, aby počítač ukladal určitý tvar vášho rečového signálu. To urobíte kliknutím na možnosť „trénujte svoj počítač, aby vám lepšie porozumel“ a potom postupujte podľa pokynov.
  • Teraz spustite ikonu rozpoznávania reči a začnite diktovať svoju reč do počítača. Do počítačového slovníka môžete tiež pridať svoje vlastné slová.
Praktické systémy rozpoznávania reči: pomocou HM2007

Praktický systém na rozpoznávanie reči je možné skonštruovať pomocou technológie Speech Recognition IC HM2007 . HM2007 je 48-pinový integrovaný obvod, ktorý poskytuje funkciu rozpoznávania reči. Funguje v dvoch režimoch: manuálny režim alebo režim CPU. V obidvoch režimoch je IC najskôr trénovaný, aby rozpoznal slová tak, že používateľ vysloví každé slovo zodpovedajúcim číslom stlačeným na klávesnici. IC ukladá každý slovný signál do pamäťového miesta zodpovedajúceho danému slovu. Dátový výstup z integrovaného obvodu je prepojený s mikrokontrolérom, odkiaľ sa zobrazuje na LCD displeji.

Praktické systémy rozpoznávania reči

Normálne používame pre prevádzku HM2007 manuálny režim.

  • HM2007 sa skladá z kolíka RDY, ktorý je aktívnym nízkym kolíkom, čo znamená, že IC je pripravený na výcvikové účely.
  • Hlasový vstup bude poskytovaný cez mikrofón pripojený k MICIN pinu IC.
  • Integrovaný obvod je prepojený s klávesnicou, ktorá sa používa na zadanie čísla zodpovedajúceho každému slovu. IC pracuje v dvoch funkciách - Clear a Train. Po stlačení klávesu Train na klávesnici začne IC svoj tréningový proces.
  • Používateľ stlačí numerické tlačidlo pred stlačením funkčného klávesu „Vlak“ a povie požadované slovo mikrofónu.
  • IC vysiela vysoký signál na pin ME (Memory Enable), ktorý je pripojený k zodpovedajúcemu pinu ME SRAM. 8-bitový dátový signál zodpovedajúci stlačenému číslu je uložený v SRAM (externá RAM) cez externú zbernicu.
  • Po detekcii hlasového vstupu je pin RDY na logicky vysokej úrovni a IC sa dostane do stavu rozpoznávania, kde spustí proces rozpoznávania.
  • Výsledok procesu je daný cez dátovú zbernicu s pinom DEN (Data Enable) vysokým.
  • 8-bitové dáta môžu byť potom dané do mikrokontroléra cez sériový procesor rozhrania alebo najskôr zablokované pomocou západky IC 74HC573.
  • Mikrokontrolér je prepojený s LCD a je naprogramovaný tak, aby sa na displeji zobrazilo príslušné slovo.

Jediným opatrením, ktoré je potrebné urobiť, je nepoužívať homonymá (slová s podobným zvukom) a dbať na excitáciu hlasu.

Takže toto je všetko, ako a základný systém rozpoznávania reči Tvorba. Akékoľvek ďalšie vstupy sú vítané a sú doplnené.

Image Credit

  • Systém rozpoznávania reči od Gstatic
  • Manipulácia s priebehom reči pomocou Dadisp

Súčasti systému rozpoznávania reči úvodom do rozpoznávania reči a reproduktorov - Richard D. Peacocke a Daryl H. Graf