Program til stemmegenkendelse på russisk. Software til talegenkendelse

Måske den mest bekvemme teksttransskribering til Windows og Mac OS, som kombinerer en lydafspiller og en teksteditor. Funktionsprincippet er meget enkelt - indlæs en lydfil i programmet, lyt til den ved hjælp af genvejstaster på tastaturet (du kan tildele dem selv) og skriv samtidig tekst. Afspilningshastigheden og lydstyrken styres også ved hjælp af tastaturet. Dine hænder er således konstant på tastaturet, og der er ingen grund til at bruge musen eller skifte mellem forskellige programmer. Husk på, at den indbyggede teksteditor ikke genkender fejl og ikke har mange andre velkendte funktioner, såsom at skifte bindestreger i bindestreger. Du kan dog bruge andre teksteditorer sammen med Express Scribe ved at bruge tastaturgenveje til at styre lydafspilning. Programmet er shareware, fuld pris: 17-50 dollars.


02. Transcriber pro



Et russisksproget program til Windows, der giver dig mulighed for at lytte ikke kun til lyd, men også at se videofiler. Den indbyggede teksteditor har mulighed for at nedsætte tidsstempler og navne på samtalepartnere. Den resulterende tekst kan importeres til "interaktive transskriptioner", samt rettes som en del af et gruppeprojekt. Ansøgningen er kun tilgængelig med et årligt abonnement, prisen er 689 rubler om året.


03.RSplayer V1.4



Et simpelt program til behandling og transskribering af lydfiler med understøttelse af genvejstaster og mulighed for at skrive tekst i Microsoft Word. I modsætning til tidligere lignende programmer kan den downloades gratis, men den er ustabil på nye versioner af Windows.

04. Voco

En professionel Windows-applikation til tale-til-tekst konvertering. Understøtter stemmeskrivning i enhver testbrowser, har en stor samling af tematiske ordbøger og kræver ikke en internetforbindelse til talegenkendelse. Udvidede versioner "Voco.Professional" og "Voco.Enterprise" kan arbejde med færdige lydfiler. Den eneste ulempe er de høje omkostninger ved applikationen.


05. Dragediktat



Gratis mobilapp til dikteret talegenkendelse. Programmet kan genkende omkring 40 sprog og deres varianter, giver dig mulighed for at redigere tekst og sende den til mail, sociale netværk eller kopiere den til udklipsholderen. En internetforbindelse er påkrævet for at fungere.


06.RealSpeaker



En unik applikation, der ikke kun kan genkende lydfiler, men også live tale, der tales til kameraet. På grund af en speciel videoudvidelse aflæser RealSpeaker læbernes bevægelse og forbedrer derved talegenkendelsesprocessen med op til 20-30 % sammenlignet med andre lignende algoritmer. I øjeblikket understøtter applikationen 11 sprog: russisk, engelsk (amerikanske og britiske dialekter), fransk, tysk, kinesisk, koreansk og japansk, tyrkisk, spansk, italiensk og ukrainsk. Programmet distribueres betinget gratis, prisen afhænger af abonnementstidspunktet, den evige version koster omkring 2 tusind rubler.

I vores moderne, begivenhedsrige verden er hastigheden af ​​at arbejde med information en af ​​hjørnestenene for succes. Hvor hurtigt vi modtager, skaber og behandler information afhænger af vores arbejdsproduktivitet og produktivitet, og dermed vores umiddelbare materielle rigdom. Blandt de værktøjer, der kan øge vores arbejdsevner, er en vigtig plads optaget af programmer til at oversætte tale til tekst, hvilket kan øge hastigheden af ​​at skrive de tekster, vi har brug for, markant. I denne artikel vil jeg fortælle dig, hvad der er de populære programmer til at oversætte lydstemme til tekst, og hvad er deres funktioner.

De fleste af de nuværende programmer til at oversætte stemme til tekst er af betalt karakter, og de præsenterer en række krav til en mikrofon (i tilfælde af, hvor programmet er beregnet til en computer). Det anbefales kraftigt ikke at arbejde med en mikrofon, der er indbygget i et webcam, såvel som anbragt i en standard bærbar taske (kvaliteten af ​​talegenkendelse fra sådanne enheder er på et ret lavt niveau). Derudover er det ret vigtigt at have et roligt miljø, uden unødvendig støj, der direkte kan påvirke genkendelsesniveauet af din tale.

Samtidig er de fleste af disse programmer i stand til ikke kun at omdanne tale til tekst på en computerskærm, men også bruge stemmekommandoer til at styre din computer (starte programmer og lukke dem, modtage og sende e-mail, åbne og lukke websteder , og så videre).

Program til tale til tekst

Lad os gå videre til en direkte beskrivelse af programmer, der kan hjælpe med at oversætte tale til tekst.

Program "Laitis"

Det gratis russisksprogede program til stemmegenkendelse "Laitis" har en god kvalitet til at forstå tale og er ifølge dets skabere i stand til næsten fuldstændigt at erstatte brugerens velkendte tastatur. Programmet fungerer også godt med stemmekommandoer, så du kan udføre mange handlinger for at styre din computer med deres hjælp.

For dets drift kræver programmet den obligatoriske tilgængelighed af højhastighedsinternet på pc'en (programmet bruger stemmegenkendelsesnetværkstjenester fra Google og Yandex). Funktionerne i programmet giver dig også mulighed for at styre din browser ved hjælp af stemmekommandoer, for hvilke du skal installere en speciel udvidelse fra Laitis (Chrome, Mozilla, Opera) på din webnavigator.

"Dragon Professional" - transskription af lydoptagelser til tekst

I skrivende stund et digitalt engelsksproget produkt « Dragon Professional Individual "er en af ​​verdens førende inden for kvaliteten af ​​anerkendte tekster. Programmet forstår syv sprog (indtil videre er det kun Dragon Anywhere-mobilapplikationen, der fungerer med russisk på og), har stemmegenkendelse af høj kvalitet og kan udføre en række stemmekommandoer. Samtidig har dette produkt en eksklusivt betalt karakter (prisen for hovedprogrammet er 300 US-dollars, og for "hjemmeversionen" af Dragon Home-produktet skal køberen betale 75 US-dollars).

For dets drift kræver dette produkt fra Nuance Communications oprettelsen af ​​sin egen profil, som er designet til at tilpasse programmets muligheder til din stemmes specifikationer. Udover at diktere tekst direkte, kan du træne programmet til at udføre en række kommandoer og derved gøre din interaktion med computeren endnu mere kongruent og bekvem.

"RealSpeaker" - ultrapræcis talegenkender

Programmet til at omdanne stemme til tekst "RealSpeaker", ud over funktionsstandarden for programmer af denne art, giver dig mulighed for at bruge funktionerne i din pc's webcam. Nu læser programmet ikke kun lydkomponenten af ​​lyden, men fanger også bevægelsen af ​​talerens læbers bevægelser og genkender derved mere korrekt de ord, han udtaler.


"RealSpeaker" læser ikke kun lyd, men også den visuelle komponent af taleprocessen

Applikationen understøtter mere end ti sprog (inklusive russisk), giver dig mulighed for at genkende tale under hensyntagen til accenter og dialekter, giver dig mulighed for at transskribere lyd og video, giver dig adgang til skyen og meget mere. Programmet er shareware, for den betalte version skal du betale ganske rigtige penge.

"Voco" - programmet vil hurtigt oversætte stemmen til et tekstdokument

En anden stemme-til-tekst-konverter er det betalte Voco-digitale produkt, hvis pris på "hjemmeversionen" nu er omkring 1.700 rubler. Mere avancerede og dyre versioner af dette program - "Voco.Professional" og "Voco.Enterprise" har en række ekstra funktioner, hvoraf den ene er talegenkendelse fra lydoptagelser, der er tilgængelige for brugeren.

Blandt funktionerne i "Voco" bemærker jeg muligheden for at supplere programmets ordforråd (nu indeholder programmets ordforråd mere end 85 tusind ord), såvel som dets offline drift fra netværket, hvilket giver dig mulighed for ikke at være afhængig af din internetforbindelse.


Blandt fordelene ved "Voco" er programmets høje indlæringsevne

Applikationen tænder ganske enkelt - bare dobbeltklik på "Ctrl"-tasten Applikationen er helt gratis, den understøtter flere dusin sprog, inklusive russisk.

Konklusion

Ovenfor har jeg listet programmer til oversættelse af din lydoptagelse til tekst, beskrevet deres generelle funktionalitet og karakteristiske egenskaber. De fleste af disse produkter har normalt en betalt karakter, mens rækken og kvaliteten af ​​russisksprogede programmer er kvalitativt ringere end deres engelsksprogede modstykker. Når du arbejder med sådanne applikationer, anbefaler jeg at være særlig opmærksom på din mikrofon og dens indstillinger - dette er vigtigt i processen med talegenkendelse, fordi en dårlig mikrofon kan ophæve selv den højeste kvalitetssoftware af den type, jeg har overvejet.

Der er to typer talegenkendelsesprogrammer:

1. Bundet til højttaleren - disse programmer lærer konstant og begynder med tiden at forstå "deres herres" stemme bedre og bedre. Jo oftere brugeren arbejder i programmet, jo bedre forstår hun ham. Heldigvis sker indlæringen ret hurtigt – efter cirka 20 minutter vil programmet lære at forstå dig ret godt.

2. uafhængig af højttaleren - du kan begynde at tale med det samme - vil programmet reagere på stemmekommandoer. I modsætning til den første type behøver disse programmer ikke at lære at forstå dig. Tværtimod skal du lære at tale, så programmet forstår dig.

Hvad bruges et talegenkendelsesprogram på en pc til?

Tro ikke, at hvis du installerer et talegenkendelsesprogram, så har du ikke længere brug for et tastatur og en mus, men det vil være meget lettere at arbejde på en pc.

1. Diktering - ved hjælp af talegenkendelsesprogrammer dikterer mange brugere teksterne til dokumenter. Denne mulighed er relevant, for eksempel for læger, der udfører en undersøgelse (hvor deres hænder normalt er beskæftiget) og samtidig registrerer resultaterne. For en almindelig bruger, der af en eller anden grund har svært ved at skrive tekst (eller bare er for doven), kan det også være nyttigt.

2. Indtastning af kommandoer - PC-brugere kan bruge "genkendelsen" til at indtaste kommandoer, det vil sige, at det talte ord vil blive opfattet af systemet som et museklik. Brugeren kommandoer: "Åbn fil", "Send mail" eller "Nyt vindue", og computeren udfører den relevante handling. Det gælder især for mennesker med handicap – i stedet for mus og tastatur vil de kunne styre computeren med stemmen.

Hvad kræves for talegenkendelse?

1. Talegenkendelsesprogram - Engelsktalende Windows-brugere kan f.eks. bruge Dragon Naturally Speaking eller IBM Via Voice. Det russiske sprog forstås af programmerne Gorynych og Dictograph. Talegenkendelse er allerede indbygget i Windows Vista-operativsystemet.

2. Mikrofon eller headset (en hybrid af en øresnegl og en mikrofon) - til at "slå" ord ind i computeren.

3. Tilstrækkelig kraftig computer - for at talegenkendelsesfunktionen kan fungere, behøver computeren ikke at være ultrahurtig. 1 GB RAM er nok (til Windows Vista er det bedre at have 2 GB) og en processor-clockhastighed på mindst 1 GHz.

Hvilke enheder bruger talegenkendelse?

Talegenkendelsesfunktionen kan bruges ikke kun i en pc, men også i mange andre enheder. Dette gælder især, hvis "gadgetten" har et kompakt tastatur med bittesmå taster (eller slet ingen).

1. Mobiltelefoner – i flere år har der været modeller med mulighed for stemmestyring. Men dette har intet at gøre med stemmegenkendelse - enheden oversætter ikke stemmen til tekst, men sammenligner den talte sætning med den forudindspillede (sidstnævnte er en "reference" og kaldes normalt et "stemmemærke"). En stemmekode kan svare til en post i adressebogen (stemmeopkald) eller et menupunkt (stemmestyring). Hvis telefonen ikke i første omgang har de passende funktioner, vil det være umuligt at "træne" den.

2. Mobile navigatorer - i nye navigationsenheder, for eksempel Tom Tom Go 720T, kan chaufføren indtaste destinationen med stemmen. Hvis du udtaler ordene klart og om muligt i stilhed, så fungerer denne funktion meget godt. Selvom denne handling tager samme tid som tastaturinput, er det sikrere og mere bekvemt at bruge stemmestyring under kørslen. Sandt nok kan man slet ikke undvære hænder - for at starte en stemmekommando skal du trykke på skærmknappen.

3. Biler - nogle nye bilmærker, såsom Mercedes, Audi, Toyota, Ford eller BMW, kan styres ved hjælp af stemme (selvom antallet af kommandoer er begrænset). På nogle BMW-modeller aktiveres f.eks. stereo- eller navigationssystemets stemmestyringsfunktioner efter at have trykket på knappen på rattet (se figur).

4. Multimediediske til at lære fremmedsprog - nogle læringsprogrammer kontrollerer den korrekte udtale. Programmet beder dig læse en bestemt sætning, og efter at have behandlet resultatet ved hjælp af talegenkendelsesfunktionen, rapporterer det, om alt er i orden med din udtale.

Hvilke problemer opstår, når man arbejder med "genkendelses"-programmer?

At styre enheder eller diktere tekster er gjort godt nok, men desværre ikke perfekt. Og det skyldes en række årsager:

1. Ord lyder ikke altid ens – den største vanskelighed ved talegenkendelse er, at ingen vil udtale det samme ord på samme måde, selvom de prøver meget hårdt.

2. Alle taler forskelligt - så et talegenkendelsesprogram vil fungere mere overskueligt, hvis en ny bruger "øver" det lidt først. Sandt nok er dette ikke altid muligt, og nogle gange er det ikke engang nødvendigt, for eksempel når du bruger programmer, der ikke er bundet til samtalepartneren. Mange talegenkendelsesprogrammer kan tune ind på en ny bruger automatisk.

3. Baggrundsstøj kan forvrænge lyden af ​​det talte ord betydeligt. Dette begrænser i høj grad funktionerne for talegenkendelse, og på overfyldte eller støjende steder gør det fuldstændig umuligt.

4. Hurtig tale - nogle brugere taler meget hurtigt - ordene smelter næsten sammen. Samtalepartneren vil nemt forstå sådan en tale, men programmet vil være for hårdt til sådan en opgave.

5. Ord med samme (eller meget lignende) lyd - det er især svært for talegenkendelsesprogrammer med såkaldte homofoner - ord, der udtales næsten ens, men staves forskelligt ("lez" og "skov", "mund" og "slægt"). Programmet skal bestemme betydningen af ​​sådanne ord i henhold til sætningens kontekst.

Hvad er udsigterne for talegenkendelsesfunktionen?

I mobiltelefoner vil talegenkendelsesfunktionens rolle øges markant, fordi det er meget trættende at skrive tekst på små mobiltelefontastaturer.

1. Diktering af SMS-beskeder - snart behøver du ikke skrive beskeder på din telefon - du kan bare diktere. Samsung lover at introducere denne funktion i nogle modeller af sine telefoner (de skulle dukke op på markedet i den nærmeste fremtid).

2. Oversættelse - ved de olympiske lege i 2008 i Beijing forventes en mobiltelefon med indbygget oversætter at dukke op. Hvis du, mens du er i Mellemriget, for eksempel ønsker at spise på en restaurant, så vil det være nok for dig at sige din ordre på russisk på din mobiltelefon - alt vil blive oversat til kinesisk, og en elektronisk stemme fra kl. taleren vil overføre ordren til tjeneren.

Det kan antages, at et stigende antal enheder over tid vil forstå den menneskelige stemme. Så bliv ikke overrasket, hvis din kaffemaskine en morgen ikke kun spørger dig, hvad du skal lave - cappuccino eller espresso - men også forstår dit svar.

Talegenkendelse i Windows Vista

Windows Vista har et talegenkendelsesprogram. Desværre forstår denne komponent kun engelsk, tysk, fransk, spansk, japansk og kinesisk. Når komponenten startes for første gang (du skal vælge elementerne til nem adgang og talegenkendelse i kontrolpanelet), åbnes vinduet med læringsguiden, som vil gøre dig bekendt med principperne for Windows stemmestyring i en halv time. Efter at have gennemført et par øvelser, vil du lære at diktere og styre Windows ved hjælp af stemmekommandoer. Fordi talegenkendelsessoftwaren er højttalerafhængig, vil den lære din stemme på samme tid. Efter at have mestret den indledende del, vil Windows svare på dit opkald: "Lyt!" og begynde at modtage stemmekommandoer. Ulempe: stemmeinput virker kun for Microsoft-programmer (for eksempel til selve Windows, Word eller Internet Explorer). Når du bruger andre programmer (såsom Open Office eller Firefox), vil computeren være "døv".

Opdateret: mandag den 31. juli 2017

Hvad har den semi-fantastiske idé om at tale med en computer at gøre med professionel fotografering? Næsten ingen, hvis du ikke er fan af ideen om den uendelige udvikling af hele menneskets tekniske miljø. Forestil dig et øjeblik, at du giver stemmeordrer til dit kamera om at ændre brændvidden og gøre eksponeringskompensation til et halvt trin plus. Fjernbetjening af kameraet er allerede implementeret, men der skal du lydløst trykke på knapperne, og her er en hørefotik!

Det er blevet en tradition at nævne nogle fantastiske film som et eksempel på menneskelig stemmekommunikation med en computer, ja, i hvert fald "Space Odyssey 2001" instrueret af Stanley Kubrick. Der fører den indbyggede computer ikke kun en meningsfuld dialog med astronauterne, men kan læse læber som en døv. Med andre ord lærte maskinen at genkende menneskelig tale uden fejl. Måske vil nogen finde fjernstemmestyring af kameraet overflødig, men mange vil gerne have denne sætning "Tag os væk baby" og et billede af hele familien på baggrund af en palme er klar.

Nå, her hyldede jeg traditionen, lidt fantaseret. Men når jeg taler fra bunden af ​​mit hjerte, var denne artikel svær at skrive, og det hele startede med en gave i form af en smartphone med Android 4 OS. Denne model HUAWEI U8815 har en lille fire-tommer berøringsskærm og et tastatur på skærmen. Det er noget usædvanligt at skrive på det, men det viste sig ikke at være specielt nødvendigt. (billede 01)

1. Stemmegenkendelse i en smartphone på Android OS

Mens jeg prøvede et nyt legetøj, lagde jeg mærke til en mikrofongrafik i søgefeltet. Google og på tastaturet i Notes. Tidligere var jeg ikke interesseret i, hvad dette symbol står for. Jeg havde samtaler i Skype og skrev bogstaver på tastaturet. Dette er, hvad de fleste internetbrugere gør. Men som de senere forklarede mig, i en søgemaskine Google en stemmesøgning på russisk blev tilføjet, og der dukkede programmer op, der giver dig mulighed for at diktere korte beskeder, når du bruger en browser Chrome.

Jeg sagde en sætning på tre ord, programmet identificerede dem og viste dem i en celle med blå baggrund. Der var noget at blive overrasket over, for alle ordene var stavet rigtigt. Hvis du klikker på denne celle, vises sætningen i tekstfeltet på Android-notesblokken. Så han sagde et par sætninger og sendte en besked til assistenten via SMS.


2. Kort historie om stemmegenkendelsesprogrammer.

Det var ikke en opdagelse for mig, at moderne præstationer inden for stemmestyring giver dig mulighed for at give kommandoer til husholdningsapparater, en bil, en robot. Kommandotilstand blev introduceret i tidligere versioner af Windows, OS/2 og Mac OS. Jeg har set taleprogrammer, men hvad nytter det? Måske er det min ejendommelighed, at det er lettere for mig at tale end at skrive på tastaturet, og på en mobiltelefon kan jeg slet ikke skrive noget. Du skal optage kontakter på en bærbar computer med et normalt tastatur og overføre via USB-kabel. Men bare at tale ind i mikrofonen og computeren selv skrev teksten uden fejl - det var en drøm for mig. Atmosfæren af ​​håbløshed blev understøttet af diskussioner på foraene. Overalt havde de sådan en trist tanke:

"Men i praksis, indtil nu, eksisterer programmer til ægte talegenkendelse (og endda på russisk) praktisk talt ikke, og de vil naturligvis ikke blive oprettet snart. Desuden er selv den omvendte opgave med genkendelse - talesyntese, som, det ser ud til, er meget enklere end genkendelse, ikke blevet fuldstændig løst. (ComputerPress №12, 2004)

"Der er ingen normale talegenkendelsesprogrammer (ikke kun russiske) den dag i dag, da opgaven er ret svær for en computer. Og det værste er, at mekanismen for ordgenkendelse af en person ikke er blevet realiseret, så der er ikke noget at bygge på, når man laver genkendelsesprogrammer. (En anden diskussion på forummet).

Samtidig viste anmeldelser af engelsksprogede tekstinputprogrammer klare succeser. For eksempel, IBM ViaVoice 98 Executive Edition havde en grundlæggende ordbog på 64.000 ord og mulighed for at tilføje det samme antal af deres egne ord. Procentdelen af ​​ordgenkendelse uden træning af programmet var omkring 80 %, og med efterfølgende arbejde med en specifik bruger nåede den 95 %.

Af programmerne til at genkende det russiske sprog er det værd at bemærke "Gorynych" - en tilføjelse til det engelsksprogede Dragon Dictate 2.5. Om søgningen og derefter "kampen med fem Gorynychs" vil jeg fortælle i anden del af anmeldelsen. Jeg fandt først "den engelske drage".

3. Programmet til genkendelse af kontinuerlig tale "Dragon Naturally Speaking"

Den moderne version af virksomhedens program Nuance viste sig at være sammen med min gamle ven fra Minsk Institut for Fremmedsprog. Hun havde den med fra en udlandsrejse og købte den, da hun tænkte, at hun kunne være "computersekretær". Men noget virkede ikke, og programmet forblev næsten glemt på den bærbare computer. På grund af manglen på nogen forståelig oplevelse, måtte jeg selv gå til min ven. Al denne lange introduktion er nødvendig for en ordentlig forståelse af de konklusioner, jeg har draget.

Det fulde navn på min første drage var: . Programmet er på engelsk og alt i det er overskueligt selv uden en manual. Det første trin er at oprette en profil af en bestemt bruger for at bestemme funktionerne i lyden af ​​ord i hans præstation. Hvilket jeg gjorde - talerens alder, landet, ejendommelighederne ved udtalen er vigtige. Mit valg er: alder 22-54, engelsk UK, standardudtale. Dernæst kommer et par vinduer, hvor du sætter din mikrofon op. (billede 04)

Det næste trin i seriøse talegenkendelsesprogrammer er træning i en bestemt persons særlige udtale. Du opfordres til at vælge tekstens karakter: mit valg er en kort instruktion om diktat, men du kan også "bestille" en humoristisk historie.

Essensen af ​​denne fase af arbejdet med programmet er ekstremt enkel - teksten vises i vinduet, over den er en gul pil. Med korrekt udtale bevæger pilen sig gennem sætningerne, og i bunden er der en træningsstatuslinje. Engelsk samtale var temmelig glemt af mig, så jeg bevægede mig med besvær. Tiden var også begrænset – computeren var trods alt ikke min, og jeg måtte afbryde træningen. Men en ven sagde, at hun tog testen på mindre end en halv time. (billede 05)

Da jeg nægtede at tilpasse programmet til min udtale, gik jeg til hovedvinduet og startede den indbyggede teksteditor. Han talte adskilte ord fra nogle tekster, som han fandt på computeren. De ord, han sagde rigtigt, programmet udskrev, dem, han sagde dårligt, erstattet med noget "engelsk". Efter at have udtalt kommandoen "slet linje" på engelsk klart, opfyldte programmet den. Det betyder, at jeg læser kommandoerne korrekt, og programmet genkender dem uden forudgående træning.

Men det var vigtigt for mig, hvordan denne "drage" skriver på russisk. Som du forstod fra den foregående beskrivelse, kan du, når du træner programmet, kun vælge engelsk tekst, der er simpelthen ingen russisk tekst der. Det er klart, at det ikke vil virke at træne anerkendelsen af ​​russisk tale. På det næste billede kan du se, hvilken sætning programmet skrev, da det udtalte det russiske ord "Hej". (billede 06)

Resultatet af kommunikationen med den første drage viste sig at være lidt komisk. Hvis du omhyggeligt læser teksten på den officielle hjemmeside, kan du se den engelske "specialisering" af dette softwareprodukt. Derudover læser vi ved indlæsning i programvinduet "Engelsk". Så hvorfor var alt dette nødvendigt? Det er klart, at fora og rygter har skylden ...

Men der er også en nyttig erfaring. Min ven bad om at se tilstanden af ​​hendes bærbare computer. På en eller anden måde begyndte han langsomt at arbejde. Dette er ikke overraskende - systempartitionen havde kun 5% ledig plads. Mens jeg slettede unødvendige programmer, så jeg, at den officielle version fyldte mere end 2,3 GB. Vi skal bruge dette nummer senere. (billede.07)



Anerkendelse af russisk tale, som det viste sig, var ikke en triviel opgave. I Minsk lykkedes det mig at finde "Gorynych" fra en ven. Han ledte længe efter skiven i sine gamle murbrokker, og ifølge ham er der tale om en officiel publikation. Programmet blev installeret med det samme, og jeg fandt ud af, at dets ordbog indeholder 5000 russiske ord plus 100 kommandoer og 600 engelske ord plus 31 kommandoer.

Først skal du sætte mikrofonen op, hvilket jeg gjorde. Så åbnede jeg ordbogen og tilføjede ordet "undersøgelse" fordi det ikke var i programmets ordbog. Jeg forsøgte at tale klart, i en monoton. Til sidst åbnede jeg programmet Gorynych Pro 3.0, tændte for dikteringstilstanden og fik denne liste over "ord, der lyder ens i lyd". (billede.09)

Resultatet undrede mig, fordi det klart adskilte sig til det værre fra arbejdet med en Android-smartphone, og jeg besluttede at prøve andre programmer fra " Google Chrome Webshop". Og han udskød at beskæftige sig med "gorynych-slangerne" til senere. Jeg tænkte dette udsættelse handling i den oprindelige russiske ånd

5. Googles stemmefunktioner

For at arbejde med stemme på en almindelig computer med OS Windows, skal du installere en browser Google Chrome. Hvis du arbejder på internettet i det, så kan du nederst til højre klikke på linket til softwarebutikken. Der fandt jeg gratis to programmer og to udvidelser til stemmetekstinput. Programmerne hedder "Voice Notebook" Og "Voysnot - stemme til tekst". Efter installationen kan de findes på fanen "Ansøgninger" din browser "Chromium". (billede.10)

Udvidelserne kaldes "Google Voice Search Hotword (Beta) 0.1.0.5" Og "Stemmeinput tekst - Speechpad.ru 5.4". Efter installationen kan de slås fra eller slettes på fanen "Udvidelser".(billede.11)

VoiceNote. Dobbeltklik på programikonet på programfanen i Chrome-browseren. En dialogboks åbnes som vist på billedet nedenfor. Ved at klikke på mikrofonikonet taler du korte sætninger ind i mikrofonen. Programmet sender dine ord til talegenkendelsesserveren og skriver teksten i vinduet. Alle ord og sætninger vist i illustrationen blev skrevet i første forsøg. Denne metode virker naturligvis kun med en aktiv internetforbindelse. (billede.12)

Stemmenotesblok. Hvis du kører programmet på applikationsfanen, åbnes en ny fane på internetsiden Speechpad.ru. Der er en detaljeret vejledning i, hvordan du bruger denne service og en kompakt formular. Sidstnævnte er vist på illustrationen nedenfor. (billede.13)

Stemmeinput tekst giver dig mulighed for at udfylde tekstfelterne på internetsider med din stemme. For eksempel gik jeg til min side Google+. I det nye meddelelsesindtastningsfelt skal du højreklikke og vælge "SpeechPad". Det pinkfarvede inputfelt siger, at du kan diktere din tekst. (billede.14)

Google Stemmesøgning giver dig mulighed for at søge med stemmen. Når du installerer og aktiverer denne udvidelse, vises et mikrofonsymbol i søgelinjen. Når du trykker på den, vises et symbol i en stor rød cirkel. Sig blot søgesætningen, og den vises i søgeresultaterne. (billede.15)

Vigtig bemærkning: for at mikrofonen skal fungere med Chrome-udvidelser, skal du give adgang til mikrofonen i browserindstillingerne. Den er som standard deaktiveret af sikkerhedsmæssige årsager. Gå ind Indstillinger→Personlige data→ Indstillinger for indhold. (Klik på for at få adgang til alle indstillinger i slutningen af ​​listen Vis avancerede indstillinger). En dialogboks åbnes Indstillinger for sideindhold. Vælg et element nede på listen Multimedie→mikrofon.

6. Resultater af arbejdet med russiske talegenkendelsesprogrammer

En lille erfaring med at bruge tekstinputprogrammer med stemme viste en fremragende implementering af denne funktion på serverne hos en internetvirksomhed Google. Uden forudgående træning genkendes ord korrekt. Dette indikerer, at problemet med russisk talegenkendelse er løst.

Nu kan vi sige, at resultatet af udvikling Google vil være et nyt kriterium for vurdering af produkter fra andre producenter. Jeg vil gerne have, at genkendelsessystemet fungerer offline uden at kontakte virksomhedens servere – det er mere bekvemt og hurtigere. Men hvornår et uafhængigt program til at arbejde med en kontinuerlig strøm af russisk tale vil blive frigivet, er ukendt. Det er dog værd at antage, at med muligheden for at træne denne "skabelse" vil være et reelt gennembrud.

Programmer af russiske udviklere "Gorynych", "Diktograf" Og "Bekæmpe" Jeg vil uddybe i anden del af denne anmeldelse. Denne artikel blev skrevet meget langsomt af den grund, at søgningen efter originale diske nu er vanskelig. I øjeblikket har jeg allerede alle versioner af den russiske stemme-til-tekst-genkendelsessoftware, undtagen Combat 2.52. Ingen af ​​mine venner eller kolleger har dette program, og jeg har selv kun et par rosende anmeldelser på foraene. Sandt nok var der sådan en mærkelig mulighed - download "Combat" via SMS, men jeg kan ikke lide det. (billede 16)


Et kort videoklip viser dig, hvordan talegenkendelse fungerer i en smartphone med Android OS. En funktion ved stemmeopkald er behovet for at oprette forbindelse til Googles servere. Derfor burde internettet fungere for dig

Pris - $199,99
Udvikler ScanSoft
Hjemmeside www.scansoft.com
Størrelse nr
Download side Ingen
+
Den bredeste funktionalitet; arbejde i alle Windows-applikationer; kraftfulde ordforrådsdatabaser
Høj pris
! Den bedste talegenkendelsessoftware, der findes

Absolut det bedste talegenkendelsesmodul derude! I løbet af sin lange historie er Dragon kommet hele vejen fra soldat til marskal; nej, måske stadig ikke op til marskalken, men han fortjente bestemt titlen som hærens general. Hele algoritmen for at arbejde med programmet er ekstremt simpel - vi forbinder hovedtelefoner og en mikrofon til de tilsvarende udgange fra lydkortet og kører selve værktøjet. Først vil brugeren blive bedt om at kalibrere lydniveauet fra mikrofonen og diktere computeren en række færdige tekster for at finjustere Dragon Naturally Speaking til din klangfarve, intonation og udtale. Og endelig en interaktiv tutorial, hvor brugeren bliver undervist i grundlæggende stemmekommandoer.

Det er værd at bemærke, at pc'en ikke er en levende samtalepartner, og han kan ikke udtænke de "slugte" stavelser eller forstå en uforståelig sætning. Ikke mindre vigtigt er talerens egen accent - sådan et engelsk niveau, som for eksempel lyder på forskellige internationale videnskabelige konferencer, er i princippet uegnet til arbejde. På den anden side er der altid mulighed for selvlæring: Hvis Dragon ikke vil genkende et ord på nogen måde, skal du ikke være for doven til at kigge ind i Lingvo og udtale det med den korrekte transskription. Jeg forsikrer dig om, at du om højst en uge eller to ikke kun vil diktere kilobytes af tekster med lethed, men også fremvise ægte engelsk udtale blandt dine bekendte.

Stadig ikke tilfreds med genkendelseskvaliteten? Tjek dit lokale Accuracy Center, som vil optimere din brugerprofil og lære dig, hvordan du tilføjer populære neo-logismer til dit ordforråd. Mere eksotiske handlinger er også mulige, såsom genkendelse af tekstindholdet i en wav-fil (inklusive fra Pocket PC eller direkte fra linjeudgangen på et lydkort). Derudover kan Dragon Naturally Speaking starte forskellige programmer, skifte mellem dem og endda styre en række af deres funktioner (for eksempel starte/pause musikafspilning i medieafspilleren eller arbejde direkte med menuen). Nå, de foretrukne og professionelle versioner inkluderer desuden deres egen Real-Speech 2-talemotor, en af ​​de mest avancerede i dag.

Men lad os vende tilbage til talen. Det er især glædeligt, at du ikke kun kan diktere tekst i den oprindelige DragonPad-tekstprocessor, men også i enhver anden lignende applikation - MS Word, Outlook Express, Internet Explorer og Corel WordPerfect. Med samme succes fungerer programmet med ICQ, netværkschat (Netværksassistent) og andre instant messengers; dog bliver nogle kommandoer utilgængelige, men at sende en besked, endda Gå ind du behøver ikke klikke, bare sig: "Nyt afsnit" - så gør ICQ det automatisk. I mere specialiserede applikationer, især i det samme Word, bruges yderligere kommandoer: tekstformatering, stavning, redigering - og det hele udelukkende gennem mundtlig tale. Hvis standardsættet af ordrer ikke var nok, kan du altid oprette din egen og derved udvide funktionaliteten af ​​Dragon yderligere. Det kræver en lille indsats, og det er ganske muligt at skrive en side med tekst uden nogen redigeringer. Det vigtigste er den rigtige kombination af intonation og selvfølgelig udtale. Træk ikke sætninger ud, men skriv ikke som et maskingevær, ellers vil procentdelen af ​​korrekt forstået materiale med sikkerhed tendere til nul. Desuden er det slet ikke nødvendigt konstant at kigge i ordbogen - selvom du ikke udtalte en sætning korrekt (for eksempel, jeg er meget glad), kendt af programmet, vil den automatisk "gætte" teksten. Påfaldende? Det hele handler om det enorme ordforråd, som sammen med avanceret talegenkendelsesteknologi ikke giver konkurrenterne nogen chance. Hvordan kan man ikke huske de tidlige versioner af Dragon, som forfatteren af ​​disse linjer led meget af i fortiden, men ikke opnåede værk af høj kvalitet fra dem ...

Intelligent stemmegenkendelsessystem (IVOS) 2.0.2A
Shareware (30 dages prøveperiode, registrering - $50)
ComunX udvikler
Hjemmeside www.ivos.biz
Størrelse 2,69 MB
Download side ftp://ftp.download.com/
pub/ppd/1007091810190380/
setup_ivos.exe
+
Den mikroskopiske størrelse af fordelingen; stor funktionalitet
Talestenografitilstand er endnu ikke oppe på Dragons niveau
! En af de bedste hjælpeprogrammer på dette område

Det mest beskedne (efter størrelsen af ​​distributionssættet) program i anmeldelsen viste sig at være overraskende værdigt og retfærdiggjorde stort set dets højlydte navn. Årsagen til dette er dens universalitet, designet til fuldstændigt at udrydde midlerne til "manuel" input af information. Så IVOS giver dig mulighed for at: a) genkende tale og konvertere den til tekst i enhver Windows-kompatibel tekstprocessor; b) administrere din pc med en række stemmekommandoer, samt oprette din egen; c) stemme-e-bøger ved hjælp af eksterne stemmemotorer. Plus, selvfølgelig, småting som at udtrække tekst fra Wav-filer, et praktisk programkontrolpanel, der ikke belaster skærmen, og en overkommelig (i forhold til den samme Dragon) pris. Når brugeren er registreret, har han adgang til VoiceTouch-teknologi, som gør det muligt at lære pc'en dine egne verbale kommandoer.

Effektiviteten af ​​kommandoudførelsen er overraskende høj - måske endda bedre end Realize Voice. Men niveauet af genkendelse af "forelæsninger" vil være lavere, hvilket ikke er mærkeligt: ​​Det er én ting at forstå et par ord, og noget andet at forstå en hel sætning. Det skal bemærkes, at IVOS, ligesom mange andre talegenkendelsesprogrammer, bortset fra Dragon, bruger Speech API-modulet fra Microsoft til sådanne formål, og dets ydeevne på dette område afhænger direkte af denne virksomheds kreative succes. Ikke desto mindre er det muligt at opnå højkvalitetsarbejde fra IVOS allerede nu, efter at have læst alle de træningstekster, der findes på dets lager, til programmet. Selvfølgelig vil hun i sidste ende ikke nå niveauet for Dragon Naturally Speaking, men hun er ganske i stand til at skrive ikke alt for komplicerede dokumenter. Og hvis du regelmæssigt genopfylder brugerordbogen, vil der ikke være særlige problemer med videnskabelige termer. Sandt nok opstår der et dilemma her - i ugen, der skal bruges på at lære værktøjet alle forviklingerne ved at arbejde med tale, er det ganske muligt at mestre metoden med blind skrivning med ti fingre på tastaturet i et accelereret tempo . .. På den anden side vil kvalifikationen for en pc-bruger kun stige, hvis han ejer flere metoder til at indtaste oplysninger på en computer.

Realiser Voice 4.0

Realiser Voice 4.0
Shareware (15 dages prøveperiode, registrering - $49,00)
Udvikler Realize Software Corporation
Websted www.realizesoftware.com
Størrelse 55 MB
Download side
www.realizesoftware.com/
download/RzRV40download.exe (webinstallationsprogram)
+
Uhøjtidelig for brugerens udtale; et meget bredt sæt af kommandoer
Kvaliteten af ​​arbejdet kunne stadig være bedre; kun installeret på den engelske version af Windows
! Styr din pc med kun din stemme

Realize Voice er, i modsætning til den tidligere anmeldte Dragon Naturally Speaking, ikke særlig egnet til stenografi (selvom en sådan funktion er i sit arsenal), men den klarer stemmekommandoer glimrende. Bemærkelsesværdigt nok har du ikke brug for usædvanlig dyb viden inden for engelsk - takket være det smarte modul i den heuristiske analysator vil programmet nemt finde et fælles sprog med næsten enhver højttaler. Udvalget af Realize Voice-funktioner er ret bredt: fra at starte eksekverbare filer og programgenveje til at arbejde med korrespondance og komplekse makroer. Som i andre lignende programmer behøver brugeren kun en tilsluttet mikrofon og et par minutter for at komme til bunds i tingene. Og før du fortsætter med den faktiske kommunikation med værktøjet, er det værd at udpege omfanget af arbejdet for det. Som standard falder systemmenugenveje i denne kategori, skrivebord, mappeindhold Favoritter og hurtigstartsbjælker samt nyligt åbnede dokumenter og programmer. Hele processen er fuldautomatisk og udføres bogstaveligt talt øjeblikkeligt. Det er rigtigt, at nogle gener er forårsaget af umuligheden af ​​at bruge tal i navnet på kommandoer - for eksempel vil det være muligt at starte DOOM 3 ved hjælp af en stemmekommando kun ved at omdøbe dens genvej til "DOOM Three". Det samme gælder i øvrigt for det kyrilliske alfabet - ikke sådan en sjov udsigt, vel? Men i et sådant tilfælde kan man altid ty til manuel konfiguration af programmet, direkte med angivelse af stien til den fil/dokument/grafiske billede, man er interesseret i osv. Her er filnavnet og dets koordinater ligegyldigt - selv hvis det er abvgd.exe, ja And Desktop du behøver ikke at forkæle. Jeg var også meget tilfreds med sættet af indbyggede systemkommandoer til at arbejde med Windows - selvom det ikke er for stort, kan det flytte mellem åbne vinduer, efterligne handlingen af ​​de mest almindelige taster ( Mellemrumstasten, Indsæt, Hjem osv.), er det ganske muligt at slukke og blokere systemet med dets hjælp.

Lidt om makroer. Værktøjet giver dig mulighed for at kombinere en hel række operationer under én kommando - fra indtastning af tegn fra tastaturet og systemkommandoer til talesyntese ved hjælp af den indbyggede stemmemotor. Sandt nok er sådan en idyl som at optage en cd ved hjælp af en enkelt sætning stadig langt væk, men tiden vil vise ... Det vigtigste er, at du allerede nu (og ikke uden held!) kan "styre" dit kæledyr uden nogen anakronismer som en mus og et tastatur. Prøv det - du vil ikke fortryde det!

Voice Studio 1.4.6

Voice Studio 1.4.6
Shareware (7 dages prøveperiode, registrering - $20,97)
Udvikler Ultimate Interactive Desktop's
Hjemmeside www.voicestudio.us
Størrelse 57 MB
Download side
ftp://ftp.voicestudio.us/
pub/dl2/vssetup.exe
+
Fremragende funktionalitet; tilstedeværelsen af ​​en "levende" animeret karakter; meget lav pris
MS SAPI bruges til talegenkendelse; ret højt ressourceforbrug
! Fantastisk tilføjelse til Dragon til PC stemmestyring

Måske et af de få, hvis ikke det eneste sådanne program, hvor vores virtuelle samtalepartner på den anden side af skærmen endelig fik en materiel form. Og selvom MS Agent-teknologien, som bruges til disse formål, næppe kan kaldes en prototype af kunstig intelligens, har den alle forudsætninger for dette. Den animerede assistent er ikke kun udstyret med en vis grad af uafhængighed, men ved også, hvordan man reagerer på en række standardsætninger (som "Hej!", "Hvordan har du det", "Dårlig computer" osv.). Hvis det ønskes, er det nemt at genopbygge sit ordforråd og fraseologiske bestand, og derudover indstille sine handlinger afhængigt af "stemningen". Selvom en sådan snak med en pc vil være begrænset til omfanget af programmets viden, er der ingen, der gider udvide det næsten i det uendelige. Og der er der allerede et stenkast til den berygtede AI... Dog afviger jeg lidt.

Faktisk, med funktionaliteten i Voice Studio er alt i perfekt orden - stenografi (selvom Dragon er meget bedre), en række stemmekommandoer (du kan printe dem ud for større bekvemmelighed og hurtigere hukommelse) samt acceptabel maskintalesyntese . Fra mere seriøse ting - oprette makroer til at køre en række operationer på én gang med et enkelt nøgleord, endda optagelse og genafspilning af musebevægelser! Lad mig minde dig om, at den sidste "funktion" er meget brugt i mange alternative browsere som GreenBrowser eller MyIE2 til at udføre en række handlinger (gå til en anden side, åbn et nyt vindue osv.). Nu er der ikke behov for unødvendige bevægelser - bare sig den passende kommando, og computeren vil automatisk genskabe det tidligere optagede script. Hvem ved, måske vil vi snart spille spil med kun en mikrofon? Tiden vil vise…

I mellemtiden fortjener Voice Studio utvivlsomt den højeste vurdering for sin fantastiske venlighed og brugervenlighed. Lad den korrekte optagelse af tale endnu ikke være inden for hendes magt, men pc-stemmestyringen her er simpelthen uforlignelig. Det bedste af disse værktøjer og en værdig tilføjelse til Dragon!

Diktat 2004 v.4.5.2399

Diktat 2004 v.4.5.2399
Shareware (7 dages prøveperiode, registrering - $49,99)
Udvikler United Research Labs
Websted www.research-lab.com
Størrelse 41 MB
Download side
www.bandwidthsaver.com/
downloads/dict2002.zip
+
Grundlæggende sæt funktioner til styring af en pc og optagelse af tale; godt arbejde med wav-filer
Ikke de bedste talegenkendelsesresultater; irriterende teksteditor
! For lidt til prisen

På trods af tilsyneladende helt standard basale færdigheder kan Diktat 2004 stadig prale af noget. Først og fremmest er dette Point-and-Speak-teknologi, som gør det nemt at oprette kommandoer til at indtaste adgangskoder, starte software og diktere i næsten alle Windows-applikationer. Integration med MS Word er erklæret, samt intelligent teknologi til den korrekte definition af sætninger. Sandt nok er det implementeret ekstremt ubelejligt - i form af et pop-up-vindue, der vises med hvert ord, der bliver talt og kun afskrækker ethvert ønske om at arbejde. Det er godt, at du kan slå den fra. Dictation 2004 bruger den samme SAPI 5.1, så dens kvalitet er ikke fundamentalt forskellig fra anden software baseret på samme teknologi (Voxx, IVOS, Realize Voice osv.). Af de ekstra funktioner er det værd at bemærke WAV-optageren til at fange information fra lydkassetter, mobile enheder, mikrofoner og derefter optage det i wav-filer; derefter uddrages teksten fra dem ved hjælp af en separat diktatapplet - Wave-to-Text. Indtil videre er han selvfølgelig stadig langt fra ideel, men hvis taleren har en klar tale og god udtale, så er der ingen problemer.

+
Alsidighed i arbejdet; mange forskellige muligheder
— "Træning" af programmet vil tage lang tid ! Interessant produkt, men kunne være bedre...

Endnu et "jack of all trades", der giver dig mulighed for at chatte med din pc til dit hjertes lyst. Listen over programfunktioner minder meget om IVOS (stenografi / stemmekommandoer / tekstlæsning), bortset fra at der er en nyttig bonus her - omhyggelig udtale af enhver handling, uanset om det er at skrive eller åbne en fil. Programmet bruger den samme Microsoft Speech API som IVOS, så dets genkendelseskvalitet er ens. Der er et godt sæt stemmekommandoer til at navigere i browseren, elementære handlinger i en teksteditor (klip/kopier/indsæt osv.), såvel som at arbejde med Windows, der er genveje til at kalde systemapplets, endda åbne/lukke optisk drevbakke - generelt alt for behageligt arbejde. Hvad angår talesyntese, afhænger det direkte af de tilsvarende moduler, der er installeret i systemet. Gratis motorer fra Microsoft, der leveres med programmet, er langt fra ideelle, men i princippet kan du vænne dig til dem. En mere bekvem mulighed, desværre, ikke gratis, er at prøve tredjepartsudviklinger, især Digit PC, som desuden har en meget god russisktalende højttaler. I betragtning af alle fordele og ulemper ville Voxx være en god kandidat til at købe. Prøveversionen er i øvrigt kun begrænset af antallet af sætninger/kommandoer pr. session; for at starte en ny session skal du bare genstarte programmet ...

Konklusion

På trods af de stadig mange mangler er talegenkendelsesprogrammer allerede flyttet fra legetøjets rang til et seriøst værktøj for en forretningsmand. Hvis der tidligere var lidt mening fra dem, nu gør de det muligt for alvor at gøre livet lettere for brugeren og ødelægge den tidligere urokkelige stereotype om, at en computer bare er en jernkasse, der kværner tal. Og selvfølgelig er det mest behagelige faktum muligheden for at mærke det 21. århundredes teknologiske fremskridt, som så mange science fiction-forfattere har skrevet om så ofte, allerede nu. Deltag nu!