Πρόγραμμα αναγνώρισης φωνής στα ρωσικά. Λογισμικό αναγνώρισης ομιλίας

Ίσως ο πιο βολικός μεταγραφέας κειμένου για Windows και Mac OS, ο οποίος συνδυάζει ένα πρόγραμμα αναπαραγωγής ήχου και ένα πρόγραμμα επεξεργασίας κειμένου. Η αρχή της λειτουργίας είναι πολύ απλή - φορτώστε ένα αρχείο ήχου στο πρόγραμμα, ακούστε το χρησιμοποιώντας τα πλήκτρα συντόμευσης στο πληκτρολόγιο (μπορείτε να τα εκχωρήσετε μόνοι σας) και ταυτόχρονα πληκτρολογήστε κείμενο. Η ταχύτητα αναπαραγωγής και η ένταση του ήχου ελέγχονται επίσης μέσω του πληκτρολογίου. Έτσι, τα χέρια σας είναι συνεχώς στο πληκτρολόγιο και δεν χρειάζεται να χρησιμοποιήσετε το ποντίκι ή να κάνετε εναλλαγή μεταξύ διαφορετικών προγραμμάτων. Λάβετε υπόψη ότι το ενσωματωμένο πρόγραμμα επεξεργασίας κειμένου δεν αναγνωρίζει σφάλματα και δεν διαθέτει πολλά άλλα γνωστά χαρακτηριστικά, όπως εναλλαγή παύλων σε παύλες. Ωστόσο, μπορείτε να χρησιμοποιήσετε άλλους επεξεργαστές κειμένου παράλληλα με το Express Scribe χρησιμοποιώντας συντομεύσεις πληκτρολογίου για τον έλεγχο της αναπαραγωγής ήχου. Το πρόγραμμα είναι shareware, πλήρες κόστος: 17-50 δολάρια.


02. Transcriber pro



Ένα πρόγραμμα στη ρωσική γλώσσα για Windows που σας επιτρέπει να ακούτε όχι μόνο ήχο, αλλά και να προβάλλετε αρχεία βίντεο. Ο ενσωματωμένος επεξεργαστής κειμένου έχει τη δυνατότητα να καταγράφει χρονικές σημάνσεις και ονόματα συνομιλητών. Το κείμενο που προκύπτει μπορεί να εισαχθεί σε "διαδραστικές μεταγραφές", καθώς και να διορθωθεί ως μέρος ενός ομαδικού έργου. Η εφαρμογή είναι διαθέσιμη μόνο με ετήσια συνδρομή, το κόστος είναι 689 ρούβλια ετησίως.


03.RSplayer V1.4



Ένα απλό πρόγραμμα επεξεργασίας και μεταγραφής αρχείων ήχου με υποστήριξη για πλήκτρα πρόσβασης και δυνατότητα πληκτρολόγησης κειμένου στο Microsoft Word. Σε αντίθεση με προηγούμενα παρόμοια προγράμματα, μπορεί να γίνει δωρεάν λήψη, αλλά είναι ασταθές σε νέες εκδόσεις των Windows.

04. Voco

Μια επαγγελματική εφαρμογή Windows για μετατροπή ομιλίας σε κείμενο. Υποστηρίζει φωνητική πληκτρολόγηση σε οποιοδήποτε δοκιμαστικό πρόγραμμα περιήγησης, διαθέτει μεγάλη συλλογή θεματικών λεξικών και δεν απαιτεί σύνδεση στο Διαδίκτυο για αναγνώριση ομιλίας. Οι εκτεταμένες εκδόσεις "Voco.Professional" και "Voco.Enterprise" μπορούν να λειτουργήσουν με έτοιμα αρχεία ήχου. Το μόνο μειονέκτημα είναι το υψηλό κόστος της εφαρμογής.


05. Υπαγόρευση του Δράκου



Δωρεάν εφαρμογή για κινητά για υπαγορευμένη αναγνώριση ομιλίας. Το πρόγραμμα μπορεί να αναγνωρίσει περίπου 40 γλώσσες και τις ποικιλίες τους, σας επιτρέπει να επεξεργαστείτε κείμενο και να το στείλετε σε αλληλογραφία, κοινωνικά δίκτυα ή να το αντιγράψετε στο πρόχειρο. Απαιτείται σύνδεση στο διαδίκτυο για να λειτουργήσει.


06.RealSpeaker



Μια μοναδική εφαρμογή που μπορεί όχι μόνο να αναγνωρίσει αρχεία ήχου, αλλά και ζωντανή ομιλία που εκφωνείται στην κάμερα. Λόγω μιας ειδικής επέκτασης βίντεο, το RealSpeaker διαβάζει την κίνηση των χειλιών, βελτιώνοντας έτσι τη διαδικασία αναγνώρισης ομιλίας έως και 20-30% σε σύγκριση με άλλους παρόμοιους αλγόριθμους. Προς το παρόν, η εφαρμογή υποστηρίζει 11 γλώσσες: ρωσικά, αγγλικά (αμερικανικές και βρετανικές διάλεκτοι), γαλλικά, γερμανικά, κινέζικα, κορεάτικα και ιαπωνικά, τουρκικά, ισπανικά, ιταλικά και ουκρανικά. Το πρόγραμμα διανέμεται υπό όρους δωρεάν, το κόστος εξαρτάται από τον χρόνο συνδρομής, η αέναη έκδοση κοστίζει περίπου 2 χιλιάδες ρούβλια.

Στον σύγχρονο, γεμάτο γεγονότα κόσμο μας, η ταχύτητα εργασίας με πληροφορίες είναι ένας από τους ακρογωνιαίους λίθους της επιτυχίας. Το πόσο γρήγορα λαμβάνουμε, δημιουργούμε, επεξεργαζόμαστε πληροφορίες εξαρτάται από την παραγωγικότητα και την παραγωγικότητά μας στην εργασία μας, και επομένως από τον άμεσο υλικό μας πλούτο. Μεταξύ των εργαλείων που μπορούν να αυξήσουν τις δυνατότητες εργασίας μας, σημαντική θέση καταλαμβάνουν τα προγράμματα για τη μετάφραση του λόγου σε κείμενο, τα οποία μπορούν να αυξήσουν σημαντικά την ταχύτητα πληκτρολόγησης των κειμένων που χρειαζόμαστε. Σε αυτό το άρθρο θα σας πω ποια είναι τα δημοφιλή προγράμματα για τη μετάφραση ήχου φωνής σε κείμενο και ποια είναι τα χαρακτηριστικά τους.

Τα περισσότερα από τα τρέχοντα προγράμματα για τη μετάφραση φωνής σε κείμενο είναι πληρωμένης φύσης και παρουσιάζουν ορισμένες απαιτήσεις για μικρόφωνο (στην περίπτωση που το πρόγραμμα προορίζεται για υπολογιστή). Δεν συνιστάται ανεπιφύλακτα η εργασία με μικρόφωνο ενσωματωμένο σε κάμερα web, καθώς και τοποθετημένο σε τυπική θήκη φορητού υπολογιστή (η ποιότητα της αναγνώρισης ομιλίας από τέτοιες συσκευές είναι σε αρκετά χαμηλό επίπεδο). Επιπλέον, είναι αρκετά σημαντικό να έχετε ένα ήσυχο περιβάλλον, χωρίς περιττό θόρυβο που μπορεί να επηρεάσει άμεσα το επίπεδο αναγνώρισης της ομιλίας σας.

Ταυτόχρονα, τα περισσότερα από αυτά τα προγράμματα μπορούν όχι μόνο να μετατρέψουν την ομιλία σε κείμενο στην οθόνη του υπολογιστή, αλλά και να χρησιμοποιούν φωνητικές εντολές για τον έλεγχο του υπολογιστή σας (εκκίνηση προγραμμάτων και κλείσιμο, λήψη και αποστολή e-mail, άνοιγμα και κλείσιμο ιστοσελίδων , και ούτω καθεξής).

Το πρόγραμμα ομιλία σε κείμενο

Ας προχωρήσουμε σε μια άμεση περιγραφή προγραμμάτων που μπορούν να βοηθήσουν στη μετάφραση του λόγου σε κείμενο.

Πρόγραμμα "Λαϊτης"

Το δωρεάν ρωσόφωνο πρόγραμμα αναγνώρισης φωνής "Laitis" έχει καλή ποιότητα κατανόησης της ομιλίας και, σύμφωνα με τους δημιουργούς του, είναι σε θέση να αντικαταστήσει σχεδόν πλήρως το οικείο πληκτρολόγιο του χρήστη. Το πρόγραμμα λειτουργεί επίσης καλά με φωνητικές εντολές, επιτρέποντάς σας να εκτελέσετε πολλές ενέργειες για να διαχειριστείτε τον υπολογιστή σας με τη βοήθειά τους.

Για τη λειτουργία του, το πρόγραμμα απαιτεί την υποχρεωτική διαθεσιμότητα Διαδικτύου υψηλής ταχύτητας στον υπολογιστή (το πρόγραμμα χρησιμοποιεί υπηρεσίες δικτύου αναγνώρισης φωνής από την Google και το Yandex). Οι δυνατότητες του προγράμματος σάς επιτρέπουν επίσης να ελέγχετε το πρόγραμμα περιήγησής σας χρησιμοποιώντας φωνητικές εντολές, για τις οποίες πρέπει να εγκαταστήσετε μια ειδική επέκταση από το Laitis (Chrome, Mozilla, Opera) στο web navigator σας.

"Dragon Professional" - μεταγραφή ηχογραφήσεων σε κείμενο

Τη στιγμή της συγγραφής αυτού του άρθρου, ένα ψηφιακό αγγλόφωνο προϊόν « Ο Dragon Professional Individual «είναι ένας από τους παγκόσμιους ηγέτες στην ποιότητα των αναγνωρισμένων κειμένων. Το πρόγραμμα καταλαβαίνει επτά γλώσσες (μέχρι στιγμής μόνο η εφαρμογή για κινητά Dragon Anywhere λειτουργεί με ρωσικά και), έχει αναγνώριση φωνής υψηλής ποιότητας και μπορεί να εκτελέσει έναν αριθμό φωνητικών εντολών. Ταυτόχρονα, αυτό το προϊόν έχει αποκλειστικά πληρωμένο χαρακτήρα (η τιμή για το κύριο πρόγραμμα είναι 300 δολάρια ΗΠΑ και για την "οικιακή" έκδοση του προϊόντος Dragon Home, ο αγοραστής θα πρέπει να πληρώσει 75 δολάρια ΗΠΑ).

Για τη λειτουργία του, αυτό το προϊόν της Nuance Communications απαιτεί τη δημιουργία του δικού του προφίλ, το οποίο έχει σχεδιαστεί για να προσαρμόζει τις δυνατότητες του προγράμματος στις ιδιαιτερότητες της φωνής σας. Εκτός από την άμεση υπαγόρευση κειμένου, μπορείτε να εκπαιδεύσετε το πρόγραμμα ώστε να εκτελεί έναν αριθμό εντολών, κάνοντας έτσι την αλληλεπίδρασή σας με τον υπολογιστή ακόμα πιο ομοιογενή και βολική.

"RealSpeaker" - εξαιρετικά ακριβής αναγνώρισης ομιλίας

Το πρόγραμμα για τη μετατροπή της φωνής σε κείμενο " RealSpeaker", εκτός από τις τυπικές λειτουργίες για προγράμματα αυτού του είδους, σας επιτρέπει να χρησιμοποιήσετε τις δυνατότητες της κάμερας web του υπολογιστή σας. Τώρα το πρόγραμμα όχι μόνο διαβάζει το στοιχείο ήχου του ήχου, αλλά καταγράφει επίσης την κίνηση των γωνιών των χειλιών του ομιλητή, αναγνωρίζοντας έτσι πιο σωστά τις λέξεις που προφέρει.


Το "RealSpeaker" διαβάζει όχι μόνο τον ήχο, αλλά και το οπτικό στοιχείο της διαδικασίας ομιλίας

Η εφαρμογή υποστηρίζει περισσότερες από δέκα γλώσσες (συμπεριλαμβανομένων των ρωσικών), σας επιτρέπει να αναγνωρίζετε την ομιλία, λαμβάνοντας υπόψη προφορές και διαλέκτους, σας επιτρέπει να μεταγράψετε ήχο και βίντεο, σας δίνει πρόσβαση στο cloud και πολλά άλλα. Το πρόγραμμα είναι shareware, για την πληρωμένη έκδοση θα πρέπει να πληρώσετε αρκετά πραγματικά χρήματα.

"Voco" - το πρόγραμμα θα μεταφράσει γρήγορα τη φωνή σε έγγραφο κειμένου

Ένας άλλος μετατροπέας φωνής σε κείμενο είναι το επί πληρωμή ψηφιακό προϊόν Voco, η τιμή της "οικιακής" έκδοσης του οποίου είναι τώρα περίπου 1.700 ρούβλια. Οι πιο προηγμένες και ακριβές εκδόσεις αυτού του προγράμματος - "Voco.Professional" και "Voco.Enterprise" έχουν μια σειρά από πρόσθετες λειτουργίες, μία από τις οποίες είναι η αναγνώριση ομιλίας από ηχογραφήσεις που είναι διαθέσιμες στον χρήστη.

Μεταξύ των χαρακτηριστικών του "Voco" σημειώνω τη δυνατότητα συμπλήρωσης του λεξιλογίου του προγράμματος (τώρα το λεξιλόγιο του προγράμματος περιλαμβάνει περισσότερες από 85 χιλιάδες λέξεις), καθώς και τη λειτουργία του εκτός σύνδεσης από το δίκτυο, το οποίο σας επιτρέπει να μην εξαρτάστε από τη σύνδεσή σας στο Διαδίκτυο.


Ανάμεσα στα πλεονεκτήματα του "Voco" είναι η υψηλή ικανότητα εκμάθησης του προγράμματος

Η εφαρμογή ενεργοποιείται πολύ απλά - απλώς κάντε διπλό κλικ στο πλήκτρο "Ctrl". Η εφαρμογή είναι εντελώς δωρεάν, υποστηρίζει πολλές δεκάδες γλώσσες, συμπεριλαμβανομένων των ρωσικών.

συμπέρασμα

Παραπάνω, έχω παραθέσει προγράμματα για τη μετάφραση της ηχογράφησης της φωνής σας σε κείμενο, περιέγραψα τη γενική τους λειτουργικότητα και τα χαρακτηριστικά χαρακτηριστικά τους. Τα περισσότερα από αυτά τα προϊόντα έχουν συνήθως πληρωμένο χαρακτήρα, ενώ το εύρος και η ποιότητα των προγραμμάτων στη ρωσική γλώσσα είναι ποιοτικά κατώτερα από τα αντίστοιχα στα αγγλικά. Όταν εργάζεστε με τέτοιες εφαρμογές, συνιστώ να δίνετε ιδιαίτερη προσοχή στο μικρόφωνό σας και τις ρυθμίσεις του - αυτό είναι σημαντικό στη διαδικασία αναγνώρισης ομιλίας, επειδή ένα κακό μικρόφωνο μπορεί να ακυρώσει ακόμη και το λογισμικό υψηλότερης ποιότητας του τύπου που έχω εξετάσει.

Υπάρχουν δύο τύποι προγραμμάτων αναγνώρισης ομιλίας:

1. Δεμένα με τον ομιλητή - αυτά τα προγράμματα μαθαίνουν συνεχώς και με την πάροδο του χρόνου αρχίζουν να καταλαβαίνουν τη φωνή του «του κυρίου τους» όλο και καλύτερα. Όσο πιο συχνά ο χρήστης εργάζεται στο πρόγραμμα, τόσο καλύτερα τον καταλαβαίνει. Ευτυχώς, η εκμάθηση γίνεται αρκετά γρήγορα - μετά από περίπου 20 λεπτά, το πρόγραμμα θα μάθει να σας καταλαβαίνει αρκετά καλά.

2. ανεξάρτητα από το ηχείο - μπορείτε να αρχίσετε να μιλάτε αμέσως - το πρόγραμμα θα ανταποκρίνεται σε φωνητικές εντολές. Σε αντίθεση με τον πρώτο τύπο, αυτά τα προγράμματα δεν χρειάζεται να μάθουν να σας καταλαβαίνουν. Αντίθετα, πρέπει να μάθεις να μιλάς για να σε καταλαβαίνει το πρόγραμμα.

Σε τι χρησιμεύει ένα πρόγραμμα αναγνώρισης ομιλίας σε υπολογιστή;

Μην νομίζετε ότι εάν εγκαταστήσετε ένα πρόγραμμα αναγνώρισης ομιλίας, τότε δεν θα χρειάζεστε πλέον πληκτρολόγιο και ποντίκι, αλλά η εργασία σε υπολογιστή θα είναι πολύ πιο εύκολη.

1. Υπαγόρευση - με τη βοήθεια προγραμμάτων αναγνώρισης ομιλίας, πολλοί χρήστες υπαγορεύουν τα κείμενα των εγγράφων. Αυτή η δυνατότητα είναι σχετική, για παράδειγμα, για τους γιατρούς που διεξάγουν μια εξέταση (κατά τη διάρκεια της οποίας τα χέρια τους είναι συνήθως απασχολημένα) και ταυτόχρονα καταγράφουν τα αποτελέσματά της. Για έναν απλό χρήστη που δυσκολεύεται να πληκτρολογήσει κείμενο για κάποιο λόγο (ή απλά πολύ τεμπέλης), μπορεί επίσης να είναι χρήσιμο.

2. Εισαγωγή εντολών - Οι χρήστες Η/Υ μπορούν να χρησιμοποιήσουν την «αναγνώριση» για να εισάγουν εντολές, δηλαδή η προφορική λέξη θα γίνει αντιληπτή από το σύστημα ως ένα κλικ του ποντικιού. Ο χρήστης δίνει εντολή: «Άνοιγμα αρχείου», «Αποστολή αλληλογραφίας» ή «Νέο παράθυρο» και ο υπολογιστής εκτελεί την κατάλληλη ενέργεια. Αυτό ισχύει ιδιαίτερα για τα άτομα με αναπηρία - αντί για ποντίκι και πληκτρολόγιο, θα μπορούν να ελέγχουν τον υπολογιστή με τη φωνή τους.

Τι απαιτείται για την αναγνώριση ομιλίας;

1. Πρόγραμμα αναγνώρισης ομιλίας - Οι αγγλόφωνοι χρήστες των Windows μπορούν να χρησιμοποιήσουν, για παράδειγμα, το Dragon Naturally Speaking ή το IBM Via Voice. Η ρωσική γλώσσα γίνεται κατανοητή από τα προγράμματα Gorynych και Dictograph. Η αναγνώριση ομιλίας είναι ήδη ενσωματωμένη στο λειτουργικό σύστημα Windows Vista.

2. Μικρόφωνο ή ακουστικό (υβρίδιο ακουστικού και μικροφώνου) - για να "χτυπάτε" λέξεις στον υπολογιστή.

3. Αρκετά ισχυρός υπολογιστής - για να λειτουργήσει η λειτουργία αναγνώρισης ομιλίας, ο υπολογιστής δεν χρειάζεται να είναι εξαιρετικά γρήγορος. Αρκεί 1 GB μνήμης RAM (για Windows Vista είναι καλύτερα 2 GB) και ταχύτητα ρολογιού επεξεργαστή τουλάχιστον 1 GHz.

Ποιες συσκευές χρησιμοποιούν αναγνώριση ομιλίας;

Η λειτουργία αναγνώρισης ομιλίας μπορεί να χρησιμοποιηθεί όχι μόνο σε υπολογιστή, αλλά και σε πολλές άλλες συσκευές. Αυτό ισχύει ιδιαίτερα εάν το "gadget" έχει ένα συμπαγές πληκτρολόγιο με μικροσκοπικά πλήκτρα (ή καθόλου).

1. Κινητά τηλέφωνα - εδώ και αρκετά χρόνια υπάρχουν μοντέλα με δυνατότητα φωνητικού ελέγχου. Αλλά αυτό δεν έχει καμία σχέση με την αναγνώριση φωνής - η συσκευή δεν μεταφράζει τη φωνή σε κείμενο, αλλά συγκρίνει την προφορική φράση με την προηχογραφημένη (η τελευταία είναι μια "αναφορά" και συνήθως ονομάζεται "φωνητική ετικέτα"). Μια φράση μπορεί να αντιστοιχεί σε μια καταχώρηση βιβλίου διευθύνσεων (φωνητική κλήση) ή σε ένα στοιχείο μενού (φωνητικός έλεγχος). Εάν το τηλέφωνο δεν έχει αρχικά τις κατάλληλες λειτουργίες, θα είναι αδύνατο να το "εκπαιδεύσετε".

2. Φορητοί πλοηγοί - σε νέες συσκευές πλοήγησης, για παράδειγμα, Tom Tom Go 720T, ο οδηγός μπορεί να εισαγάγει τον προορισμό φωνητικά. Εάν προφέρετε τις λέξεις καθαρά και, εάν είναι δυνατόν, σιωπηλά, τότε αυτή η λειτουργία λειτουργεί πολύ καλά. Αν και αυτή η λειτουργία διαρκεί τον ίδιο χρόνο με την είσοδο του πληκτρολογίου, είναι ασφαλέστερο και πιο βολικό να χρησιμοποιείτε τον φωνητικό έλεγχο κατά την οδήγηση. Είναι αλήθεια ότι κανείς δεν μπορεί να κάνει καθόλου χωρίς χέρια - για να ξεκινήσει μια φωνητική εντολή, πρέπει να πατήσετε το κουμπί στην οθόνη.

3. Αυτοκίνητα - ορισμένες νέες μάρκες αυτοκινήτων, όπως η Mercedes, η Audi, η Toyota, η Ford ή η BMW, μπορούν να ελεγχθούν με χρήση φωνής (αν και το σύνολο των εντολών είναι περιορισμένο). Για παράδειγμα, σε ορισμένα μοντέλα BMW, αφού πατήσετε το κουμπί που βρίσκεται στο τιμόνι (βλ. εικόνα), ενεργοποιούνται οι λειτουργίες φωνητικού ελέγχου του στερεοφωνικού ή του συστήματος πλοήγησης.

4. Δίσκοι πολυμέσων για εκμάθηση ξένων γλωσσών - ορισμένα προγράμματα εκμάθησης ελέγχουν τη σωστή προφορά. Το πρόγραμμα σας ζητά να διαβάσετε μια συγκεκριμένη πρόταση και, αφού επεξεργαστείτε το αποτέλεσμα χρησιμοποιώντας τη λειτουργία αναγνώρισης ομιλίας, αναφέρει εάν όλα είναι εντάξει με την προφορά σας.

Ποια προβλήματα προκύπτουν κατά την εργασία με προγράμματα «αναγνώρισης»;

Ο έλεγχος συσκευών ή η υπαγόρευση κειμένων γίνεται αρκετά καλά, αλλά δυστυχώς δεν είναι τέλειος. Και αυτό οφείλεται σε διάφορους λόγους:

1. Οι λέξεις δεν ακούγονται πάντα το ίδιο - η μεγαλύτερη δυσκολία στην αναγνώριση ομιλίας είναι ότι κανείς δεν θα προφέρει την ίδια λέξη με τον ίδιο τρόπο, ακόμα κι αν προσπαθήσει πολύ.

2. Ο καθένας μιλάει διαφορετικά - έτσι ένα πρόγραμμα αναγνώρισης ομιλίας θα λειτουργήσει πιο καθαρά εάν ένας νέος χρήστης το «εξασκήσει» λίγο πρώτα. Είναι αλήθεια ότι αυτό δεν είναι πάντα δυνατό και μερικές φορές δεν είναι καν απαραίτητο, για παράδειγμα, όταν χρησιμοποιείτε προγράμματα που δεν συνδέονται με τον συνομιλητή. Πολλά προγράμματα αναγνώρισης ομιλίας μπορούν να συντονιστούν αυτόματα σε έναν νέο χρήστη.

3. Οι θόρυβοι του φόντου μπορούν να παραμορφώσουν σημαντικά τον ήχο της προφορικής λέξης. Αυτό περιορίζει σε μεγάλο βαθμό τις λειτουργίες της αναγνώρισης ομιλίας και σε πολυσύχναστα ή θορυβώδη μέρη το καθιστά εντελώς αδύνατο.

4. Γρήγορη ομιλία - ορισμένοι χρήστες μιλούν πολύ γρήγορα - οι λέξεις σχεδόν συγχωνεύονται. Ο συνομιλητής θα καταλάβει εύκολα μια τέτοια ομιλία, αλλά το πρόγραμμα θα είναι πολύ σκληρό για μια τέτοια εργασία.

5. Λέξεις με τον ίδιο (ή πολύ παρόμοιο) ήχο - είναι ιδιαίτερα δύσκολο για προγράμματα αναγνώρισης ομιλίας με τα λεγόμενα ομόφωνα - λέξεις που προφέρονται σχεδόν το ίδιο αλλά γράφονται διαφορετικά ("λεζ" και "δάσος", "στόμα" και «γένος»). Το πρόγραμμα πρέπει να καθορίσει τη σημασία τέτοιων λέξεων σύμφωνα με το πλαίσιο της πρότασης.

Ποιες είναι οι προοπτικές για τη λειτουργία αναγνώρισης ομιλίας;

Στα κινητά τηλέφωνα, ο ρόλος της λειτουργίας αναγνώρισης ομιλίας θα αυξηθεί σημαντικά, επειδή η πληκτρολόγηση κειμένου σε μικρά πληκτρολόγια κινητών τηλεφώνων είναι πολύ κουραστική.

1. Υπαγόρευση μηνυμάτων SMS - σύντομα δεν θα χρειαστεί να πληκτρολογήσετε μηνύματα στο τηλέφωνό σας - μπορείτε απλώς να υπαγορεύσετε. Η Samsung υπόσχεται να εισαγάγει αυτή τη λειτουργία σε ορισμένα μοντέλα των τηλεφώνων της (θα εμφανιστούν στην αγορά στο εγγύς μέλλον).

2. Μετάφραση - μέχρι τους Ολυμπιακούς Αγώνες του 2008 στο Πεκίνο, αναμένεται να εμφανιστεί ένα κινητό τηλέφωνο με ενσωματωμένο μεταφραστή. Εάν, ενώ βρίσκεστε στο Μέσο Βασίλειο, θέλετε, για παράδειγμα, να δειπνήσετε σε ένα εστιατόριο, τότε θα αρκεί να πείτε την παραγγελία σας στα ρωσικά στο κινητό σας τηλέφωνο - όλα θα μεταφραστούν στα κινέζικα και μια ηλεκτρονική φωνή από ο ομιλητής θα μεταφέρει την παραγγελία στον σερβιτόρο.

Μπορεί να υποτεθεί ότι με την πάροδο του χρόνου, ένας αυξανόμενος αριθμός συσκευών θα κατανοήσει την ανθρώπινη φωνή. Μην εκπλαγείτε λοιπόν αν ένα πρωί η καφετιέρα σας όχι μόνο σας ρωτήσει τι να φτιάξετε -καπουτσίνο ή εσπρέσο- αλλά καταλάβει και την απάντησή σας.

Αναγνώριση ομιλίας στα Windows Vista

Τα Windows Vista διαθέτουν πρόγραμμα αναγνώρισης ομιλίας. Δυστυχώς, αυτό το στοιχείο κατανοεί μόνο αγγλικά, γερμανικά, γαλλικά, ισπανικά, ιαπωνικά και κινέζικα. Όταν το στοιχείο εκκινείται για πρώτη φορά (πρέπει να επιλέξετε τα στοιχεία Ευκολία πρόσβασης και Αναγνώριση ομιλίας στον Πίνακα Ελέγχου), ανοίγει το παράθυρο του οδηγού εκμάθησης, το οποίο θα σας εξοικειώσει με τις αρχές του φωνητικού ελέγχου των Windows για μισή ώρα. Αφού ολοκληρώσετε μερικές ασκήσεις, θα μάθετε πώς να υπαγορεύετε και να ελέγχετε τα Windows χρησιμοποιώντας φωνητικές εντολές. Επειδή το λογισμικό αναγνώρισης ομιλίας εξαρτάται από το ηχείο, θα μάθει τη φωνή σας ταυτόχρονα. Αφού κατακτήσετε με επιτυχία το εισαγωγικό μέρος, τα Windows θα ανταποκριθούν στην κλήση σας: "Listen!" και αρχίστε να λαμβάνετε φωνητικές εντολές. Μειονέκτημα: η φωνητική είσοδος λειτουργεί μόνο για προγράμματα της Microsoft (για παράδειγμα, για τα ίδια τα Windows, το Word ή τον Internet Explorer). Όταν χρησιμοποιείτε άλλα προγράμματα (όπως το Open Office ή το Firefox), ο υπολογιστής θα είναι "κουφός".

Ενημερώθηκε: Δευτέρα, 31 Ιουλίου 2017

Τι σχέση έχει η ημι-φανταστική ιδέα του να μιλάς σε υπολογιστή με την επαγγελματική φωτογραφία; Σχεδόν κανένα, αν δεν είστε λάτρης της ιδέας της ατελείωτης ανάπτυξης ολόκληρου του τεχνικού περιβάλλοντος του ανθρώπου. Φανταστείτε για μια στιγμή ότι δίνετε φωνητικές εντολές στην κάμερά σας να αλλάξει την εστιακή απόσταση και να κάνει την αντιστάθμιση έκθεσης μισό βήμα συν. Το τηλεχειριστήριο της κάμερας έχει ήδη εφαρμοστεί, αλλά εκεί πρέπει να πατήσετε σιωπηλά τα κουμπιά, και εδώ είναι ένα ακουστικό fotik!

Έχει γίνει παράδοση να αναφέρουμε κάποια φανταστική ταινία ως παράδειγμα ανθρώπινης φωνητικής επικοινωνίας με υπολογιστή, τουλάχιστον το "Space Odyssey 2001" σε σκηνοθεσία Stanley Kubrick. Εκεί, ο ενσωματωμένος υπολογιστής όχι μόνο διεξάγει έναν ουσιαστικό διάλογο με τους αστροναύτες, αλλά μπορεί να διαβάσει τα χείλη σαν κωφός. Με άλλα λόγια, το μηχάνημα έμαθε να αναγνωρίζει την ανθρώπινη ομιλία χωρίς λάθη. Ίσως κάποιος θα βρει περιττό τον απομακρυσμένο φωνητικό έλεγχο της κάμερας, αλλά πολλοί θα ήθελαν αυτή τη φράση "Πάρτε μας μωρό μου"και μια εικόνα ολόκληρης της οικογένειας με φόντο έναν φοίνικα είναι έτοιμη.

Λοιπόν, εδώ έκανα φόρο τιμής στην παράδοση, λίγο φαντασιωμένος. Αλλά, μιλώντας από τα βάθη της καρδιάς μου, αυτό το άρθρο ήταν δύσκολο να γραφτεί και όλα ξεκίνησαν με ένα δώρο με τη μορφή ενός smartphone με λειτουργικό σύστημα Android 4. Αυτό το μοντέλο HUAWEI U8815 διαθέτει μια μικρή οθόνη αφής τεσσάρων ιντσών και ένα πληκτρολόγιο οθόνης. Είναι κάπως ασυνήθιστο να πληκτρολογήσετε σε αυτό, αλλά αποδείχθηκε ότι δεν ήταν ιδιαίτερα απαραίτητο. (εικόνα 01)

1. Αναγνώριση φωνής σε smartphone σε Android OS

Ενώ δοκίμασα ένα νέο παιχνίδι, παρατήρησα ένα γραφικό μικροφώνου στη γραμμή αναζήτησης. Googleκαι στο πληκτρολόγιο στις Σημειώσεις. Προηγουμένως, δεν με ενδιέφερε τι σημαίνει αυτό το σύμβολο. Είχα συζητήσεις μέσα Skypeκαι πληκτρολογούσε γράμματα στο πληκτρολόγιο. Αυτό κάνουν οι περισσότεροι χρήστες του Διαδικτύου. Αλλά όπως μου εξήγησαν αργότερα, σε μια μηχανή αναζήτησης Googleπροστέθηκε μια φωνητική αναζήτηση στα ρωσικά και εμφανίστηκαν προγράμματα που σας επιτρέπουν να υπαγορεύετε σύντομα μηνύματα όταν χρησιμοποιείτε ένα πρόγραμμα περιήγησης Χρώμιο.

Είπα μια φράση τριών λέξεων, το πρόγραμμα τις εντόπισε και τις έδειξε σε ένα κελί με μπλε φόντο. Υπήρχε κάτι για έκπληξη, γιατί όλες οι λέξεις ήταν γραμμένες σωστά. Εάν κάνετε κλικ σε αυτό το κελί, η φράση εμφανίζεται στο πεδίο κειμένου του σημειωματάριου Android. Είπε λοιπόν μερικές φράσεις και έστειλε μήνυμα στον βοηθό μέσω SMS.


2. Σύντομο ιστορικό προγραμμάτων αναγνώρισης φωνής.

Δεν ήταν για μένα ανακάλυψη ότι τα σύγχρονα επιτεύγματα στον τομέα του φωνητικού ελέγχου σας επιτρέπουν να δίνετε εντολές σε οικιακές συσκευές, αυτοκίνητο, ρομπότ. Η λειτουργία εντολών εισήχθη σε προηγούμενες εκδόσεις των Windows, OS/2 και Mac OS. Έχω δει προγράμματα ομιλητών, αλλά σε τι χρησιμεύουν; Ίσως είναι η ιδιαιτερότητά μου ότι μου είναι πιο εύκολο να μιλήσω παρά να πληκτρολογήσω στο πληκτρολόγιο και στο κινητό δεν μπορώ να πληκτρολογήσω απολύτως τίποτα. Πρέπει να εγγράψετε επαφές σε φορητό υπολογιστή με κανονικό πληκτρολόγιο και να μεταφέρετε μέσω καλωδίου USB. Αλλά να μιλάω μόνο στο μικρόφωνο και ο ίδιος ο υπολογιστής να πληκτρολογεί το κείμενο χωρίς σφάλματα - αυτό ήταν ένα όνειρο για μένα. Η ατμόσφαιρα της απελπισίας υποστηρίχθηκε από συζητήσεις στα φόρουμ. Παντού είχαν μια τέτοια θλιβερή σκέψη:

«Ωστόσο, στην πράξη, μέχρι τώρα, προγράμματα για πραγματική αναγνώριση ομιλίας (και ακόμη και στα ρωσικά) πρακτικά δεν υπάρχουν και προφανώς δεν θα δημιουργηθούν σύντομα. Επιπλέον, ακόμη και η αντίστροφη εργασία της αναγνώρισης - σύνθεσης ομιλίας, η οποία, όπως φαίνεται, είναι πολύ πιο απλή από την αναγνώριση, δεν έχει επιλυθεί πλήρως. (ComputerPress №12, 2004)

«Δεν υπάρχουν κανονικά προγράμματα αναγνώρισης ομιλίας (όχι μόνο ρωσικά) μέχρι σήμερα, καθώς η εργασία είναι αρκετά δύσκολη για έναν υπολογιστή. Και το χειρότερο είναι ότι ο μηχανισμός αναγνώρισης λέξεων από ένα άτομο δεν έχει υλοποιηθεί, επομένως δεν υπάρχει τίποτα που να βασιστείτε κατά τη δημιουργία προγραμμάτων αναγνώρισης. (Μια άλλη συζήτηση στο φόρουμ).

Ταυτόχρονα, οι ανασκοπήσεις των προγραμμάτων εισαγωγής κειμένου στην αγγλική γλώσσα έδειξαν σαφείς επιτυχίες. Για παράδειγμα, IBM ViaVoice 98 Executive Editionείχαν ένα βασικό λεξικό 64.000 λέξεων και τη δυνατότητα να προσθέσουν τον ίδιο αριθμό δικών τους λέξεων. Το ποσοστό αναγνώρισης λέξεων χωρίς εκπαίδευση του προγράμματος ήταν περίπου 80%, και με μεταγενέστερη εργασία με συγκεκριμένο χρήστη έφτασε το 95%.

Από τα προγράμματα για την αναγνώριση της ρωσικής γλώσσας, αξίζει να σημειωθεί το "Gorynych" - μια προσθήκη στο αγγλόφωνο Dragon Dictate 2.5. Σχετικά με την αναζήτηση, και μετά τη "μάχη με πέντε Gorynychs" θα πω στο δεύτερο μέρος της κριτικής. Βρήκα πρώτο τον «Αγγλικό Δράκο».

3. Το πρόγραμμα αναγνώρισης συνεχούς ομιλίας «Dragon Naturally Speaking»

Η σύγχρονη έκδοση του προγράμματος της εταιρείας Απόχρωσηαποδείχθηκε ότι ήταν με τον παλιό μου φίλο από το Ινστιτούτο Ξένων Γλωσσών του Μινσκ. Το έφερε από ένα ταξίδι στο εξωτερικό, και το αγόρασε νομίζοντας ότι θα μπορούσε να είναι «γραμματέας υπολογιστή». Αλλά κάτι δεν λειτούργησε και το πρόγραμμα παρέμεινε σχεδόν ξεχασμένο στο φορητό υπολογιστή. Λόγω της έλλειψης οποιασδήποτε κατανοητής εμπειρίας, έπρεπε να πάω ο ίδιος στον φίλο μου. Όλη αυτή η μακροσκελής εισαγωγή είναι απαραίτητη για την ορθή κατανόηση των συμπερασμάτων που έχω βγάλει.

Το πλήρες όνομα του πρώτου μου δράκου ήταν: . Το πρόγραμμα είναι στα αγγλικά και όλα σε αυτό είναι ξεκάθαρα ακόμα και χωρίς εγχειρίδιο. Το πρώτο βήμα είναι να δημιουργήσετε ένα προφίλ ενός συγκεκριμένου χρήστη για να προσδιορίσετε τα χαρακτηριστικά του ήχου των λέξεων στην απόδοσή του. Πράγμα που έκανα - η ηλικία του ομιλητή, η χώρα, οι ιδιαιτερότητες της προφοράς είναι σημαντικές. Η επιλογή μου είναι: ηλικία 22-54, Αγγλικά ΗΒ, τυπική προφορά. Στη συνέχεια έρχονται μερικά παράθυρα όπου ρυθμίζετε το μικρόφωνό σας. (εικόνα 04)

Το επόμενο στάδιο στα σοβαρά προγράμματα αναγνώρισης ομιλίας είναι η εκπαίδευση για τη συγκεκριμένη προφορά ενός συγκεκριμένου ατόμου. Καλείστε να επιλέξετε τη φύση του κειμένου: η επιλογή μου είναι μια σύντομη οδηγία για την υπαγόρευση, αλλά μπορείτε επίσης να «παραγγείλετε» μια χιουμοριστική ιστορία.

Η ουσία αυτού του σταδίου εργασίας με το πρόγραμμα είναι εξαιρετικά απλή - το κείμενο εμφανίζεται στο παράθυρο, πάνω από αυτό είναι ένα κίτρινο βέλος. Με σωστή προφορά, το βέλος κινείται μέσα στις φράσεις και στο κάτω μέρος υπάρχει μια γραμμή προόδου προπόνησης. Η αγγλική συνομιλία είχε ξεχαστεί αρκετά από μένα, έτσι κινήθηκα με δυσκολία. Ο χρόνος ήταν επίσης περιορισμένος - άλλωστε ο υπολογιστής δεν ήταν δικός μου και έπρεπε να διακόψω την προπόνηση. Αλλά μια φίλη είπε ότι έκανε το τεστ σε λιγότερο από μισή ώρα. (εικόνα 05)

Αρνούμενος να προσαρμόσω το πρόγραμμα στην προφορά μου, πήγα στο κεντρικό παράθυρο και ξεκίνησα τον ενσωματωμένο επεξεργαστή κειμένου. Μίλησε ξεχωριστές λέξεις από κάποια κείμενα που βρήκε στον υπολογιστή. Αυτές οι λέξεις που είπε σωστά, το πρόγραμμα τυπώθηκε, αυτές που είπε άσχημα, αντικαταστάθηκαν με κάτι «αγγλικό». Έχοντας προφέρει καθαρά την εντολή "erase line" στα αγγλικά, το πρόγραμμα την εκπλήρωσε. Αυτό σημαίνει ότι διάβασα σωστά τις εντολές και το πρόγραμμα τις αναγνωρίζει χωρίς προηγούμενη εκπαίδευση.

Αλλά ήταν σημαντικό για μένα πώς γράφει αυτός ο «δράκος» στα ρωσικά. Όπως καταλάβατε από την προηγούμενη περιγραφή, κατά την εκπαίδευση του προγράμματος, μπορείτε να επιλέξετε μόνο αγγλικό κείμενο, απλά δεν υπάρχει ρωσικό κείμενο εκεί. Είναι σαφές ότι δεν θα λειτουργήσει για την εκπαίδευση στην αναγνώριση του ρωσικού λόγου. Στην επόμενη φωτογραφία μπορείτε να δείτε ποια φράση πληκτρολόγησε το πρόγραμμα κατά την προφορά της ρωσικής λέξης "Γεια". (εικόνα 06)

Το αποτέλεσμα της επικοινωνίας με τον πρώτο δράκο αποδείχθηκε ελαφρώς κωμικό. Εάν διαβάσετε προσεκτικά το κείμενο στον επίσημο ιστότοπο, μπορείτε να δείτε την αγγλική "εξειδίκευση" αυτού του προϊόντος λογισμικού. Επιπλέον, κατά τη φόρτωση, διαβάζουμε στο παράθυρο του προγράμματος "Αγγλικά". Γιατί λοιπόν ήταν όλα αυτά απαραίτητα; Είναι ξεκάθαρο ότι φταίνε τα φόρουμ και οι φήμες...

Υπάρχει όμως και μια χρήσιμη εμπειρία. Η φίλη μου ζήτησε να δει την κατάσταση του laptop της. Κάπως αργά άρχισε να δουλεύει. Αυτό δεν προκαλεί έκπληξη - το διαμέρισμα συστήματος είχε μόνο 5% ελεύθερο χώρο. Κατά τη διαγραφή περιττών προγραμμάτων, είδα ότι η επίσημη έκδοση καταλάμβανε περισσότερα από 2,3 GB. Θα χρειαστούμε αυτόν τον αριθμό αργότερα. (εικόνα.07)



Η αναγνώριση της ρωσικής ομιλίας, όπως αποδείχθηκε, δεν ήταν τετριμμένο έργο. Στο Μινσκ, κατάφερα να βρω το "Gorynych" από έναν φίλο. Έψαχνε για αρκετή ώρα τον δίσκο στα παλιά του ερείπια και, σύμφωνα με τον ίδιο, πρόκειται για επίσημη δημοσίευση. Το πρόγραμμα εγκαταστάθηκε αμέσως και ανακάλυψα ότι το λεξικό του περιέχει 5000 ρωσικές λέξεις συν 100 εντολές και 600 αγγλικές λέξεις συν 31 εντολές.

Πρώτα πρέπει να ρυθμίσετε το μικρόφωνο, κάτι που έκανα. Μετά άνοιξα το λεξικό και πρόσθεσα τη λέξη "εξέταση"γιατί δεν υπήρχε στο λεξικό του προγράμματος. Προσπάθησα να μιλήσω καθαρά, μονότονα. Τέλος, άνοιξα το πρόγραμμα Gorynych Pro 3.0, ενεργοποίησα τη λειτουργία υπαγόρευσης και έλαβα αυτή τη λίστα με "λέξεις που μοιάζουν στον ήχο". (εικόνα.09)

Το αποτέλεσμα με μπέρδεψε, γιατί διέφερε σαφώς προς το χειρότερο από τη δουλειά ενός smartphone Android και αποφάσισα να δοκιμάσω άλλα προγράμματα από το " Google Chrome Web Store". Και ανέβαλε την ενασχόληση με τα «γκορίνιτς φίδια» για αργότερα. σκέφτηκα αυτό αναβολήδράση στο αυθεντικό ρωσικό πνεύμα

5. Οι δυνατότητες φωνής της Google

Για να εργαστείτε με φωνή σε έναν κανονικό υπολογιστή με λειτουργικό σύστημα Windows, θα χρειαστεί να εγκαταστήσετε ένα πρόγραμμα περιήγησης Google Chrome. Εάν εργάζεστε στο Διαδίκτυο σε αυτό, τότε κάτω δεξιά μπορείτε να κάνετε κλικ στον σύνδεσμο για το κατάστημα λογισμικού. Εκεί, δωρεάν, βρήκα δύο προγράμματα και δύο επεκτάσεις για φωνητική εισαγωγή κειμένου. Τα προγράμματα καλούνται "Σημειωματάριο φωνής"Και "Voysnot - φωνή σε κείμενο". Μετά την εγκατάσταση, μπορούν να βρεθούν στην καρτέλα "Εφαρμογές"το πρόγραμμα περιήγησής σας "Χρώμιο". (εικόνα.10)

Οι επεκτάσεις ονομάζονται "Google Voice Search Hotword (Beta) 0.1.0.5"Και "Κείμενο φωνητικής εισαγωγής - Speechpad.ru 5.4". Μετά την εγκατάσταση, μπορούν να απενεργοποιηθούν ή να διαγραφούν στην καρτέλα "Επεκτάσεις".(εικόνα.11)

Ηχητικό σημείωμα. Στην καρτέλα της εφαρμογής στο πρόγραμμα περιήγησης Chrome, κάντε διπλό κλικ στο εικονίδιο του προγράμματος. Θα ανοίξει ένα παράθυρο διαλόγου όπως φαίνεται στην παρακάτω εικόνα. Κάνοντας κλικ στο εικονίδιο του μικροφώνου, εκφωνείτε σύντομες φράσεις στο μικρόφωνο. Το πρόγραμμα στέλνει τις λέξεις σας στον διακομιστή αναγνώρισης ομιλίας και πληκτρολογεί το κείμενο στο παράθυρο. Όλες οι λέξεις και οι φράσεις που εμφανίζονται στην εικόνα πληκτρολογήθηκαν με την πρώτη προσπάθεια. Προφανώς, αυτή η μέθοδος λειτουργεί μόνο με ενεργή σύνδεση στο Διαδίκτυο. (εικόνα.12)

Φωνητικό σημειωματάριο. Εάν εκτελέσετε το πρόγραμμα στην καρτέλα εφαρμογών, θα ανοίξει μια νέα καρτέλα στη σελίδα Internet Speechpad.ru. Υπάρχει μια λεπτομερής οδηγία για τον τρόπο χρήσης αυτής της υπηρεσίας και μια συμπαγής φόρμα. Το τελευταίο φαίνεται στην παρακάτω εικόνα. (εικόνα.13)

Φωνητική είσοδοςΤο κείμενο σάς επιτρέπει να συμπληρώνετε με τη φωνή σας τα πεδία κειμένου των σελίδων του Διαδικτύου. Για παράδειγμα, πήγα στη σελίδα μου Google+. Στο πεδίο εισαγωγής νέου μηνύματος, κάντε δεξί κλικ και επιλέξτε "SpeechPad". Το ροζ πλαίσιο εισαγωγής λέει ότι μπορείτε να υπαγορεύσετε το κείμενό σας. (εικόνα.14)

Google Voice Searchσας επιτρέπει να κάνετε φωνητική αναζήτηση. Όταν εγκαθιστάτε και ενεργοποιείτε αυτήν την επέκταση, εμφανίζεται ένα σύμβολο μικροφώνου στη γραμμή αναζήτησης. Όταν το πατήσετε, θα εμφανιστεί ένα σύμβολο σε έναν μεγάλο κόκκινο κύκλο. Απλώς πείτε τη φράση αναζήτησης και θα εμφανιστεί στα αποτελέσματα αναζήτησης. (εικόνα.15)

Σημαντική σημείωση: για να λειτουργεί το μικρόφωνο με επεκτάσεις Chrome, πρέπει να επιτρέψετε την πρόσβαση στο μικρόφωνο στις ρυθμίσεις του προγράμματος περιήγησης. Είναι απενεργοποιημένο από προεπιλογή για λόγους ασφαλείας. Μπαίνω Ρυθμίσεις→Προσωπικά δεδομένα→Ρυθμίσεις περιεχομένου. (Για να αποκτήσετε πρόσβαση σε όλες τις ρυθμίσεις στο τέλος της λίστας, κάντε κλικ Εμφάνιση σύνθετων ρυθμίσεων). Θα ανοίξει ένα πλαίσιο διαλόγου Ρυθμίσεις περιεχομένου σελίδας. Επιλέξτε ένα στοιχείο στη λίστα Πολυμέσα→μικρόφωνο.

6. Αποτελέσματα εργασίας με Ρωσικά προγράμματα αναγνώρισης ομιλίας

Μια μικρή εμπειρία στη χρήση προγραμμάτων εισαγωγής κειμένου μέσω φωνής έδειξε μια εξαιρετική εφαρμογή αυτής της δυνατότητας στους διακομιστές μιας εταιρείας Διαδικτύου Google. Χωρίς καμία προηγούμενη εκπαίδευση, οι λέξεις αναγνωρίζονται σωστά. Αυτό δείχνει ότι το πρόβλημα της αναγνώρισης της ρωσικής ομιλίας έχει λυθεί.

Τώρα μπορούμε να πούμε ότι το αποτέλεσμα της ανάπτυξης Googleθα είναι ένα νέο κριτήριο για την αξιολόγηση προϊόντων άλλων κατασκευαστών. Θα ήθελα το σύστημα αναγνώρισης να λειτουργεί εκτός σύνδεσης χωρίς να επικοινωνήσετε με τους διακομιστές της εταιρείας - είναι πιο βολικό και πιο γρήγορο. Αλλά πότε θα κυκλοφορήσει ένα ανεξάρτητο πρόγραμμα για εργασία με συνεχή ροή ρωσικής ομιλίας είναι άγνωστο. Αξίζει, ωστόσο, να υποθέσουμε ότι με την ευκαιρία να εκπαιδεύσετε αυτό το «δημιούργημα» θα είναι μια πραγματική ανακάλυψη.

Προγράμματα Ρώσων προγραμματιστών "Gorynych", "Δικτόγραφο"Και "Μάχη"Θα αναφερθώ αναλυτικά στο δεύτερο μέρος αυτής της κριτικής. Αυτό το άρθρο γράφτηκε πολύ αργά για το λόγο ότι η αναζήτηση για πρωτότυπους δίσκους είναι πλέον δύσκολη. Αυτή τη στιγμή, έχω ήδη όλες τις εκδόσεις του ρωσικού λογισμικού αναγνώρισης φωνής σε κείμενο, εκτός από το Combat 2.52. Κανένας από τους φίλους ή τους συναδέλφους μου δεν έχει αυτό το πρόγραμμα και εγώ ο ίδιος έχω μόνο μερικές επαινετικές κριτικές στα φόρουμ. Είναι αλήθεια ότι υπήρχε μια τόσο περίεργη επιλογή - λήψη του "Combat" μέσω SMS, αλλά δεν μου αρέσει. (εικόνα 16)


Ένα σύντομο βίντεο κλιπ θα σας δείξει πώς λειτουργεί η αναγνώριση ομιλίας σε ένα smartphone με λειτουργικό σύστημα Android. Ένα χαρακτηριστικό της φωνητικής κλήσης είναι η ανάγκη σύνδεσης με διακομιστές Google. Επομένως, το Διαδίκτυο θα πρέπει να λειτουργεί για εσάς

Τιμή — 199,99 $
Προγραμματιστής ScanSoft
Ιστότοπος www.scansoft.com
Μέγεθος Αρ
Λήψη σελίδαςΟχι
+
Η ευρύτερη λειτουργικότητα. εργάζονται σε όλες τις εφαρμογές των Windows. ισχυρές βάσεις δεδομένων λεξιλογίου
Υψηλή τιμή
! Το καλύτερο λογισμικό αναγνώρισης ομιλίας που υπάρχει

Σίγουρα η καλύτερη μονάδα αναγνώρισης ομιλίας που κυκλοφορεί! Κατά τη διάρκεια της μακράς ιστορίας του, ο Dragon έχει φτάσει από στρατιώτη σε στρατάρχη. όχι, ίσως ακόμα όχι μέχρι τον στρατάρχη, αλλά σίγουρα του άξιζε τον τίτλο του στρατηγού του στρατού. Όλος ο αλγόριθμος εργασίας με το πρόγραμμα είναι εξαιρετικά απλός - συνδέουμε ακουστικά και ένα μικρόφωνο στις αντίστοιχες εξόδους από την κάρτα ήχου και τρέχουμε το ίδιο το βοηθητικό πρόγραμμα. Αρχικά, ο χρήστης θα κληθεί να βαθμονομήσει το επίπεδο ήχου από το μικρόφωνο και να υπαγορεύσει στον υπολογιστή μια σειρά από έτοιμα κείμενα για να ρυθμίσει το Dragon Naturally Speaking στο ηχόχρωμα, τον τονισμό και την προφορά σας. Και τέλος, ένα διαδραστικό tutorial όπου ο χρήστης διδάσκεται βασικές φωνητικές εντολές.

Αξίζει να σημειωθεί ότι ο Η/Υ δεν είναι ζωντανός συνομιλητής και δεν μπορεί να σκεφτεί τις «καταπιεσμένες» συλλαβές ή να καταλάβει μια ακατάληπτη πρόταση. Δεν είναι λιγότερο σημαντική η προφορά του ίδιου του ομιλητή - ένα τέτοιο επίπεδο αγγλικών, το οποίο, για παράδειγμα, ακούγεται σε διάφορα διεθνή επιστημονικά συνέδρια, είναι, καταρχήν, ακατάλληλο για εργασία. Από την άλλη πλευρά, υπάρχει πάντα η δυνατότητα αυτομάθησης: αν ο Dragon δεν θέλει να αναγνωρίσει μια λέξη με οποιονδήποτε τρόπο, μην τεμπελιάζετε να κοιτάξετε στο Lingvo και να την προφέρετε με τη σωστή μεταγραφή. Σας διαβεβαιώνω ότι σε μία ή δύο εβδομάδες το πολύ όχι μόνο θα υπαγορεύετε κιλομπάιτ κειμένων με ευκολία, αλλά και θα επιδεικνύετε την αληθινή αγγλική προφορά μεταξύ των γνωστών σας.

Δεν είστε ακόμα ικανοποιημένοι με την ποιότητα αναγνώρισης; Ελέγξτε το τοπικό Κέντρο Ακρίβειας, το οποίο θα βελτιστοποιήσει το προφίλ χρήστη σας και θα σας διδάξει πώς να προσθέτετε δημοφιλείς νεολογισμούς στο λεξιλόγιό σας. Είναι επίσης δυνατές πιο εξωτικές ενέργειες, όπως η αναγνώριση του περιεχομένου κειμένου ενός αρχείου wav (συμπεριλαμβανομένου του Pocket PC ή απευθείας από την έξοδο γραμμής μιας κάρτας ήχου). Επιπλέον, το Dragon Naturally Speaking μπορεί να εκκινήσει διάφορα προγράμματα, να κάνει εναλλαγή μεταξύ τους και ακόμη και να ελέγξει ορισμένες λειτουργίες τους (για παράδειγμα, έναρξη/παύση της αναπαραγωγής μουσικής στη συσκευή αναπαραγωγής πολυμέσων ή εργασία απευθείας με το μενού). Λοιπόν, οι εκδόσεις Preferred και Professional περιλαμβάνουν επιπλέον τη δική τους μηχανή ομιλίας Real-Speech 2, μία από τις πιο προηγμένες σήμερα.

Ας επιστρέψουμε όμως στην ομιλία. Είναι ιδιαίτερα ευχάριστο ότι μπορείτε να υπαγορεύσετε κείμενο όχι μόνο στον εγγενή επεξεργαστή κειμένου DragonPad, αλλά και σε οποιαδήποτε άλλη παρόμοια εφαρμογή - MS Word, Outlook Express, Internet Ex-plorer και Corel WordPerfect. Με την ίδια επιτυχία, το πρόγραμμα λειτουργεί με ICQ, συνομιλία δικτύου (Network Assistant) και άλλους άμεσους αγγελιοφόρους. Ωστόσο, τότε ορισμένες εντολές γίνονται μη διαθέσιμες, αλλά για να στείλετε ένα μήνυμα, ακόμη και Εισαγωδεν χρειάζεται να κάνετε κλικ, απλώς πείτε: "Νέα παράγραφος" - και το ICQ θα το κάνει αυτόματα. Σε πιο εξειδικευμένες εφαρμογές, ιδίως στο ίδιο Word, χρησιμοποιούνται πρόσθετες εντολές: μορφοποίηση κειμένου, ορθογραφία, επεξεργασία - και όλα αυτά αποκλειστικά μέσω προφορικού λόγου. Εάν το τυπικό σύνολο παραγγελιών δεν ήταν αρκετό, μπορείτε πάντα να δημιουργήσετε τη δική σας, επεκτείνοντας έτσι περαιτέρω τη λειτουργικότητα του Dragon. Χρειάζεται λίγη προσπάθεια και είναι πολύ πιθανό να πληκτρολογήσετε μια σελίδα κειμένου χωρίς καμία επεξεργασία. Το κύριο πράγμα είναι ο σωστός συνδυασμός τονισμού και, φυσικά, της προφοράς. Μην βγάζετε φράσεις, αλλά μην γράφετε σαν πολυβόλο, διαφορετικά το ποσοστό του σωστά κατανοητού υλικού θα τείνει με σιγουριά στο μηδέν. Επιπλέον, δεν είναι καθόλου απαραίτητο να κοιτάτε συνεχώς στο λεξικό - ακόμα κι αν δεν προφέρατε σωστά κάποια φράση (για παράδειγμα, είμαι πολύ χαρούμενος), γνωστή στο πρόγραμμα, θα "μαντέψει" αυτόματα το κείμενο. Εκπληκτικός? Όλα έχουν να κάνουν με το τεράστιο λεξιλόγιο, το οποίο, μαζί με την προηγμένη τεχνολογία αναγνώρισης ομιλίας, δεν αφήνει καμία ευκαιρία στους ανταγωνιστές. Πώς μπορεί κανείς να μην θυμηθεί τις πρώιμες εκδόσεις του Dragon, με τις οποίες ο συγγραφέας αυτών των γραμμών υπέφερε πολύ στο παρελθόν, αλλά δεν πέτυχε έργο υψηλής ποιότητας από αυτές ...

Intelligent Voice Recognition System (IVOS) 2.0.2A
Shareware (δοκιμή 30 ημερών, εγγραφή - 50 $)
Προγραμματιστής ComunX
Ιστοσελίδα www.ivos.biz
Μέγεθος 2,69 MB
Λήψη σελίδας ftp://ftp.download.com/
pub/ppd/1007091810190380/
setup_ivos.exe
+
Το μικροσκοπικό μέγεθος της κατανομής. μεγάλη λειτουργικότητα
Η λειτουργία σύντομης ομιλίας δεν είναι ακόμα στο επίπεδο του Dragon
! Ένα από τα καλύτερα βοηθητικά προγράμματα σε αυτόν τον τομέα

Το πιο μέτριο (από το μέγεθος του κιτ διανομής) πρόγραμμα στην ανασκόπηση αποδείχθηκε εκπληκτικά άξιο και δικαιολογούσε σε μεγάλο βαθμό το δυνατό του όνομα. Ο λόγος για αυτό είναι η καθολικότητά του, που έχει σχεδιαστεί για να εξαλείψει εντελώς τα μέσα "χειροκίνητης" εισαγωγής πληροφοριών. Έτσι, το IVOS σάς επιτρέπει: α) να αναγνωρίζετε την ομιλία και να τη μετατρέπετε σε κείμενο σε οποιονδήποτε επεξεργαστή κειμένου συμβατό με Windows. β) διαχειριστείτε τον υπολογιστή σας με μια ποικιλία φωνητικών εντολών, καθώς και δημιουργήστε το δικό σας. γ) φωνητικά ηλεκτρονικά βιβλία που χρησιμοποιούν εξωτερικές μηχανές φωνής. Επιπλέον, φυσικά, μικροπράγματα όπως η εξαγωγή κειμένου από αρχεία Wav, ένας βολικός πίνακας ελέγχου προγράμματος που δεν επιβαρύνει την οθόνη και μια προσιτή (σε σύγκριση με τον ίδιο Dragon) τιμή. Μόλις εγγραφεί, ο χρήστης έχει πρόσβαση στην τεχνολογία VoiceTouch, επιτρέποντας στον υπολογιστή να διδάξει τις δικές σας λεκτικές εντολές.

Η αποτελεσματικότητα της εκτέλεσης εντολών είναι εκπληκτικά υψηλή - ίσως ακόμη καλύτερη από το Realize Voice. Αλλά το επίπεδο αναγνώρισης των «διαλέξεων» θα είναι χαμηλότερο, κάτι που δεν είναι παράξενο: άλλο είναι να καταλαβαίνεις μερικές λέξεις και εντελώς άλλο να κατανοείς μια ολόκληρη πρόταση. Θα πρέπει να σημειωθεί ότι το IVOS, όπως και πολλά άλλα προγράμματα αναγνώρισης ομιλίας, εκτός από το Dragon, χρησιμοποιεί τη μονάδα Speech API της Microsoft για τέτοιους σκοπούς και η απόδοσή του σε αυτόν τον τομέα εξαρτάται άμεσα από τη δημιουργική επιτυχία αυτής της εταιρείας. Ωστόσο, είναι δυνατό να επιτευχθεί εργασία υψηλής ποιότητας από το IVOS ήδη τώρα, έχοντας διαβάσει στο πρόγραμμα όλα τα εκπαιδευτικά κείμενα που είναι διαθέσιμα στο απόθεμά του. Φυσικά, στο τέλος, δεν θα φτάσει στο επίπεδο του Dragon Naturally Speaking, αλλά είναι αρκετά ικανή να πληκτρολογήσει όχι πολύ περίπλοκα έγγραφα. Και αν ανανεώνετε τακτικά το λεξικό χρήστη, τότε δεν θα υπάρχουν ιδιαίτερα προβλήματα με τους επιστημονικούς όρους. Είναι αλήθεια ότι εδώ προκύπτει ένα δίλημμα - την εβδομάδα που θα πρέπει να δαπανηθεί για τη διδασκαλία του βοηθητικού προγράμματος όλες τις περιπλοκές της εργασίας με την ομιλία, είναι πολύ πιθανό να κυριαρχήσετε τη μέθοδο της τυφλής πληκτρολόγησης με δέκα δάχτυλα στο πληκτρολόγιο με επιταχυνόμενο ρυθμό . .. Από την άλλη πλευρά, τα προσόντα ενός χρήστη Η/Υ θα αυξηθούν μόνο εάν κατέχει πολλές μεθόδους εισαγωγής πληροφοριών σε έναν υπολογιστή.

Realize Voice 4.0

Realize Voice 4.0
Shareware (δοκιμή 15 ημερών, εγγραφή - 49,00 $)
Προγραμματιστής Realize Software Corporation
Ιστότοπος www.realizesoftware.com
Μέγεθος 55 MB
Λήψη σελίδας
www.realizesoftware.com/
download/RzRV40download.exe (Εγκατάσταση Ιστού)
+
Ανεπιτήδευτο στην προφορά του χρήστη. ένα πολύ ευρύ σύνολο εντολών
Η ποιότητα της εργασίας θα μπορούσε να είναι ακόμα καλύτερη. εγκατεστημένο μόνο στην αγγλική έκδοση των Windows
! Ελέγξτε τον υπολογιστή σας μόνο με τη φωνή σας

Το Realize Voice, σε αντίθεση με το Dragon Naturally Speaking που αναθεωρήθηκε προηγουμένως, δεν είναι πολύ ικανό για στενογραφία (αν και μια τέτοια λειτουργία βρίσκεται στο οπλοστάσιό του), αλλά αντιμετωπίζει έξοχα τις φωνητικές εντολές. Είναι αξιοσημείωτο ότι δεν χρειάζεστε εξαιρετικά βαθιά γνώση στον τομέα των Αγγλικών - χάρη στην έξυπνη ενότητα του ευρετικού αναλυτή, το πρόγραμμα θα βρει εύκολα μια κοινή γλώσσα με σχεδόν κάθε ομιλητή. Το φάσμα των λειτουργιών Realize Voice είναι αρκετά ευρύ: από την εκκίνηση εκτελέσιμων αρχείων και συντομεύσεων προγραμμάτων μέχρι την εργασία με αλληλογραφία και πολύπλοκες μακροεντολές. Όπως και σε άλλα παρόμοια προγράμματα, ο χρήστης χρειάζεται μόνο ένα συνδεδεμένο μικρόφωνο και μερικά λεπτά για να φτάσει στην ουσία των πραγμάτων. Και πριν προχωρήσετε στην πραγματική επικοινωνία με το βοηθητικό πρόγραμμα, αξίζει να προσδιορίσετε το εύρος εργασίας για αυτό. Από προεπιλογή, οι συντομεύσεις μενού συστήματος εμπίπτουν σε αυτήν την κατηγορία, επιφάνεια εργασίας, περιεχόμενα φακέλου Αγαπημένακαι γραμμές γρήγορης εκκίνησης, καθώς και έγγραφα και προγράμματα που άνοιξαν πρόσφατα. Η όλη διαδικασία είναι πλήρως αυτοματοποιημένη και εκτελείται κυριολεκτικά άμεσα. Είναι αλήθεια ότι κάποια ταλαιπωρία προκαλείται από την αδυναμία χρήσης αριθμών στο όνομα εντολών - για παράδειγμα, θα είναι δυνατή η εκκίνηση του DOOM 3 χρησιμοποιώντας μια φωνητική εντολή μόνο μετονομάζοντας τη συντόμευση σε "DOOM Three". Παρεμπιπτόντως, το ίδιο ισχύει και για το κυριλλικό αλφάβητο - δεν είναι τόσο διασκεδαστική προοπτική, έτσι; Ωστόσο, σε μια τέτοια περίπτωση, μπορείτε πάντα να καταφύγετε στη χειροκίνητη ρύθμιση παραμέτρων του προγράμματος, υποδεικνύοντας απευθείας τη διαδρομή προς το αρχείο/έγγραφο/γραφική εικόνα που σας ενδιαφέρει κ.λπ. Εδώ, το όνομα του αρχείου και οι συντεταγμένες του δεν έχουν σημασία - ακόμα και αν είναι abvgd.exe, ναι Και Επιφάνεια εργασίαςδεν χρειάζεται να χαλάσεις. Ήμουν επίσης πολύ ευχαριστημένος με το σύνολο των ενσωματωμένων εντολών συστήματος για εργασία με Windows - αν και δεν είναι πολύ μεγάλο, μπορεί να μετακινηθεί μεταξύ ανοιχτών παραθύρων, να μιμηθεί τη δράση των πιο κοινών πλήκτρων ( Spacebar, Insert, Homeκ.λπ.), είναι πολύ πιθανό να απενεργοποιήσετε και να μπλοκάρετε το σύστημα με τη βοήθειά του.

Λίγα λόγια για τις μακροεντολές. Το βοηθητικό πρόγραμμα σάς επιτρέπει να συνδυάσετε μια ολόκληρη σειρά λειτουργιών κάτω από μία εντολή - από την εισαγωγή χαρακτήρων από το πληκτρολόγιο και τις εντολές του συστήματος έως τη σύνθεση ομιλίας χρησιμοποιώντας την ενσωματωμένη μηχανή φωνής. Είναι αλήθεια ότι ένα τέτοιο ειδύλλιο όπως η ηχογράφηση ενός CD με τη βοήθεια μιας μόνο φράσης είναι ακόμα μακριά, αλλά ο χρόνος θα δείξει ... Το κύριο πράγμα είναι ότι ήδη τώρα μπορείτε (και όχι ανεπιτυχώς!) "να κατευθύνετε" το κατοικίδιό σας χωρίς κανένα αναχρονισμούς όπως το ποντίκι και το πληκτρολόγιο. Δοκιμάστε το - δεν θα το μετανιώσετε!

Voice Studio 1.4.6

Voice Studio 1.4.6
Shareware (7 ημέρες δοκιμή, εγγραφή - 20,97 $)
Developer Ultimate Interactive Desktop's
Ιστοσελίδα www.voicestudio.us
Μέγεθος 57 MB
Λήψη σελίδας
ftp://ftp.voicestudio.us/
pub/dl2/vssetup.exe
+
Εξαιρετική λειτουργικότητα? η παρουσία ενός "ζωντανού" χαρακτήρα κινουμένων σχεδίων. πολύ χαμηλή τιμή
Το MS SAPI χρησιμοποιείται για την αναγνώριση ομιλίας. μάλλον υψηλή κατανάλωση πόρων
! Εξαιρετική προσθήκη στο Dragon για φωνητικό έλεγχο υπολογιστή

Ίσως ένα από τα λίγα, αν όχι το μοναδικό τέτοιο πρόγραμμα, όπου ο εικονικός συνομιλητής μας από την άλλη πλευρά της οθόνης πήρε τελικά υλική μορφή. Και παρόλο που η τεχνολογία MS Agent, η οποία χρησιμοποιείται για αυτούς τους σκοπούς, δύσκολα μπορεί να ονομαστεί πρωτότυπο τεχνητής νοημοσύνης, έχει όλες τις προϋποθέσεις για αυτό. Ο βοηθός κινουμένων σχεδίων δεν είναι μόνο προικισμένος με έναν ορισμένο βαθμό ανεξαρτησίας, αλλά ξέρει επίσης πώς να ανταποκρίνεται σε ορισμένες τυπικές φράσεις (όπως "Γεια!", "Πώς νιώθεις", "Κακός υπολογιστής" κ.λπ.). Εάν το επιθυμείτε, είναι εύκολο να αναπληρώσετε το λεξιλόγιο και το φρασεολογικό απόθεμά του και επιπλέον, να ορίσετε τις ενέργειές του ανάλογα με τη "διάθεση". Αν και τέτοια φλυαρία με υπολογιστή θα περιοριστεί στο εύρος των γνώσεων του προγράμματος, κανείς δεν μπαίνει στον κόπο να το επεκτείνει σχεδόν επ' αόριστον. Και εκεί είναι ήδη σε απόσταση αναπνοής για την περιβόητη AI ... Ωστόσο, παρεκκλίνω λίγο.

Στην πραγματικότητα, με τη λειτουργικότητα του Voice Studio, όλα είναι σε τέλεια τάξη - συντομογραφία (αν και το Dragon είναι πολύ καλύτερο), μια ποικιλία φωνητικών εντολών (μπορείτε να τις εκτυπώσετε για μεγαλύτερη ευκολία και ταχύτερη απομνημόνευση), καθώς και αποδεκτή σύνθεση ομιλίας μηχανής . Από πιο σοβαρά πράγματα - δημιουργία μακροεντολών για εκτέλεση μιας σειράς λειτουργιών ταυτόχρονα με μία λέξη-κλειδί, ακόμη και εγγραφή και αναπαραγωγή κινήσεων του ποντικιού! Επιτρέψτε μου να σας υπενθυμίσω ότι το τελευταίο "χαρακτηριστικό" χρησιμοποιείται ευρέως σε πολλά εναλλακτικά προγράμματα περιήγησης όπως το GreenBrowser ή το MyIE2 για την εκτέλεση ενός αριθμού ενεργειών (μεταβείτε σε άλλη σελίδα, ανοίξτε ένα νέο παράθυρο κ.λπ.). Τώρα δεν χρειάζονται περιττές χειρονομίες - απλώς πείτε την κατάλληλη εντολή και ο υπολογιστής θα αναδημιουργήσει αυτόματα το σενάριο που είχε εγγραφεί προηγουμένως. Ποιος ξέρει, ίσως σύντομα θα παίξουμε παιχνίδια μόνο με ένα μικρόφωνο; Ο χρόνος θα δείξει…

Στο μεταξύ, το Voice Studio αξίζει αναμφίβολα την υψηλότερη βαθμολογία για την εκπληκτική φιλικότητα και την ευκολία χρήσης του. Αφήστε τη σωστή ηχογράφηση της ομιλίας να μην είναι ακόμα στη δύναμή της, αλλά ο φωνητικός έλεγχος του υπολογιστή εδώ είναι απλά ασύγκριτος. Το καλύτερο από αυτά τα βοηθητικά προγράμματα και μια άξια προσθήκη στο Dragon!

Υπαγόρευση 2004 τ.4.5.2399

Υπαγόρευση 2004 τ.4.5.2399
Shareware (7 ημέρες δοκιμή, εγγραφή - 49,99 $)
Developer United Research Labs
Ιστοσελίδα www.research-lab.com
Μέγεθος 41 MB
Λήψη σελίδας
www.bandwidthsaver.com/
downloads/dict2002.zip
+
Βασικό σύνολο λειτουργιών για τη διαχείριση ενός υπολογιστή και την εγγραφή ομιλίας. εξαιρετική δουλειά με αρχεία wav
Δεν είναι οι καλύτερες βαθμολογίες αναγνώρισης ομιλίας. ενοχλητικό πρόγραμμα επεξεργασίας κειμένου
! Πολύ λίγο για την τιμή

Παρά τις φαινομενικά εντελώς τυπικές βασικές δεξιότητες, το Dictation 2004 εξακολουθεί να υπερηφανεύεται για κάτι. Πρώτα απ 'όλα, αυτή είναι η τεχνολογία Point-and-Speak, η οποία διευκολύνει τη δημιουργία εντολών για την εισαγωγή κωδικών πρόσβασης, την εκκίνηση λογισμικού και την υπαγόρευση σχεδόν σε όλες τις εφαρμογές των Windows. Δηλώνεται ενσωμάτωση με το MS Word, καθώς και έξυπνη τεχνολογία για τον σωστό ορισμό των φράσεων. Είναι αλήθεια ότι εφαρμόζεται εξαιρετικά άβολα - με τη μορφή ενός αναδυόμενου παραθύρου που εμφανίζεται με κάθε λέξη που λέγεται και αποθαρρύνει μόνο κάθε επιθυμία για εργασία. Είναι καλό που μπορείτε να το απενεργοποιήσετε. Το Dictation 2004 χρησιμοποιεί το ίδιο SAPI 5.1, επομένως η ποιότητά του δεν διαφέρει ουσιαστικά από άλλα λογισμικά που βασίζονται στην ίδια τεχνολογία (Voxx, IVOS, Realize Voice, κ.λπ.). Από τις πρόσθετες λειτουργίες, αξίζει να σημειωθεί το WAV Recorder για τη λήψη πληροφοριών από κασέτες ήχου, φορητές συσκευές, μικρόφωνα και στη συνέχεια εγγραφή σε αρχεία wav. τότε το κείμενο εξάγεται από αυτά χρησιμοποιώντας μια ξεχωριστή μικροεφαρμογή Υπαγόρευσης - Wave-to-Text. Μέχρι στιγμής, βέβαια, απέχει πολύ από το ιδανικό, αλλά αν ο ομιλητής έχει καθαρό λόγο και καλή προφορά, τότε δεν θα υπάρχουν προβλήματα.

+
Ευελιξία στην εργασία. ποικιλία δυνατοτήτων
— Η «εκπαίδευση» του προγράμματος θα πάρει πολύ χρόνο ! Ενδιαφέρον προϊόν, αλλά θα μπορούσε να είναι καλύτερο...

Μια άλλη "βύσμα όλων των συναλλαγών" που σας επιτρέπει να συνομιλείτε με τον υπολογιστή σας ό,τι θέλετε. Η λίστα των δυνατοτήτων του προγράμματος είναι πολύ παρόμοια με αυτή του IVOS (συντομογραφία / φωνητικές εντολές / ανάγνωση κειμένου), εκτός από το ότι υπάρχει ένα χρήσιμο μπόνους εδώ - σχολαστική έκφραση κάθε ενέργειας, είτε πρόκειται για πληκτρολόγηση είτε για άνοιγμα αρχείου. Το πρόγραμμα χρησιμοποιεί το ίδιο Microsoft Speech API με το IVOS, επομένως η ποιότητα αναγνώρισής του είναι παρόμοια. Υπάρχει ένα καλό σύνολο φωνητικών εντολών για πλοήγηση στο πρόγραμμα περιήγησης, στοιχειώδεις λειτουργίες σε ένα πρόγραμμα επεξεργασίας κειμένου (αποκοπή / αντιγραφή / επικόλληση κ.λπ.), καθώς και εργασία με παράθυρα, υπάρχουν συντομεύσεις για την κλήση μικροεφαρμογών του συστήματος, ακόμη και το άνοιγμα / κλείσιμο του δίσκος οπτικού δίσκου - γενικά, τα πάντα για άνετη εργασία. Όσο για τη σύνθεση ομιλίας, εξαρτάται άμεσα από τις αντίστοιχες μονάδες που είναι εγκατεστημένες στο σύστημα. Οι δωρεάν κινητήρες της Microsoft, που παρέχονται με το πρόγραμμα, απέχουν πολύ από το να είναι ιδανικοί, αλλά, κατ 'αρχήν, μπορείτε να τους συνηθίσετε. Μια πιο βολική επιλογή, δυστυχώς, όχι δωρεάν, είναι να δοκιμάσετε εξελίξεις τρίτων, ιδιαίτερα το Digit PC, το οποίο, επιπλέον, έχει ένα πολύ καλό ηχείο που μιλάει ρωσικά. Λαμβάνοντας υπόψη όλα τα πλεονεκτήματα και τα μειονεκτήματα, το Voxx θα ήταν ένας καλός υποψήφιος για αγορά. Παρεμπιπτόντως, η δοκιμαστική έκδοση περιορίζεται μόνο από τον αριθμό των φράσεων/εντολών ανά περίοδο λειτουργίας. για να ξεκινήσετε μια νέα συνεδρία, απλώς επανεκκινήστε το πρόγραμμα ...

συμπέρασμα

Παρά τις πολλές ακόμη ελλείψεις, τα προγράμματα αναγνώρισης ομιλίας έχουν ήδη μετακινηθεί από την τάξη των παιχνιδιών σε ένα σοβαρό εργαλείο για έναν επιχειρηματία. Αν νωρίτερα δεν είχε νόημα από αυτούς, τώρα καθιστούν δυνατό να κάνουν πραγματικά τη ζωή του χρήστη πιο εύκολη και να καταστρέψουν το προηγουμένως ακλόνητο στερεότυπο ότι ένας υπολογιστής είναι απλώς ένα σιδερένιο κουτί που αλέθει αριθμούς. Και φυσικά, το πιο ευχάριστο γεγονός είναι η ευκαιρία να νιώσεις την τεχνολογική πρόοδο του 21ου αιώνα, για την οποία τόσοι πολλοί συγγραφείς επιστημονικής φαντασίας έχουν γράψει τόσο συχνά, ήδη τώρα. Πάρε μέρος τώρα!