러시아어 음성 인식 프로그램. 음성 인식 프로그램

아마도 오디오 플레이어와 텍스트 편집기를 결합한 Windows 및 Mac OS용 가장 편리한 텍스트 전사 프로그램일 것입니다. 작동 원리는 매우 간단합니다. 오디오 파일을 프로그램에 로드하고 키보드의 단축키를 사용하여 듣고(직접 지정할 수 있음) 동시에 텍스트를 입력합니다. 재생 속도와 오디오 볼륨도 키보드를 사용하여 조정됩니다. 이렇게 하면 손이 항상 키보드 위에 있고 마우스를 사용하거나 다른 프로그램 간에 전환할 필요가 없습니다. 내장된 텍스트 편집기는 오류를 인식하지 못하고 대시에서 하이픈 전환과 같은 익숙한 기능이 많지 않다는 점을 고려해야 합니다. 그러나 단축키를 사용하여 오디오 재생을 제어함으로써 Express Scribe와 동시에 다른 텍스트 편집기를 사용할 수 있습니다. 이 프로그램은 셰어웨어이며 전체 비용은 $17-50입니다.

02. 전사기 프로

오디오를 듣는 것뿐만 아니라 비디오 파일도 볼 수 있는 Windows용 러시아어 프로그램입니다. 내장된 텍스트 편집기에는 타임스탬프와 대화 상대의 이름을 추가하는 기능이 있습니다. 결과 텍스트는 "대화형 기록"으로 가져올 수 있으며 그룹 프로젝트의 일부로 조정할 수도 있습니다. 이 응용 프로그램은 연간 구독으로만 사용할 수 있으며 비용은 연간 689 루블입니다.

03.RS플레이어 V1.4

단축키 지원과 Microsoft Word 입력 기능을 갖춘 오디오 파일을 처리하고 복사하는 간단한 프로그램입니다. 이전 유사 프로그램과 달리 무료로 다운로드가 가능하지만, 새 버전의 Windows에서는 불안정합니다.

04. 보코

음성을 텍스트로 변환하는 전문 Windows 애플리케이션입니다. 모든 테스트 브라우저에서 음성 입력을 지원하고 주제별 사전 컬렉션이 많으며 음성 인식을 위해 인터넷 연결이 필요하지 않습니다. 확장 버전 "Voco.Professional" 및 "Voco.Enterprise"는 기성 오디오 파일과 함께 작동할 수 있습니다. 유일한 단점은 응용 프로그램 비용이 높다는 것입니다.

05. 드래곤 받아쓰기

음성 받아쓰기를 인식하는 무료 모바일 애플리케이션입니다. 이 프로그램은 약 40개 언어와 그 종류를 인식할 수 있으며 텍스트를 편집하여 이메일, 소셜 네트워크로 보내거나 클립보드에 복사할 수 있습니다. 작동하려면 인터넷 연결이 필요합니다.

06.리얼스피커

오디오 파일을 인식할 수 있을 뿐만 아니라 카메라에 대고 말하는 실시간 음성도 인식할 수 있는 독특한 애플리케이션입니다. 특별한 비디오 확장 기능 덕분에 "RealSpeaker"는 입술 움직임을 읽어 다른 유사한 알고리즘에 비해 음성 인식 프로세스를 최대 20-30% 향상시킵니다. 현재 이 애플리케이션은 러시아어, 영어(미국 및 영국 방언), 프랑스어, 독일어, 중국어, 한국어 및 일본어, 터키어, 스페인어, 이탈리아어, 우크라이나어 등 11개 언어를 지원합니다. 이 프로그램은 무료로 배포되며 비용은 구독 기간에 따라 다르며 무제한 버전 비용은 약 2,000루블입니다.

다사다난한 현대 사회에서 정보 작업 속도는 성공을 위한 초석 중 하나입니다. 우리의 업무 성과와 생산성, 즉 즉각적인 물질적 부는 우리가 정보를 얼마나 빨리 받고, 생성하고, 처리하는지에 달려 있습니다. 작업 능력을 향상시킬 수 있는 도구 중에서 음성을 텍스트로 번역하는 프로그램이 중요한 위치를 차지하여 필요한 텍스트 입력 속도를 크게 높일 수 있습니다. 이 자료에서는 오디오 음성을 텍스트로 변환하는 데 널리 사용되는 프로그램과 그 기능이 무엇인지 알려 드리겠습니다.

현재 음성을 텍스트로 변환하는 대부분의 기존 프로그램은 유료이며 마이크에 대한 여러 요구 사항이 있습니다(프로그램이 컴퓨터용인 경우). 웹캠에 내장된 마이크나 표준 노트북 본체에 있는 마이크를 사용하여 작업하는 것은 권장되지 않습니다(이러한 장치의 음성 인식 품질은 매우 낮습니다). 또한, 음성 인식 수준에 직접적인 영향을 미칠 수 있는 불필요한 소음이 없는 조용한 환경을 유지하는 것이 매우 중요합니다.

더욱이 이러한 프로그램의 대부분은 음성을 컴퓨터 화면의 텍스트로 변환할 수 있을 뿐만 아니라 음성 명령을 사용하여 컴퓨터를 제어할 수도 있습니다(프로그램 시작 및 닫기, 이메일 수신 및 보내기, 웹 사이트 열기 및 닫기 등).

음성을 텍스트로 변환하는 프로그램

음성을 텍스트로 번역하는 데 도움이 되는 프로그램에 대한 직접적인 설명으로 넘어가겠습니다.

라이티스 프로그램

무료 러시아어 음성 인식 프로그램인 "Laitis"는 음성 이해 능력이 뛰어나며 제작자에 따르면 사용자의 일반적인 키보드를 거의 완전히 대체할 수 있다고 합니다. 이 프로그램은 음성 명령과도 잘 작동하므로 컴퓨터를 제어하기 위한 다양한 작업을 수행할 수 있습니다.

프로그램을 작동하려면 PC에 고속 인터넷이 필요합니다(프로그램은 Google 및 Yandex의 네트워크 음성 인식 서비스를 사용합니다). 또한 이 프로그램의 기능을 사용하면 음성 명령을 사용하여 브라우저를 제어할 수 있으며, 이를 위해서는 웹 탐색기에 "Laitis"(Chrome, Mozilla, Opera)의 특수 확장 프로그램을 설치해야 합니다.

"Dragon Professional" - 오디오 녹음을 텍스트로 복사

이 자료를 작성하는 시점에는 디지털 영어 제품입니다. « Dragon Professional Individual'은 인정받은 텍스트의 품질에 있어서 세계적인 리더 중 하나입니다. 이 프로그램은 7개 언어(지금까지는 Dragon Anywhere 모바일 애플리케이션만 러시아어로 작동함)를 이해하고 고품질 음성 인식 기능을 갖추고 있으며 다양한 음성 명령을 수행할 수 있습니다. 또한 이 제품은 독점적으로 지불됩니다(메인 프로그램의 가격은 미화 300달러이고 Dragon Home 제품의 "홈" 버전의 경우 구매자는 미화 75달러를 지불해야 합니다).

Nuance Communications의 이 제품을 작동하려면 프로그램의 기능을 사용자의 음성 특성에 맞게 조정하도록 설계된 자신만의 프로필을 생성해야 합니다. 텍스트를 직접 받아쓰는 것 외에도 다양한 명령을 수행하도록 프로그램을 훈련시켜 컴퓨터와의 상호 작용을 더욱 일관되고 편리하게 만들 수 있습니다.

"RealSpeaker" - 초정밀 음성 인식기

이러한 종류의 프로그램에 대한 표준 기능 외에도 음성을 텍스트로 변환하는 프로그램인 "RealSpeaker"를 사용하면 PC 웹캠의 기능을 사용할 수 있습니다. 이제 프로그램은 소리의 오디오 구성요소를 읽을 뿐만 아니라 말하는 사람의 입술 모서리의 움직임도 기록하여 그가 발음하는 단어를 더 정확하게 인식합니다.

"RealSpeaker"는 오디오뿐만 아니라 음성 프로세스의 시각적 구성 요소도 읽습니다.

이 응용 프로그램은 10개 이상의 언어(러시아어 포함)를 지원하고, 악센트와 방언을 고려한 음성 인식을 허용하고, 오디오 및 비디오를 전사할 수 있으며, 클라우드에 대한 액세스를 제공합니다. 이 프로그램은 셰어웨어이지만 유료 버전의 경우 실제 돈을 지불해야 합니다.

"Voco" - 이 프로그램은 귀하의 음성을 텍스트 문서로 빠르게 변환합니다.

또 다른 음성-텍스트 변환기는 유료 디지털 제품인 "Voco"이며, "홈" 버전의 가격은 현재 약 1,700 루블입니다. 이 프로그램의 고급 버전과 값비싼 버전인 "Voco.Professional" 및 "Voco.Enterprise"에는 여러 가지 추가 기능이 있으며 그 중 하나는 사용자 오디오 녹음의 음성 인식입니다.

Voco의 기능 중에는 프로그램의 어휘를 확장하는 기능(현재 프로그램의 어휘에는 85,000개 이상의 단어가 포함됨)과 네트워크에서의 자율적 작동이 있어 인터넷 연결에 의존하지 않아도 된다는 점에 주목하고 싶습니다. .

Voco의 장점 중 하나는 프로그램의 높은 학습 곡선입니다.

응용 프로그램은 매우 간단하게 활성화됩니다. "Ctrl" 키를 두 번 누르기만 하면 됩니다. 응용 프로그램은 완전 무료이며 러시아어를 포함한 수십 가지 언어를 지원합니다.

결론

위에는 오디오 음성 녹음을 텍스트로 변환하는 프로그램을 나열하고 일반적인 기능과 특징을 설명했습니다. 이러한 제품의 대부분은 일반적으로 유료이며 러시아어 프로그램의 범위와 품질은 영어 프로그램에 비해 질적으로 열등합니다. 이러한 응용 프로그램을 사용할 때는 마이크와 해당 설정에 특별한 주의를 기울이는 것이 좋습니다. 이는 음성 인식 과정에서 중요합니다. 마이크가 불량하면 제가 검토한 유형의 최고 품질 소프트웨어도 무효화될 수 있기 때문입니다.

음성 인식 프로그램에는 두 가지 유형이 있습니다.

1. 화자와 연결됨 - 이 프로그램은 지속적으로 학습하며 시간이 지남에 따라 "주인"의 목소리를 점점 더 잘 이해하기 시작합니다. 사용자가 프로그램에서 더 자주 작업할수록 사용자를 더 잘 이해하게 됩니다. 다행스럽게도 학습 과정은 매우 빠르게 진행됩니다. 약 20분 안에 프로그램은 사용자를 아주 잘 이해하는 방법을 배울 것입니다.

2. 스피커와 상관없이 즉시 말하기를 시작할 수 있습니다. 프로그램이 음성 명령에 응답합니다. 첫 번째 유형과 달리 이러한 프로그램은 사용자를 이해하는 방법을 배울 필요가 없습니다. 반대로, 프로그램이 당신을 이해할 수 있도록 말하는 법을 배워야 합니다.

PC에서 음성 인식 소프트웨어를 사용하는 이유는 무엇입니까?

음성 인식 프로그램을 설치하면 더 이상 키보드와 마우스가 필요하지 않지만 PC 작업이 훨씬 쉬워질 것이라고 생각하지 마십시오.

1. 받아쓰기 - 음성 인식 프로그램을 사용하여 많은 사용자가 문서의 텍스트를 받아쓰기합니다. 예를 들어, 이 기회는 검사를 수행하는 의사(보통 손이 바쁜 동안)와 동시에 결과를 기록하는 데 적합합니다. 어떤 이유로 텍스트를 입력하기 어려운 일반 사용자(또는 단순히 너무 게으른 사용자)에게도 유용할 수 있습니다.

2. 명령 입력 - PC 사용자는 "인식기"를 사용하여 명령을 입력할 수 있습니다. 즉, 음성 단어는 시스템에서 마우스 클릭으로 인식됩니다. 사용자가 "파일 열기", "메일 보내기" 또는 "새 창"과 같은 명령을 내리면 컴퓨터는 해당 작업을 수행합니다. 이는 특히 장애가 있는 사람들에게 해당됩니다. 마우스와 키보드 대신 음성을 사용하여 컴퓨터를 제어할 수 있습니다.

음성 인식에는 무엇이 필요합니까?

1. 음성 인식 프로그램 - 영어를 사용하는 Windows 사용자는 Dragon Naturally Speaking 또는 IBM Via Voice 등을 사용할 수 있습니다. 러시아어는 "Gorynych" 및 "Dictograph" 프로그램으로 이해됩니다. 음성 인식 소프트웨어는 이미 Windows Vista 운영 체제에 내장되어 있습니다.

2. 마이크 또는 헤드셋(이어폰과 마이크의 하이브리드) - 컴퓨터에 단어를 "입력"합니다.

3. 충분히 강력한 컴퓨터 – 음성 인식 기능이 작동하기 위해 컴퓨터가 초고속일 필요는 없습니다. 1GB RAM이면 충분하며(Windows Vista의 경우 2GB가 더 좋음) 프로세서 클럭 속도는 1GHz 이상입니다.

음성 인식을 사용하는 장치는 무엇입니까?

음성인식 기능은 PC뿐만 아니라 다양한 기기에서도 활용이 가능합니다. "가젯"에 작은 키가 있는(또는 키가 전혀 없는) 소형 키보드가 있는 경우 특히 그렇습니다.

1. 휴대폰 - 음성 제어 기능이 있는 모델은 수년 동안 출시되었습니다. 그러나 이는 음성 인식과는 아무런 관련이 없습니다. 장치는 음성을 텍스트로 변환하지 않고 음성 문구를 미리 녹음된 문구와 비교합니다(후자는 "참조"이며 일반적으로 "음성 태그"라고 함). 음성 태그는 주소록 항목(음성 다이얼링) 또는 메뉴 항목(음성 제어)에 해당할 수 있습니다. 전화기에 처음에 적절한 기능이 없으면 "훈련"하는 것이 불가능합니다.

2. 모바일 내비게이터 - Tom Tom Go 720T와 같은 새로운 내비게이션 장치에서는 운전자가 음성으로 목적지를 입력할 수 있습니다. 단어를 명확하게 발음하고 가능하면 조용히 발음하면 이 기능이 아주 잘 작동합니다. 이 작업은 키보드 입력과 동일한 시간이 소요되지만 운전 중에 음성 제어를 사용하는 것이 여전히 더 안전하고 편리합니다. 사실, 손 없이는 완전히 할 수 없습니다. 음성 명령을 실행하려면 화면 버튼을 눌러야 합니다.

3. 자동차 - Mercedes, Audi, Toyota, Ford 또는 BMW와 같은 일부 신차 브랜드는 음성을 사용하여 제어할 수 있습니다(명령 세트는 제한되어 있음). 예를 들어, 일부 BMW 모델에서는 스티어링 휠에 있는 버튼(그림 참조)을 누르면 스테레오 시스템 또는 내비게이션 시스템의 음성 제어 기능이 활성화됩니다.

4. 외국어 학습용 멀티미디어 디스크 - 일부 교육 프로그램에서는 정확한 발음을 확인합니다. 프로그램은 특정 문장을 읽어달라고 요청하고, 음성인식 기능을 이용해 결과를 처리한 후 발음에 문제가 없는지 알려준다.

인식 프로그램을 사용할 때 어떤 문제가 발생합니까?

장치를 제어하거나 텍스트를 받아쓰기하는 것은 충분히 잘 작동하지만 불행히도 완벽하지는 않습니다. 이는 다음과 같은 여러 가지 이유로 인해 발생합니다.

1. 단어가 항상 동일하게 들리는 것은 아닙니다 - 음성 인식의 가장 큰 어려움은 아무리 노력해도 같은 단어를 같은 방식으로 발음하는 사람이 없다는 것입니다.

2. 모든 사람은 다르게 말합니다. 따라서 새로운 사용자가 먼저 조금 "훈련"하면 음성 인식 프로그램이 더 명확하게 작동합니다. 사실, 이것이 항상 가능한 것은 아니며 때로는 대담자와 연결되지 않은 프로그램을 사용할 때와 같이 필요하지도 않습니다. 많은 음성 인식 프로그램은 새로운 사용자에 자동으로 적응할 수 있습니다.

3. 배경 소음은 말하는 소리를 크게 왜곡할 수 있습니다. 이는 음성 인식 기능을 크게 제한하며 혼잡하거나 시끄러운 장소에서는 완전히 불가능합니다.

4. 빠른 말하기 - 일부 사용자는 매우 빠르게 말하며 단어가 거의 합쳐집니다. 대담자는 그러한 연설을 쉽게 이해할 것이지만 프로그램은 그러한 작업을 수행하기에는 "너무 힘들 것"입니다.

5. 동일한(또는 매우 유사한) 소리를 가진 단어 - 소위 동음이의어가 있는 음성 인식 프로그램에서는 특히 어렵습니다. 즉 거의 동일하게 발음되지만 철자가 다른 단어(“lez” 및 “les”, “rot”) " 및 "막대" "). 프로그램은 문장의 맥락에 따라 그러한 단어의 의미를 결정해야 합니다.

음성 인식의 미래는 어떻게 될까요?

휴대폰에서는 휴대폰의 작은 키보드로 문자를 입력하는 것이 매우 지루하기 때문에 음성 인식 기능의 역할이 크게 늘어날 것입니다.

1. SMS 메시지 받아쓰기 - 곧 휴대폰에 문자 메시지를 입력할 필요가 없이 간단히 받아쓰기할 수 있습니다. 삼성은 일부 휴대폰 모델에 이 기능을 구현할 것을 약속합니다(가까운 미래에 시장에 출시될 예정입니다).

2. 번역 – 2008년 베이징 올림픽 때쯤에는 번역기가 내장된 휴대폰이 등장할 것으로 예상된다. 예를 들어, 중세 왕국에 있는 동안 레스토랑에서 식사를 하고 싶다면 휴대 전화에 러시아어로 주문을 말하기만 하면 됩니다. 모든 것이 중국어로 번역되고 스피커에서 전자 음성이 나옵니다. 웨이터에게 주문을 전달할 것입니다.

시간이 지남에 따라 점점 더 많은 장치가 사람의 목소리를 이해할 것이라고 가정할 수 있습니다. 그러므로 어느 날 아침 커피 머신이 카푸치노를 만들 것인지 에스프레소를 만들 것인지 묻는 것뿐만 아니라 귀하의 대답을 이해한다고 해도 놀라지 마십시오.

Windows Vista의 음성 인식

Windows Vista에는 음성 인식 소프트웨어가 포함되어 있습니다. 안타깝게도 이 구성 요소는 영어, 독일어, 프랑스어, 스페인어, 일본어 및 중국어만 이해합니다. 구성 요소를 처음 실행하면(제어판에서 접근성 및 음성 인식 항목을 선택해야 함) 교육 마법사 창이 열리고 Windows 원리를 소개하는 데 30분 정도 소요됩니다. 음성 제어. 몇 가지 연습을 마친 후에는 음성 명령을 사용하여 Windows를 지시하고 제어하는 방법을 배우게 됩니다. 음성 인식 소프트웨어는 화자에 따라 다르므로 동시에 사용자의 음성도 학습합니다. 입문 부분을 성공적으로 익히면 Windows가 "들어보세요!"라는 요청에 응답합니다. 음성 명령을 받아들이기 시작합니다. 단점: 음성 입력은 Microsoft 프로그램(예: Windows 자체, Word 또는 Internet Explorer)에서만 작동합니다. 다른 프로그램(예: Open Office 또는 Firefox)을 사용하면 컴퓨터가 "귀머거리"가 됩니다.

업데이트 날짜: 2017년 7월 31일 월요일

컴퓨터와 대화한다는 반 환상적인 아이디어가 전문적인 사진 촬영과 무슨 관련이 있나요? 인간의 전체 기술 환경에 대한 끝없는 발전 아이디어를 좋아하지 않는 한 거의 없습니다. 초점 거리를 변경하고 0.5스톱 플러스의 노출 보정을 수행하도록 카메라에 음성 명령을 내린다고 잠시 상상해 보십시오. 카메라의 원격 제어가 이미 구현되어 있지만 조용히 버튼을 눌러야하는데 여기에 청각 카메라가 있습니다!

사람과 컴퓨터 사이의 음성 의사소통의 예로 공상 과학 영화를 인용하는 것이 전통이 되었습니다. 예를 들어 Stanley Kubrick이 감독한 "2001: A Space Odyssey"가 있습니다. 거기에 탑재된 컴퓨터는 우주 비행사와 의미 있는 대화를 나눌 뿐만 아니라 청각 장애인처럼 입술을 읽을 수도 있습니다. 즉, 기계는 사람의 말을 오류 없이 인식하는 방법을 학습했습니다. 아마도 일부 사람들에게는 카메라의 원격 음성 제어가 불필요해 보일 수도 있지만 많은 사람들이 이 문구를 좋아할 것입니다. "우릴 내려줘, 자기야"야자수를 배경으로 온 가족이 함께 찍은 사진이 준비되었습니다.

글쎄요, 그래서 저는 전통에 경의를 표하고 약간의 꿈을 꾸었습니다. 하지만 진심으로 말하자면, 이 글은 쓰기가 어려웠고, 모든 것은 안드로이드 4 OS가 탑재된 스마트폰 형태의 선물로 시작되었습니다. 이 HUAWEI U8815 모델에는 작은 4인치 터치 스크린과 온스크린 키보드가 있습니다. 이를 입력하는 것은 약간 특이하지만 특별히 필요한 것은 아닌 것으로 나타났습니다. (이미지01)

1. Android OS를 탑재한 스마트폰에서의 음성인식

새로운 장난감을 시험해 보는 동안 검색창에 마이크 그래픽이 표시되었습니다. Google그리고 Notes의 키보드에서도 가능합니다. 이전에는 이 기호가 무엇을 의미하는지 관심이 없었습니다. 나는 대화를 나눴다. 스카이프, 키보드로 문자를 입력했습니다. 이것이 대부분의 인터넷 사용자가 하는 일입니다. 하지만 나중에 설명했듯이 검색 엔진에서는 Google러시아어 음성 검색이 추가되었고 브라우저를 사용할 때 짧은 메시지를 받아볼 수 있는 프로그램이 나타났습니다. "크롬".

내가 세 단어로 된 문구를 말하자 프로그램은 이를 식별하여 파란색 배경의 셀에 표시했습니다. 여기서 놀랄 만한 점이 있었는데, 모든 단어가 정확하게 쓰여 있었기 때문입니다. 이 셀을 클릭하면 Android 메모장의 텍스트 필드에 해당 문구가 나타납니다. 그래서 몇 마디 더 말하고 보조원에게 SMS로 메시지를 보냈습니다.

2. 음성인식 프로그램의 간략한 역사.

음성 제어 분야의 현대적 발전으로 인해 가전제품, 자동차, 로봇에 명령을 내릴 수 있게 되었다는 사실은 제가 처음으로 발견한 것이 아닙니다. 명령 모드는 이전 버전의 Windows, OS/2 및 Mac OS에서 도입되었습니다. 말하는 프로그램을 접했는데, 그것들이 무슨 소용이 있나요? 제 특징인지 키보드로 치는 것보다 말하는 게 편한데, 휴대폰으로는 전혀 아무것도 치는 게 없어요. 일반 키보드로 노트북에 연락처를 적어서 USB 케이블을 통해 전송해야 합니다. 하지만 단순히 마이크에 대고 말하고 컴퓨터가 오류 없이 텍스트 자체를 입력하게 하는 것이 나에게는 꿈이었습니다. 절망적인 분위기는 포럼에서의 토론을 통해 유지되었습니다. 그들의 마음에는 이런 슬픈 생각이 도처에 있었습니다.

“그러나 실제로 현재까지 실제 음성 인식 프로그램(그리고 심지어 러시아어까지)은 사실상 존재하지 않으며 분명히 곧 만들어지지 않을 것입니다. 더욱이, 인식보다 훨씬 간단해 보이는 인식의 반대 문제인 음성 합성도 완전히 해결되지 않았습니다." (컴퓨터 출판사 12호, 2004)

“컴퓨터로는 작업이 상당히 어렵기 때문에 러시아어뿐만 아니라 일반적인 음성 인식 프로그램이 아직 없습니다. 그리고 가장 나쁜 점은 인간이 단어를 인식하는 메커니즘이 아직 구현되지 않았기 때문에 인식 프로그램을 만들 때부터 시작할 것이 없다는 것입니다.” (포럼의 또 다른 토론).

동시에, 영어 음성 텍스트 입력 프로그램에 대한 리뷰에서는 분명한 성공을 거두었습니다. 예를 들어, IBM ViaVoice 98 Executive Edition 64,000 단어의 기본 어휘와 동일한 수의 단어를 추가할 수 있는 능력이 있었습니다. 프로그램 훈련 없이 단어 인식 비율은 약 80%였으며 특정 사용자와의 후속 작업을 통해 95%에 도달했습니다.

러시아어 인식 프로그램 중에서 영어 Dragon Dictate 2.5에 추가된 "Gorynych"를 주목할 가치가 있습니다. 리뷰의 두 번째 부분에서 검색에 대해 설명하고 "5 명의 Gorynych와의 전투"에 대해 설명하겠습니다. 내가 처음 발견한 것은 "잉글리쉬 드래곤"이었습니다.

3. 연속 음성인식 프로그램 “Dragon Naturally Speaking”

회사 프로그램의 최신 버전 "미묘한 차이"결국 민스크 외국어 연구소의 오랜 친구와 만나게 되었습니다. 해외여행에서 가지고 왔는데, '컴퓨터 비서'가 아닐까 생각하고 구입했습니다. 그러나 문제가 해결되지 않았고 프로그램은 거의 잊혀진 채 노트북에 남아있었습니다. 명확한 경험이 부족하여 직접 친구에게 가야했습니다. 내가 도출한 결론을 정확하게 이해하려면 이 모든 긴 서론이 필요합니다.

내 첫 번째 드래곤의 전체 이름은 다음과 같습니다. . 프로그램은 영어로 되어 있고 설명서가 없어도 그 안에 있는 모든 것이 명확합니다. 첫 번째 단계는 특정 사용자의 프로필을 생성하여 연주 시 단어의 소리 특성을 결정하는 것입니다. 제가 그랬어요. 말하는 사람의 나이, 나라, 발음 특징이 중요해요. 제가 선택한 방법은 22~54세, 영국식 영어, 표준발음입니다. 다음은 마이크를 구성하는 여러 창입니다. (이미지04)

심각한 음성 인식 프로그램의 다음 단계는 특정 사람의 발음 특징에 대한 훈련입니다. 텍스트의 성격을 선택하라는 메시지가 표시됩니다. 제가 선택한 것은 짧은 받아쓰기 지침이지만 유머러스한 이야기를 "주문"할 수도 있습니다.

이 프로그램 작업 단계의 본질은 매우 간단합니다. 텍스트가 창에 표시되고 그 위에 노란색 화살표가 표시됩니다. 올바르게 발음되면 화살표가 문구 사이를 이동하며 하단에 운동 진행 표시줄이 나타납니다. 나는 영어 회화를 거의 잊어버렸기 때문에 어려움을 겪으며 발전했습니다. 시간도 제한되어 있었습니다. 컴퓨터는 내 것이 아니었고 훈련을 중단해야 했습니다. 그런데 한 친구가 30분도 안 돼서 시험을 봤다더군요. (이미지05)

프로그램이 내 발음을 조정하는 것을 거부하고 메인 창으로 가서 내장된 텍스트 편집기를 시작했습니다. 그는 컴퓨터에서 찾은 일부 텍스트에서 개별 단어를 말했습니다. 프로그램은 그가 정확하게 말한 단어를 인쇄하고, 그가 잘못 말한 단어를 "영어"로 대체했습니다. “줄 지우기”라는 명령을 영어로 명확하게 발음한 후 프로그램이 이를 실행했습니다. 이는 내가 명령을 올바르게 읽었으며 프로그램이 사전 교육 없이도 명령을 인식한다는 의미입니다.

하지만 이 "용"이 러시아어로 글을 쓰는 방식이 나에게는 중요했습니다. 이전 설명에서 알 수 있듯이 프로그램을 훈련할 때 영어 텍스트만 선택할 수 있으며 거기에는 러시아어가 없습니다. 러시아어 음성 인식을 훈련하는 것이 불가능하다는 것은 분명합니다. 다음 사진에서는 러시아어 단어 "Hello"를 발음할 때 프로그램이 어떤 문구를 입력했는지 확인할 수 있습니다. (이미지06)

첫 번째 드래곤과의 대화 결과는 다소 코믹했다. 공식 웹사이트의 텍스트를 주의 깊게 읽으면 이 소프트웨어 제품의 영어 "전문화"를 볼 수 있습니다. 또한 로딩시 프로그램 창에 "English"가 표시됩니다. 그러면 이 모든 것이 왜 필요했습니까? 포럼과 소문이 책임이 있다는 것은 분명합니다 ...

그러나 유용한 경험도 있습니다. 내 친구가 노트북 상태를 확인해달라고 요청했습니다. 어쩐지 천천히 그는 일을 시작했습니다. 이는 놀라운 일이 아닙니다. 시스템 파티션의 여유 공간은 5%에 불과했습니다. 불필요한 프로그램을 삭제하다가 정식 버전이 2.3GB 이상을 차지하는 것을 보았습니다. 이 수치는 나중에 우리에게 유용할 것입니다. (이미지.07)

밝혀진 바에 따르면, 러시아 연설을 인식하는 것은 결코 사소한 일이 아니었습니다. 민스크에서는 친구에게서 "Gorynych"를 찾았습니다. 그는 오래된 잔해 속에서 오랫동안 디스크를 찾았고 그에 따르면 이것이 공식 출판물이라고 합니다. 프로그램은 즉시 설치되었고 그 사전에는 러시아어 단어 5,000개와 명령 100개, 영어 단어 600개와 명령 31개가 포함되어 있다는 것을 알게 되었습니다.

먼저 마이크를 설정해야 합니다. 제가 설정했습니다. 그런 다음 사전을 열고 단어를 추가했습니다. "시험"프로그램 사전에 없었기 때문이죠. 나는 명확하고 단조롭게 말하려고 노력했습니다. 마지막으로 Gorynych Pro 3.0 프로그램을 열고 받아쓰기 모드를 켜자 이 "가까운 단어" 목록을 받았습니다. (이미지.09)

그 결과는 안드로이드 스마트폰의 작업과 확실히 더 나빴기 때문에 당황스러웠고, 저는 " Google 크롬 온라인 스토어'. 그리고 나는 "gorynych 뱀"을 다루는 것을 나중에 미루었습니다. 나는 그것이라고 생각했다 연기원래 러시아 정신의 행동

5. 구글의 음성 기능

일반 Windows 컴퓨터에서 음성 작업을 하려면 브라우저를 설치해야 합니다. 구글 크롬. 온라인으로 사용하는 경우 오른쪽 하단의 소프트웨어 스토어 링크를 클릭하면 됩니다. 완전 무료인 그곳에서 음성 텍스트 입력을 위한 프로그램 두 개와 확장 프로그램 두 개를 찾았습니다. 프로그램이 호출됩니다. "음성메모장"그리고 "Voicenot - 음성을 텍스트로". 설치 후 탭에서 찾을 수 있습니다 "애플리케이션"귀하의 브라우저 "크롬". (이미지. 10)

확장명이 호출됩니다. "Google 음성 검색 핫워드(베타) 0.1.0.5"그리고 "음성 텍스트 입력 - Speechpad.ru 5.4". 설치 후 탭에서 끄거나 삭제할 수 있습니다. "확장".(이미지. 11)

음성 메모. Chrome 브라우저의 애플리케이션 탭에서 프로그램 아이콘을 두 번 클릭합니다. 아래 그림과 같은 대화 상자가 열립니다. 마이크 아이콘을 클릭하면 마이크에 짧은 문구를 말할 수 있습니다. 프로그램은 사용자의 단어를 음성 인식 서버로 전송하고 창에 텍스트를 입력합니다. 그림에 표시된 모든 단어와 문구는 처음에 입력된 것입니다. 분명히 이 방법은 인터넷에 연결되어 있을 때만 작동합니다. (이미지. 12)

음성 메모장. 응용프로그램 탭에서 프로그램을 실행하면 새로운 인터넷 페이지 탭이 열립니다. Speechpad.ru. 이 서비스를 사용하는 방법에 대한 자세한 지침과 컴팩트한 양식이 있습니다. 후자는 아래 그림에 나와 있습니다. (이미지. 13)

음성 입력텍스트를 사용하면 음성을 사용하여 인터넷 페이지의 텍스트 필드를 채울 수 있습니다. 예를 들어 내 페이지로 이동했습니다. "구글+". 새 메시지 입력 필드에서 마우스 오른쪽 버튼을 클릭하고 선택합니다. "스피치패드". 분홍색 입력 창은 텍스트를 받아쓰게 할 수 있음을 나타냅니다. (이미지. 14)

Google 음성 검색음성으로 검색할 수 있습니다. 이 확장 프로그램을 설치하고 활성화하면 검색창에 마이크 기호가 나타납니다. 누르면 큰 빨간색 원 안에 기호가 나타납니다. 검색 문구를 말하면 검색 결과에 나타납니다. (이미지. 15)

중요 사항: 마이크가 Chrome 확장 프로그램과 작동하려면 브라우저 설정에서 마이크 액세스를 허용해야 합니다. 보안상의 이유로 기본적으로 비활성화되어 있습니다. 이동 설정→개인정보→콘텐츠 설정. (목록 끝에 있는 모든 설정에 액세스하려면 고급 설정 표시). 대화 상자가 열립니다 페이지 콘텐츠 설정. 목록 아래에서 항목을 선택하세요. 멀티미디어→마이크.

6. 러시아어 음성 인식 프로그램 작업 결과

음성 텍스트 입력 프로그램을 사용해 본 경험을 통해 인터넷 회사의 서버에서 이 기능이 훌륭하게 구현되었음을 알 수 있습니다. Google. 사전 훈련 없이도 단어가 올바르게 인식됩니다. 이는 러시아어 음성 인식 문제가 해결되었음을 나타냅니다.

이제 우리는 개발의 결과를 말할 수 있습니다 Google다른 제조사의 제품을 평가하는 새로운 기준이 될 것입니다. 인식 시스템이 회사 서버에 액세스하지 않고도 오프라인으로 작동했으면 좋겠습니다. 더 편리하고 빠릅니다. 그러나 지속적인 러시아어 연설 흐름을 다루는 독립적인 프로그램이 언제 출시될지는 알 수 없습니다. 그러나 훈련 기회가 주어지면 이 "창조"가 진정한 돌파구가 될 것이라고 가정할 가치가 있습니다.

러시아 개발자 프로그램 "고리니치", "딕토그래퍼"그리고 "전투"이번 리뷰의 두 번째 부분에서 자세히 설명하겠습니다. 현재는 원본 디스크 검색이 어려운 관계로 이 글은 매우 느리게 작성되었습니다. 현재 저는 "Combat 2.52"를 제외한 모든 버전의 러시아어 음성-텍스트 인식 엔진을 이미 보유하고 있습니다. 내 친구나 동료 중 누구도 이 프로그램을 갖고 있지 않으며 나 자신도 포럼에 몇 개의 칭찬 리뷰만을 가지고 있습니다. 사실, SMS를 통해 "Combat"을 다운로드하는 이상한 옵션이 있었지만 마음에 들지 않았습니다. (이미지16)

짧은 비디오 클립을 통해 Android OS가 설치된 스마트폰에서 음성 인식이 어떻게 작동하는지 보여줍니다. 음성 입력의 특징은 Google 서버에 연결해야 한다는 것입니다. 인터넷이 작동하는 방식


가격: $199.99

개발자 ScanSoft 웹사이트 www.scansoft.com 사이즈 번호 다운로드 페이지아니요



+	가장 광범위한 기능; 모든 Windows 응용 프로그램에서 작동합니다. 강력한 사전 데이터베이스
—	높은 가격
!	현존하는 최고의 음성 인식 소프트웨어

현존하는 음성인식 모듈 중 단연 최고입니다! 오랜 역사 동안 드래곤은 군인에서 육군 원수까지 어려운 길을 걸어왔습니다. 아니, 아마도 아직 원수까지는 아니지만 그는 확실히 육군 장군이라는 칭호를 받을 자격이 있었습니다. 프로그램 작업을 위한 전체 알고리즘은 매우 간단합니다. 헤드폰과 마이크를 오디오 카드의 해당 출력에 연결하고 유틸리티 자체를 시작합니다. 먼저, 사용자는 마이크의 사운드 레벨을 보정하고 Dragon Naturally Speaking의 음색, 억양 및 발음을 미세 조정하기 위해 미리 만들어진 여러 텍스트를 컴퓨터에 지시하라는 메시지를 받게 됩니다. 마지막으로 사용자에게 기본적인 음성 명령을 가르치는 대화형 튜토리얼입니다.

PC는 살아있는 대담자가 아니며 "삼켜진" 음절을 완성하거나 읽을 수 없는 문장을 이해할 수 없다는 점은 주목할 가치가 있습니다. 화자 자신의 억양도 그다지 중요하지 않습니다. 예를 들어 다양한 국제 과학 회의에서 듣는 영어 수준은 원칙적으로 업무에 적합하지 않습니다. 반면에, 자가 학습의 가능성은 항상 있습니다. Dragon이 특정 단어를 인식하고 싶지 않다면 시간을 내어 Lingvo를 살펴보고 올바른 표기를 고려하여 발음해 보세요. 최대 1~2주 안에 당신은 쉽게 킬로바이트의 텍스트를 받아쓰게 될 뿐만 아니라 친구들 사이에서 당신의 진정한 영어 발음을 과시하게 될 것이라고 장담합니다.

아직도 인식 품질이 만족스럽지 않으신가요? 사용자 프로필을 최적화하고 어휘에 인기 있는 신조어를 추가하는 방법을 알려면 현지 정확도 센터에 문의하세요. wav 파일의 텍스트 내용을 인식하는 것(Pocket PC 또는 오디오 카드의 선형 출력에서 직접 포함)과 같은 보다 이국적인 작업도 가능합니다. 또한 Dragon Naturally Speaking은 다양한 프로그램을 실행하고 프로그램 간을 전환하며 여러 기능을 제어할 수도 있습니다(예: 미디어 플레이어에서 음악 재생을 시작/일시 중지하거나 메뉴를 직접 사용하여 작업). Preferred 버전과 Pro-fessional 버전에는 현재 가장 발전된 버전 중 하나인 자체 음성 엔진인 Real-Speech 2가 추가로 포함되어 있습니다.

하지만 연설 녹음으로 돌아가 보겠습니다. 특히 기쁜 점은 기본 텍스트 프로세서 DragonPad뿐만 아니라 MS Word, Outlook Express, Internet Ex-plorer 및 Corel WordPerfect와 같은 다른 유사한 응용 프로그램에서도 텍스트를 받아쓰게 할 수 있다는 것입니다. 이 프로그램은 ICQ, 네트워크 채팅(Network Assistant) 및 기타 인스턴트 메신저에서도 동일한 성공을 거두었습니다. 그러나 일부 명령을 사용할 수 없게 되지만 메시지를 보내는 경우에도 입력하다누를 필요가 없습니다. "새 문단"이라고 말하면 됩니다. 그러면 ICQ가 자동으로 이를 수행합니다. 보다 전문화된 응용 프로그램, 특히 Word에서는 텍스트 서식 지정, 철자법, 편집 등의 추가 명령이 사용되며 모두 음성 언어를 희생해야 합니다. 표준 주문 세트가 충분하지 않은 경우 언제든지 직접 주문을 생성하여 Dragon의 기능을 더욱 확장할 수 있습니다. 조금만 노력하면 편집 없이 텍스트 페이지를 입력하는 것이 가능합니다. 가장 중요한 것은 억양과 발음의 올바른 조합입니다. 문구를 늘리지 말고 기관총처럼 낙서하지 마십시오. 그렇지 않으면 정확하게 이해된 자료의 비율이 확실히 0이 되는 경향이 있습니다. 또한, 사전을 지속적으로 검색할 필요가 전혀 없습니다. 프로그램에 알려진 일부 문구를 아주 정확하게 발음하지 않은 경우에도(예: 매우 행복합니다) 자동으로 수정하도록 "추측"합니다. 텍스트. 놀라운? 그것은 고급 음성 인식 기술과 함께 경쟁자에게 기회를 주지 않는 거대한 어휘에 관한 것입니다. 이 라인의 작성자가 과거에 많은 고통을 겪었지만 결코 고품질 작업을 달성하지 못했던 Dragon의 초기 버전을 어떻게 기억할 수 없습니까?

지능형 음성인식 시스템(IVOS) 2.0.2A


셰어웨어(30일 평가판, 등록 - $50)

개발자 ComunX 홈페이지 www.ivos.biz 크기 2.69MB 다운로드 페이지 ftp://ftp.download.com/ 출판물/ppd/1007091810190380/ setup_ivos.exe



+	미세한 분포 크기; 뛰어난 기능성
—	음성 속기 모드는 아직 드래곤 수준에 미치지 못합니다.
!	이 분야 최고의 유틸리티 중 하나

리뷰에서 가장 겸손한(배포 규모 측면에서) 프로그램은 놀랍게도 가치가 있음이 입증되었으며 큰 이름을 크게 정당화했습니다. 그 이유는 "수동" 정보 입력 수단을 완전히 근절하도록 설계된 다목적성 때문입니다. 따라서 IVOS를 사용하면 다음이 가능합니다. a) Windows 호환 텍스트 프로세서에서 음성을 인식하고 이를 텍스트로 변환합니다. b) 다양한 음성 명령을 사용하여 PC를 제어하고 자신만의 명령을 생성하세요. c) 외부 음성 엔진을 사용하여 전자책에 음성을 제공합니다. 물론 Wav 파일에서 텍스트 추출, 화면에 부담을주지 않는 편리한 프로그램 제어판, 저렴한 (동일 Dragon에 비해) 가격과 같은 작은 기능도 있습니다. 등록 후 사용자는 VoiceTouch 기술에 액세스할 수 있으며 이를 통해 PC에 자신의 음성 명령을 가르칠 수 있습니다.

명령 실행 효율성은 놀라울 정도로 높습니다. 아마도 Realize Voice보다 더 좋을 수도 있습니다. 그러나 "강의"에 대한 인식 수준은 낮아질 것입니다. 이는 이상하지 않습니다. 몇 단어를 이해하는 것과 전체 문장을 이해하는 것은 완전히 다른 것입니다. Dragon을 제외한 다른 많은 음성 인식 프로그램과 마찬가지로 IVOS는 이러한 목적으로 Microsoft의 Speech API 모듈을 사용하며 이 분야에서의 효율성은 이 회사의 창의적인 성공에 직접적으로 달려 있다는 점에 유의해야 합니다. 그럼에도 불구하고 이제 프로그램에 저장된 모든 교육 텍스트를 읽어 IVOS에서 고품질 작업을 수행할 수 있습니다. 물론 결국 그녀는 Dragon Naturally Speaking 수준에는 도달하지 못하지만 너무 복잡하지 않은 문서를 입력하는 능력은 상당히 뛰어납니다. 그리고 사용자 사전을 정기적으로 업데이트하면 과학 용어에 특별한 문제가 없습니다. 사실, 여기에서 딜레마가 발생합니다. 음성 작업의 모든 복잡성을 유틸리티에 가르치는 데 소요되는 주 동안 키보드에서 열 손가락 터치 타이핑 방법을 빠르게 익히는 것이 가능합니다... 다른 한편으로는 한편, PC 사용자의 자격은 컴퓨터에 정보를 입력하는 여러 가지 방법을 소유한 경우에만 높아집니다.

보이스 4.0 실현


셰어웨어(15일 평가판, 등록 - $49.00)

개발자 Realize Software Corporation 웹사이트 www.realizesoftware.com 크기 55MB 다운로드 페이지 www.realizesoftware.com/ download/RzRV40download.exe(웹 설치 프로그램)



+	사용자의 발음에 소극적입니다. 매우 광범위한 명령
—	작업의 질은 여전히 더 좋아질 수 있습니다. 영어 버전의 Windows에만 설치됩니다.
!	음성만으로 PC를 제어하세요

이전에 리뷰한 Dragon Naturally Speaking과 달리 Realize Voice는 속기를 사용할 수는 없지만(비록 무기고에 이러한 기능이 있음) 음성 명령에 훌륭하게 대처합니다. 놀라운 점은 영어에 대한 깊은 지식이 필요하지 않다는 것입니다. 스마트 휴리스틱 분석기 모듈 덕분에 프로그램은 거의 모든 사용자의 공통 언어를 쉽게 찾을 수 있습니다. Realize Voice 기능의 범위는 실행 파일 및 프로그램 바로 가기 실행부터 서신 및 복잡한 매크로 작업에 이르기까지 매우 넓습니다. 다른 유사한 프로그램과 마찬가지로 사용자는 마이크를 연결하고 몇 분만 투자하면 됩니다. 실제로 유틸리티와 통신하기 전에 작업 범위를 정의하는 것이 좋습니다. 기본적으로 시스템 메뉴 바로가기가 이 범주에 속합니다. 데스크탑, 폴더 내용 즐겨찾기빠른 실행 패널은 물론 최근에 열었던 문서와 프로그램도 포함됩니다. 전체 프로세스는 완전히 자동화되어 문자 그대로 즉시 완료됩니다. 사실, 명령 이름에 숫자를 사용할 수 없기 때문에 약간의 불편이 발생합니다. 예를 들어 바로 가기 이름을 "DOOM Three"로 변경해야만 음성 명령을 사용하여 DOOM 3를 시작할 수 있습니다. 그건 그렇고, 키릴 문자에도 똑같이 적용됩니다. 그다지 유쾌한 전망은 아니죠? 그러나 이러한 경우 관심 있는 파일/문서/그래픽 이미지 등에 대한 경로를 직접 지정하여 언제든지 프로그램을 수동으로 설정할 수 있습니다. 여기서 파일 이름과 해당 좌표는 중요하지 않습니다. 모두 - abvgd.exe이더라도 그렇습니다. 그리고 데스크탑그것을 훼손할 필요는 없을 것이다. 또한 Windows 작업을 위한 내장 시스템 명령 세트에 매우 만족했습니다. 비록 너무 크지는 않지만 열려 있는 창 사이를 이동하고 가장 일반적인 키의 동작을 에뮬레이션할 수 있습니다( 스페이스바, 삽입, 홈등) 도움을 받아 시스템을 끄고 차단하는 것이 가능합니다.

매크로에 대해 조금. 이 유틸리티를 사용하면 키보드 및 시스템 명령의 문자 입력부터 내장 음성 엔진을 사용한 음성 합성에 이르기까지 일련의 전체 작업을 하나의 명령으로 결합할 수 있습니다. 사실, 한 문구를 사용하여 CD를 녹음하는 것과 같은 짧은 서사시는 아직 멀었지만 시간이 말해 줄 것입니다... 가장 중요한 것은 이제 마우스와 같은 시대착오 없이 애완동물을 "조종"할 수 있다는 것입니다(실패하지는 않습니다!). 그리고 키보드. 시도해 보세요 - 후회하지 않을 것입니다!

보이스 스튜디오 1.4.6


셰어웨어(7일 평가판, 등록 - $20.97)

Developer Ultimate Interactive Desktop의 홈페이지 www.voicestudio.us 크기 57MB 다운로드 페이지 ftp://ftp.voicestudio.us/ 출판물/dl2/vssetup.exe



+	뛰어난 기능성; "라이브" 애니메이션 캐릭터의 존재; 매우 저렴한 가격
—	MS SAPI는 음성 인식에 사용됩니다. 상당히 높은 자원 소모
!	음성으로 PC를 제어할 수 있는 Dragon의 훌륭한 추가 기능

아마도 이것은 모니터 반대편에 있는 가상 대담자가 마침내 물질적 형태를 획득한 몇 안 되는 프로그램 중 하나일 것입니다. 그리고 이러한 목적으로 사용되는 MS Agent 기술은 비록 인공지능의 원형이라 할 수는 없지만 이에 대한 모든 전제조건을 갖추고 있다. 애니메이션 어시스턴트는 어느 정도 독립성을 부여받았을 뿐만 아니라 여러 표준 문구(예: "안녕하세요!", "기분이 어때요?", "컴퓨터 불량" 등)에 응답하는 방법도 알고 있습니다. 원하는 경우 그의 어휘 및 어법 재고를 쉽게 보충할 수 있으며 또한 그의 "기분"에 따라 그의 행동을 설정할 수 있습니다. PC와의 이러한 대화는 프로그램의 지식 범위에 따라 제한되지만 누구도 이를 거의 무한정 확장하려고 하지 않습니다. 그리고 악명 높은 AI와 아주 가까운 거리에 있습니다... 하지만 조금 다른 의견이 있습니다.

실제로 Voice Studio의 기능은 모든 것이 정돈되어 있습니다. 속기(Dragon이 훨씬 낫지만), 다양한 음성 명령(더 편리하고 빠른 암기를 위해 인쇄할 수 있음), 허용되는 기계 음성 합성 등이 있습니다. 더 심각한 것은 하나의 키워드를 사용하여 일련의 작업을 한 번에 시작하는 매크로를 만드는 것, 심지어 마우스 움직임을 기록하고 재생하는 것까지 포함합니다! 마지막 "기능"은 다양한 작업(다른 페이지로 이동, 새 창 열기 등)을 수행하기 위해 GreenBrowser 또는 MyIE2와 같은 많은 대체 브라우저에서 널리 사용된다는 점을 상기시켜 드리겠습니다. 이제 불필요한 제스처가 필요하지 않습니다. 적절한 명령만 말하면 컴퓨터가 이전에 기록된 스크립트를 자동으로 다시 생성합니다. 머지않아 마이크만으로 게임을 할 수 있게 될지 누가 알겠습니까? 시간이 보여 줄 것이다…

그 동안 Voice Studio는 의심할 여지없이 놀라운 친절함과 사용 편의성으로 인해 최고 등급을 받을 자격이 있습니다. 아직 음성을 올바르게 녹음하지 못할 수도 있지만 음성으로 PC를 제어하는 것은 비교할 수 없습니다. 최고의 유틸리티이자 Dragon에 추가된 가치 있는 기능입니다!

받아쓰기 2004 v.4.5.2399


셰어웨어(7일 평가판, 등록 - $49.99)

개발자 United Research Labs 웹사이트 www.research-lab.com 크기 41MB 다운로드 페이지 www.bandwidthsaver.com/ 다운로드/dict2002.zip



+	PC 제어 및 음성 녹음을 위한 기본 기능 세트 wav 파일을 사용한 훌륭한 작업
—	최고의 음성 인식 성능은 아닙니다. 짜증나는 텍스트 편집 모듈
!	이 가격에 너무 적어요

겉으로는 완전히 표준적인 기본 기술임에도 불구하고 Dictation 2004는 여전히 뭔가를 자랑할 수 있습니다. 우선, 거의 모든 Windows 응용 프로그램에서 암호 입력, 소프트웨어 실행 및 받아쓰기 명령을 쉽게 만들 수 있는 Point-and-Speak 기술입니다. MS Word와의 통합은 물론 문구를 정확하게 식별하는 지능형 기술도 발표되었습니다. 사실, 이는 매우 불편한 방식으로 구현됩니다. 즉, 말하는 모든 단어와 함께 나타나고 작업하려는 욕구를 억제하는 팝업 창 형태로 구현됩니다. 끌 수 있어서 좋네요. Dictation 2004는 동일한 SAPI 5.1을 사용하므로 동일한 기술을 기반으로 하는 다른 소프트웨어(Voxx, IVOS, Realize Voice 등)와 품질이 근본적으로 다르지 않습니다. 추가 기능 중에서 오디오 카세트, 모바일 장치, 마이크에서 정보를 캡처한 다음 이를 wav 파일로 녹음하는 WAV Recorder에 주목할 가치가 있습니다. 그런 다음 별도의 받아쓰기 애플릿인 Wave-to-Text를 사용하여 텍스트가 추출됩니다. 물론 아직까지는 이상적인 수준과는 거리가 멀지만, 아나운서의 말투가 명확하고 발음이 좋으면 문제가 없을 것입니다.

+
업무의 다양성; 다양한 가능성 — 프로그램을 "훈련"하는 데는 많은 시간이 소요됩니다 ! 흥미로운 제품이지만 더 좋을 수도 있습니다 ...

PC로 마음껏 채팅할 수 있는 또 다른 "만능 기술"입니다. 프로그램 기능 목록은 유용한 보너스가 있다는 점을 제외하면 IVOS(속기/음성 명령/텍스트 읽기)의 목록과 매우 유사합니다. 즉, 입력하거나 파일을 여는 등 모든 작업에 대해 꼼꼼한 음성이 작동한다는 점입니다. 이 프로그램은 IVOS와 동일한 Microsoft Speech API를 사용하므로 인식 품질이 비슷합니다. 브라우저 탐색, 텍스트 편집기의 기본 작업(잘라내기/복사/붙여넣기 등) 및 창 작업을 위한 유용한 음성 명령 세트가 있으며, 시스템 애플릿 호출, 심지어 열기/닫기를 위한 단축키도 있습니다. 광학 드라이브 트레이 - 일반적으로 편안한 작업을 위한 모든 것. 음성 합성의 경우 시스템에 설치된 해당 모듈에 직접적으로 의존합니다. 프로그램과 함께 제공되는 Microsoft의 무료 엔진은 이상적이지는 않지만 원칙적으로 익숙해질 수 있습니다. 아쉽게도 무료가 아닌 더 편리한 옵션은 타사 개발, 특히 매우 우수한 러시아어 아나운서를 갖춘 Digit PC를 사용해 보는 것입니다. 모든 장단점을 고려하면 Voxx가 구매하기에 좋은 후보가 될 것입니다. 그런데 평가판은 세션당 구문/명령 수에 의해서만 제한됩니다. 새 세션을 시작하려면 프로그램을 다시 시작하세요...

결론

여전히 많은 단점에도 불구하고 음성 인식 프로그램은 이미 장난감 수준에서 비즈니스맨을 위한 심각한 도구로 이동했습니다. 이전에는 거의 쓸모가 없었다면 이제는 사용자의 삶을 더욱 편리하게 만들고 컴퓨터는 단지 숫자를 계산하는 철제 상자일 뿐이라는 이전의 흔들리지 않는 고정관념을 깨뜨릴 수 있습니다. 그리고 물론 가장 즐거운 사실은 지금 수많은 공상과학 작가들이 그토록 자주 썼던 21세기의 기술적 진보를 경험할 수 있는 기회라는 것입니다. 지금 가입하세요!