Главная » Полезное » Как сделать программу для распознавания речи. Pаспознавание речи и мгновенный перевод. Использование словаря распознавания

Как сделать программу для распознавания речи. Pаспознавание речи и мгновенный перевод. Использование словаря распознавания

В нашем современном, насыщенном событиями мире, скорость работы с информацией является одним из краеугольных камней достижения успеха. От того как насколько быстро мы получаем, создаём, перерабатываем информацию зависит наша рабочая производительность и продуктивность, а значит и наш непосредственный материальный достаток. Среди инструментов, способных повысить наши рабочие возможности, важное место занимают программы для перевода речи в текст, позволяющие существенно увеличить скорость набора нужных нам текстов. В данном материале я расскажу, какие существуют популярные программы для перевода аудио голоса в текст, и каковы их особенности.

Большинство ныне существующих программ для перевода голоса в текст имеют платный характер, предъявляя ряд требований к микрофону (в случае, когда программа предназначена для компьютера). Крайне не рекомендуется работать с микрофоном, встроенным в веб-камеру, а также размещённым в корпусе стандартного ноутбука (качество распознавания речи с таких устройств находится на довольно низком уровне). Кроме того, довольно важно иметь тихую окружающую обстановку, без лишних шумов, способных напрямую повлиять на уровень распознавания вашей речи.

При этом большинство таких программ способны не только трансформировать речь в текст на экране компьютера, но и использовать голосовые команды для управления вашим компьютером (запуск программ и их закрытие, приём и отправление электронной почты, открытие и закрытие сайтов и так далее).

Программа преобразования речи в текст

Перейдём к непосредственному описанию программ, способных помочь в переводе речи в текст.

Программа «Laitis»

Бесплатная русскоязычная программа для распознавания голоса «Laitis » обладает хорошим качеством понимания речи, и, по мнению её создателей, способна практически полностью заменить пользователю привычную клавиатуру. Программа хорошо работает и с голосовыми командами, позволяя с их помощью выполнять множество действий по управлению компьютером.

Для своей работы программа требует обязательного наличия на ПК скоростного интернета (в работе программы используются сетевые сервисы распознавания голоса от «Google» и «Yandex»). Возможности программы позволяют, также, управлять с помощью голосовых команд и вашим браузером, для чего необходима установка на веб-навигатор специального расширения от «Laitis» (Chrome, Mozilla, Opera).

«Dragon Professional» — расшифровка аудиозаписей в текст

На момент написания данного материала цифровой англоязычный продукт « Dragon Professional Individual » является одним из мировых лидеров по качеству распознаваемых текстов. Программа понимает семь языков (с русским пока работает лишь мобильное приложение «Dragon Anywhere» на и ), обладает высоким качеством распознавания голоса, умеет выполнять ряд голосовых команд. При этом данный продукт имеет исключительно платный характер (цена за основную программу составляет 300 долларов США, а за «домашнюю» версия продукта «Dragon Home » покупателю придётся выложить 75 американских долларов).

Для своей работы данный продукт от «Nuance Communications» требует создания своего профиля, который призван адаптировать возможности программы под специфику вашего голоса. Кроме непосредственной диктовки текста, вы можете обучить программу выполнять ряд команд, тем самым делая своё взаимодействие с компьютером ещё более конгруэнтным и удобным.

«RealSpeaker» — сверхточный распознаватель речи

Программа для трансформации голоса в текст «RealSpeaker » кроме стандартных для программ такого рода функций, позволяет задействовать возможности веб-камеры вашего ПК. Теперь программа не только считывает аудио составляющую звука, но и фиксирует движение уголков губ говорящего, тем самым более корректно распознавая выговариваемые им слова.


«RealSpeaker» считывает не только аудио, но и визуальную составляющую процесса речи

Приложение поддерживает более десяти языков (в том числе и русский), позволяет распознавать речь с учётом акцентов и диалектов, позволяет транскрибировать аудио и видео, даёт доступ к облаку и многое другое. Программа условно бесплатна, за платную версию придётся заплатить вполне реальные деньги.

«Voco» — программа быстро переведёт голос в текстовый документ

Ещё один преобразователь голоса в текст – это платный цифровой продукт «Voco », цена «домашней» версии которого ныне составляет около 1700 рублей. Более продвинутые и дорогие варианты данной программы – «Voco.Professional» и «Voco.Enterprise» имеют ряд дополнительных возможностей, одной из которых является распознавание речи из имеющихся у пользователя аудиозаписей.

Среди особенностей «Voco» отмечу возможность дополнения словарного запаса программы (ныне словарный запас программы включает более 85 тысяч слов), а также её автономную работу от сети, позволяющую не зависеть от вашего подключения к Интернету.


Среди плюсов «Voco» — высокая обучаемость программы

Приложение включается довольно просто — достаточно дважды нажать на клавишу «Ctrl».Приложение абсолютно бесплатно, поддерживает несколько десятков языков, среди которых и русский.

Заключение

Выше мной были перечислены программы для перевода вашей аудио записи голоса в текст, описан их общий функционал и характерные особенности. Большинство подобных продуктов обычно имеет платный характер, при этом ассортимент и качество русскоязычных программ качественно уступает англоязычным аналогам. Особое внимание при работе с подобными приложениями рекомендую уделить вашему микрофону и его настройкам – это имеет важное значение в процессе распознавания речи, ведь плохой микрофон может свести на нет даже самый качественный софт рассмотренного мной типа.

Цитата(Kadet @ 5.3.2008, 22:26)

Чтобы программа понимала команды:
Система-Быстрый запуск-редактор словарей-Quick Training-Correction Words
и
Система-Быстрый запуск-Редактор словарей-Quick Training-Quick Enrollment
Тренировать имеющиеся в словаре:
Система-Быстрый запуск-редактор словарей-Quick Training - Dictation Words
и
Система-Быстрый запуск-редактор словарей-Dictation
Как добавлять новые слова написано в ссылке выше
Естественно профиль пользователя до этого должен быть создан и желательно с английским названием.
Не помешало бы Вам почитать файл readme.txt из архива

А вот это вряд ли получится. Максимум, что она сделает нормально это поймет ранее тренированные слова.

Кому не нравится Комбат предложите альтернативу лучше.



А есть версия по новее или прога, чтобы реально можно было надиктовывать?
Я вот нашел способ диктовки в Документ только в Vista и не на русском языке. Кто-нибудь знает как к русскому языку эту возможность адаптировать.

» Спойлер (нажмите, чтобы прочесть) «

В этом документе описывается предварительная версия программного обеспечения Microsoft® Windows Vista™.

Сведения, содержащиеся в документе, отражают позицию корпорации Майкрософт в отношении обсуждаемых вопросов на момент публикации. Поскольку корпорация Майкрософт должна реагировать на изменение рыночных условий, данный документ не может рассматриваться как обязательство с ее стороны, и корпорация Майкрософт не гарантирует точности представленных сведений. Данный документ носит исключительно информационный характер. КОРПОРАЦИЯ МАЙКРОСОФТ НЕ ПРЕДОСТАВЛЯЕТ В ДАННОМ ДОКУМЕНТЕ НИКАКИХ ГАРАНТИЙ, ЯВНЫХ ИЛИ ПОДРАЗУМЕВАЕМЫХ.
Аннотация

С помощью средств распознавания речи в операционной системе Microsoft® Windows Vista™ можно диктовать сообщения электронной почты и документы, а также использовать голосовые команды для управления работой программ и отображением веб-страниц. Точность распознавания мирового уровня, адаптация программы к произношению пользователя и используемой лексике заметно ускоряют создание документов. Новейшие средства речевого управления в Windows Vista помогает пользователю освоить речевой ввод быстрее, чем когда бы то ни было. Данное руководство содержит системные требования, инструкции по установке и пошаговое руководство к использованию средств распознавания речи в Windows Vista.
Пошаговое руководство по использованию средств распознавания речи в Windows Vista

Средства распознавания речи в Windows Vista являются результатом новейших разработок в этой области. С помощью средств распознавания речи можно диктовать сообщения электронной почты и документы, а также пользоваться голосовыми командами для управления работой программ и отображением веб-страниц. Средства распознавания речи в Windows Vista позволяют ускорить работу, а также снизить риск возникновения травм от постоянного напряжения. Усовершенствованная реализация средств распознавания речи в Windows Vista предоставляет пользователю широкие возможности управления и позволяет освоить голосовой ввод быстрее, чем это было возможно раньше.
Что такое распознавание речи

Технология распознавания речи позволяет взаимодействовать с компьютером с помощью голоса. Программа определяет, следует ли интерпретировать произносимые слова как текст (например, создаваемого документа или сообщения электронной почты) либо как команду, требующую выполнения определенного действия.
Новые возможности средств распознавания речи в Windows Vista

Средства распознавания речи в Windows Vista ориентированы не только на обеспечение наивысшей точности распознавания, но и на формирование наиболее удобного пользователю механизма взаимодействия с компьютером. Сделана попытка устранить основные проблемы и неудобства, с которыми сталкиваются пользователи существующих продуктов аналогичного назначения. Эффективность выполнения работы с помощью средств распознавания речи в Windows Vista сочетается с удовольствием от их применения. Это достигается благодаря таким особенностям, как:

Сокращенный период обучения системы, позволяющий сразу начинать работу;

Обновленный пользовательский интерфейс предоставляет простые, но эффективные способы диктовки и редактирования текста, а также исправления ошибок;

Интерактивный курс обучения работе со средствами распознавания речи, в процессе которого компьютер адаптируется к особенностям голоса и произношения пользователя;

Значительное повышение точности распознавания речи благодаря самообучению системы в процессе работы с ней;

Новые средства управления, предоставляющие пользователю полный контроль над приложениями;

Усовершенствованные средства интерпретации. Если озвученная команда не может быть истолкована однозначно, система запросит уточнение действия к выполнению.
Кому будет полезно использование средств распознавания речи

Данное руководство предназначено для следующих категорий пользователей:

Планировщиков ИТ-отделов и отделов управления персоналом, работающих со вспомогательными технологиями для работников с травмами от постоянного напряжения, ограничениями подвижности или ослабленным зрением.

ИТ-специалистов, выполняющих планирование для обучающих отделов.

Ранних пользователей продукта.

Примечание переводчика. Средства распознавания речи доступны только в английской версии Windows Vista. Для их использования необходимо знание английского языка.

Средства распознавания речи в первую очередь ориентированы на запросы пользователей, работающих преимущественно с электронной почтой, текстовыми редакторами и браузерами.

Использование средств распознавания речи Windows Vista будет наименее эффективным для следующих категорий пользователей:

Пользователей, работающих с текстами не на естественных языках (программистов, составителей электронных таблиц, системные администраторы).

Пользователей, которым нужна программа, сочетающая в себе функции экранного диктора и средств распознавания речи.
Преимущества использования средств распознавания речи

С помощью средств распознавания речи пользователи могут:

Значительно сократить использование клавиатуры и мыши, выполняя задачи с помощью голосовых команд.

Полностью создавать документы, пользуясь только речью.

Управлять компьютером, в том числе запускать приложения и переключаться между ними, а также осуществлять выбор пунктов меню и нажатие кнопок.
Основные варианты использования средств распознавания речи

В данном руководстве рассматривается простой пример диктовки документа и выполнения голосовых команд.

В Speech Tutorial, входящем в состав Windows Vista, содержится больше примеров, которые можно изучить в случае необходимости.
Необходимые условия

Для выполнения этой задачи необходимо:

Использование качественного микрофона, например:

Гарнитуры, подключаемой через порт USB

Микрофона с технологией Array microphone

Завершение интерактивного курса обучения работе со средствами распознавания речи. Это позволит компьютеру получить базовую информацию для точного распознавания речи пользователя, а пользователю познакомиться с голосовыми командами, необходимыми для выполнения различных задач.
Диктовка документа

Одной из задач, наиболее часто выполняемых с помощью средств распознавания речи, является диктовка документа. Выполнение этой задачи проходит в три этапа:

Открытие текстового редактора

Диктовка текста документа

Сохранение документа
Последовательность действий при диктовке документа

Пройдите полностью курс обучения Speech Tutorial
В меню Пуск выберите Все программы – Стандартные - Специальные возможности. Выберите пункт Распознавание речи Windows.

Выполните настройку микрофона. После этого запустится Speech tutorial.

Пройдите Speech tutorial.

Создание, диктовка и сохранение документа
Произнесите “Start Listening”.

Произнесите "Open WordPad".

Произнесите "This is a test of speech recognition period".

Примечание

Не забывайте озвучивать знаки препинания.

Чтобы исправить ошибку, произнесите "correct" и слово, ошибочно набранное компьютером, а затем выберите нужное слово из предложенного списка и произнесите его снова. Например, если компьютер распознал слово "speech" как "peach", произнесите "correct peach", выберите правильное слово из списка или произнесите "speech" еще раз.

Произнесите "Test document".

Произнесите "Save".

Известные проблемы
Диктовка

При работе с распознаванием речи необходимо учитывать следующие особенности.

Диктовка при работе с распознаванием речи работает только с ограниченным набором приложений, поддерживающих технологию Text Services Framework. К этим приложениям относятся:

Microsoft Word и Outlook

Практически все приложения, входящие в состав Windows Vista.

Распознавание речи при диктовке не будет работать в некоторых приложениях, в том числе:

Microsoft PowerPoint

Lotus Notes
Неточное распознавание речевых команд

Наиболее вероятной причиной возникновения проблем при управлении компьютером с помощью речи являются не ошибки компьютера в распознавании слов, а произнесение неверных команд.

Обратитесь к Speech Reference Card, чтобы увидеть список доступных команд. Speech Reference Card открывается после щелчка правой кнопкой мыши по панели управления микрофоном.
Отчеты об ошибках и обратная связь

Чтобы отправить отчет об ошибке, воспользуйтесь инструкциями на веб-странице Microsoft Beta Web site. Мы также ждем предложений о полезных функциях и заинтересованы в обратной связи с пользователями средств распознавания речи.

Запросы дополнительной поддержки при использовании средств распознавания речи направляйте непосредственно в службу поддержки средств распознавания речи, по электронному адресу [email protected]
Дополнительные ресурсы

Бета-тестеры, участвующие в программе технологической адаптации (Technology Adoption Program, TAP), могут также обращаться за поддержкой к прикрепленному участнику команды разработчиков корпорации Microsoft.

Обсуждение статьи на форуме

Как мы уже выяснили в первой главе, программы для распознавания речи в наше время очень актуальны и широко используются в повседневной жизни. Две главные задачи машинного распознавания речи -- достижение гарантированной точности при ограниченном наборе команд хотя бы для одного фиксированного голоса и независящее от дикции распознавание произвольной слитной речи с приемлемым качеством -- не решены до сих пор, несмотря на длительную историю их разработки. Более того, существуют сомнения в принципиальной возможности решения обеих задач, поскольку даже человек не всегда может стопроцентно распознать речь собеседника. Рассмотрим некоторые продукты данной области в таблице 3.

Таблица 2

Сравнительная характеристика продуктов «ABBYY FlexiCapture» и «CORRECT. Автоматизация ввода и обработки документов»

Программа

Возможности

Системные требования

ABBYY FlexiCapture

Автоматизирует извлечение информации из бумажных документов и сохраняет данные в информационной системе предприятия

ОС: Windows XP SP2, Vista SP2, 7, Server 2003 SP2, Server 2008 SP2 или R2 + Desktop Expirience. Требования к компьютеру: ПК с процессором семейств Intel Core2/2 Quad/Pentium/Celeron/Xeon/Core i5/Core i7, AMD K6/Turion/Athlon/Duron/Sempron, тактовая частота 2 ГГц или выше;

Требования к установленному программному обеспечению:

Net Framework 2.0 или выше, если используются скрипты.Net.

Дополнительные требования: интернет-соединение для активации серийного номера, USB-порт для аппаратного ключа защиты.

Информация о цене доступна при заказе. Возможен заказ пробной версии.

CORRECT. Автоматизация ввода и обработки документов

Решение для автоматизированной обработки первичной бухгалтерской документации на базе ABBYY FlexiCapture с использованием аутсорсинга.

ОС: Windows XP SP2, Vista SP2, 7, Server 2003 SP2, Server 2008 SP2 или R2 + Desktop Expirience. Требования к компьютеру:

ПК с процессором семейств Intel Core2/2 Quad/Pentium/Celeron/Xeon/Core i5/Core i7, AMD K6/Turion/Athlon/Duron/Sempron, тактовая частота 2 ГГц или выше;

ОП:512 Мб на каждое ядро процессора, но не менее 1 Гб; место на диске: 1 Гб, из них 700 Мб для установки; сканер с поддержкой TWAIN, WIA или ISIS; интернет-соединение для активации серийного номера, USB-порт для аппаратного ключа защиты; видеоплата и монитор с разрешением не менее 1024Ч768; клавиатура, мышь или другое указательное устройство.

Информация о цене доступна при заказе.

Таблица 3

Сравнительная характеристика программ для голосового ввода

Доступно на:

Особенности программы

Яндекс. Диктовка

iPhone и iPad и для Android

  • - Голосовая активация. Чтобы начать запись, достаточно произнести «Яндекс, записывай».
  • - Распознавание речи. Вы говорите, а приложение превращает вашу речь в текст.
  • - Голосовое управление. Отредактировать текст можно с помощью команд -- например, «Удали последнее слово», «Начни с новой строки», «Добавь весёлый смайлик». Яндекс. Диктовка не только распознаёт слова, но и понимает их смысл, поэтому список команд не ограничен.
  • - Расстановка знаков пунктуации. Приложение ориентируется на паузы в речи и само расставляет знаки препинания.
  • - Синтез речи

Windows 7 и 8.Началась разработка Android-приложения

«Скачай бесплатно RealSpeaker, и ты сможешь вводить текст любой длины с помощью голоса в любой текстовый редактор (блокнот, MS Word, Skype, VKontakte, Facebook и т.д.) на любом из одиннадцати языков», -- указано на сайте проекта. При этом системные требования RealSpeaker заявлены вполне демократичные: компьютер с фронтальной камерой и микрофоном, наличие доступа в интернет, ОС Windows 7 или 8.

Горыныч 5.0 Dict Light

Совместимость с операционными системами Microsoft Windows Me/2000/XP.

Очень простой и удобный интерфейс.

Быстрая и легкая настройка микрофона.

Возможность добавлять в словарь собственные слова.

Тренировка слов непосредственно в процессе диктовки.

Интегрируется во множество различных приложений, в первую очередь - в Microsoft Word

Встроенный активный словарь. При выборе и назначении команд следует помнить, что у VOICETYPE существует режим, при котором программа автоматически набирает текстом все то, что не хранится в качестве голосового аналога системной команды. Поэтому если вы использовали созвучные выражения, то скорее всего VOICETYPE начнет спотыкаться, чем испортит все дело. Второй достаточно серьезной проблемой VOICETYPE является встроенный модуль самообучения. Если программа решит, что правильно распознала слово или выражение, в смысле текстового эквивалента, но не уловила до конца вашей индивидуальной тонкости произношения, то она может "попросить" пользователя повторить слово пару раз и перезапишет совершенно исправный фрагмент. При плохом произношении можно вообще все испортить, так как VOICETYPE DICTATION в состоянии все перепутать.

Из данных таблицы 3 следует, что программы голосового ввода распространены не только на компьютеры, но и на смартфоны. Все указанные программы в данной таблице легкодоступны и понятны в использовании. Все данные продукты можно приобрести бесплатно.

Несмотря на все достижения последних лет, средства для распознавания слитной речи все еще допускают большое количество ошибок, нуждаются в длительной настройке, требовательны к аппаратной части и к квалификации пользователя и отказываются работать в зашумленных помещениях, хотя последнее важно как для шумных офисов, так и для мобильных систем и эксплуатации в условиях телефонной связи.

Однако распознавание речи, как и машинный перевод с одного языка на другой, относится к так называемым культовым компьютерным технологиям, к которым проявляется особое внимание. Интерес к данным технологиям постоянно подогревается бесчисленными произведениями писателей-фантастов, поэтому неизбежны постоянные попытки создать такой продукт, который должен соответствовать нашим представлениям о технологиях завтрашнего дня. И даже те проекты, которые по своей сути ничего собой не представляют, часто бывают коммерчески вполне успешны, так как потребителя живо интересует сама возможность подобных реализаций, даже независимо от того, сможет ли он применить ее на практике.

С момента, когда был изобретен компьютер, человечество мечтает общаться с ним на привычном языке - с помощью голоса. Рядовой житель планеты Земля знать не хочет ни о каких клавиатурах и мышах. Ему надо, чтобы компьютер понимал его с полуслова - причем в буквальном смысле. Просто, быстро, понятно! В то время как фантасты придумывают истории про то, как компьютеры через сотню-другую лет начнут по приказу ходить в магазины, массировать нам пятки и чесать спинки, разработчики программного обеспечения медленно, но верно движутся к реализации этой задумки. И если без чесания под лопаткой придется пока обойтись, то управлять различными приложениями с помощью голоса и даже надиктовывать компьютеру целые текстовые файлы уже очень даже можно. Программ для панибратского отношения с ПК пока не очень много, но те, что есть, стремительно развиваются. Еще год назад описанные в статье утилиты - более ранние их версии - представляли из себя весьма печальное зрелище. Сегодня же они подросли, возмужали - это уже не какие-то затравленные мокрые и голодные щенки, а жизнерадостные волчата, которые через год-два превратятся в волков голосового управления компьютером.

Dragon Naturally Speaking 8
Уникальная в своем роде утилита. Титаник и цеппелин “речевых” программ в одном флаконе. Адская смесь из распознавателя голоса, звукового управления компьютером и учителя правильного произношения английских слов. Но давайте обо всем по порядку.
Утилита англоязычная, потому и работать умеет исключительно с английскими словоформами. Теоретически, можно научить Dragon Naturally Speaking великому и могучему, но, увы и ах, использовать это можно только для голосового управления РС. Выступить в роли русской стенографистки утилита не сможет - на какие бы ухищрения вы не пошли. Зато разговорный английский схватывает на раз. По заявлениям разработчиков, программа распознает до 95% слов. Цифра, конечно, завышена, но не так сильно, как у конкурентов. Натаскав DNS на тембр своего голоса (для этого придется потратить около часа времени, надиктовывая различные слова), вы научите его понимать даже очень сложные мозгодробительные обороты, включая английский мат. Вот только одно “но”... Произносить любую фразу нужно предельно четко. Как, вы не проходили курсов артикуляции? Тогда придется потренироваться самостоятельно. Будьте уверены - через пару-тройку дней лингвистических сражений с DNS вы любого англичанина поразите чистотой произношения. Думаете, шутим? Нисколько! DNS - идеальное средство для тренировки правильного произношения - чуть где сфальшивили, сразу выдает предупреждение.
Теперь что касается голосового управления. Здесь DNS тоже не подкачал. Программку удалось натравить почти на все имеющиеся у нас на редакционных компьютерах утилиты. Сначала он мертвой хваткой вцепился в горло всем составляющим пакета MS Office . Открыл после голосового приказа Excel и Word, а также все остальные приложения. Затем настало время сетевых программ. The Bat! , ICQ , различные интернет-браузеры покорились DNS с первого раза. В завершение мы испытали утилиту в работе с разномастными утилитами того же класса - cправился и глазом не моргнул. Забавно, когда одна программа управления голосом запускает другую такую же утилиту. Кстати, обратите внимание: ничего не стоит настроить DNS на запуск любимых игр. Произносите в микрофон “Warcraft” - и он тут же загружается. Главное, не забывайте перед тем как командовать, научить программу связывать конкретное слово с той или иной утилитой (настраивается в меню Accuracy Center ).
Помимо упомянутого, в программу встроено множество разных мелких вкусностей, вроде бы необязательных, но которые заметно расширяют возможности утилиты. Как вам, например, распознавание текста из wav или mp3-файла? Загружаете англоязычную песню, в которой не можете разобрать какие-то слова, а DNS выдает вам их в текстовом виде.
Петь дифирамбы DNS можно почти до бесконечности. Это единственная программа в обзоре, которая справилась почти со всеми текстами и продемонстрировала даже больше возможностей, чем мы от нее ждали. Однозначный “мастхев” и “испешелиюз”.
Плюсы: Просто, удобно, со множеством наворотов и вкусностей.
Минусы: За регистрацию 30-дневной trial-версии просят почти $200 , что, мягко говоря, не скромно. Утилита не понимает русского - но это беда почти всех аналогичных программ.
Резюме: Пожалуй, лучшая программа для распознавания речи и голосового управления компьютером. Если бы не высокая цена, то была бы просто идеальной.
Realize Voice 4.1
Несмотря на то что создатели позиционируют Realize Voice как эдакий мультикомбайн, одинаково легко справляющийся с распознаванием речи, управлением приложениями и синтезом речитатива, детальное тестирование показало, что создатели, мягко говоря, преувеличивают возможности продукта. Как распознаватель речи утилита показала себя весьма слабо. Процент точного определения слов с последующим переводом в текстовую форму - очень низок. Даже длительные экзекуции над обучающим модулем ни к чему не привели. Многие слова и выражения программа понимать отказывается. И быть бы RV незамедлительно линчеванным и распятым, если бы не... уникальные возможности в области голосового управления различными приложениями. Тут RV поднатужился и дал такую фору другим утилитам, что мы разве что не аплодировали стоя. Программа с легкостью настраивается на запуск любой сторонней утилиты (хоть Word, хоть ICQ, хоть какой-нибудь драйвер) да еще и поддерживает работу с макросами. С их помощью можно вытворять такое, что и подумать страшно. На одну голосовую команду, которую, кстати, вполне можно сделать русской, разрешено повесить, например, такую многоступенчатую функцию: открыть почтовый клиент, подгрузить спам-фильтр, зайти на сервер, скачать все письма с заголовками на русском языке, все с заголовками на английском и с заголовками длиннее 20 символов - удалить. Это только для примера. Вообще же сложность макросов ничем не ограничена. Главное только успевать фантазировать. Единственное, на что Realize Voice натаскать не удалось, - на голосовое управление внутри компьютерных игр. Но в обычных приложениях - никаких проблем.
В качестве бонуса RV предлагает, как бы это помягче выразиться, интегральную функцию голосовой организации рабочего пространства. Это по-научному, а если на русском, то голосом можно не только запускать приложения и управлять их работой, но и в любой момент подгружать другие утилиты, переключаться между окнами, закрывать программы... Иными словами, Бобик по команде “Апорт!” не только сбегает за косточкой, но еще по пути заглянет в магазин за молоком, выбросит мусор, оплатит телефонный счет и купит вашей девушки цветы.
Плюсы: Уникальные функции голосового управления, поддержка сложных макросов, простота использования.
Минусы: Слабый модуль распознавания речи. Цена $50.
Резюме: Программа просто создана для голосового управления компьютером. Жаль, что разработчики пожертвовали другими важными функциями утилиты.
Dictation 2004 v. 4.4
Утилита-середнячок. Тот самый случай, когда и придраться, вроде бы, не к чему, но на фоне конкурентов смотрится не очень. Dictation 2004 неплохо справляется с распознаванием устной речи, хотя тягаться, например, с Dragon Naturally Speaking не может: последний бьет по самому незащищенному месту Dictation 2004 - по проценту правильного угадывания слов. С этим у программы не все в порядке, дополнительное обучение болезнь лечит, но не полностью. Можно поставить утилите “пять” за умение управлять приложениями, но это будет оценка за прилежание, а не за мастерское владение предметом, как это делает Realize Voice . Разработчики напирают на то, что программа тесно интегрирована с Word, но мы этого не заметили - от работы с другими утилитами ничем не отличается. Наконец, Dictation 2004 хочется почесать за ушком за то, что он умеет неплохо распознавать речь из wav-файлов, но Dragon Naturally Speaking делает это не в пример лучше. Единственная же уникальная функция “Диктанта” - умение распознавать речь напрямую из различных внешних источников (диктофона, плеера, музыкального центра - вряд ли кому-то понадобится). Вот и выходит, что ну всем хорош Dictation 2004, а отдавать за него “зеленый полтинник” ($50) жалко.
Плюсы: Умеет распознавать речь напрямую с различных внешних устройств.
Минусы: Средние показатели по всем функциям.
Резюме: Дешево, но не очень сердито. Утилита-середнячок, серая мышка в мире программ распознавания речи.
Горыныч ПРОФ 3.0
“Горыныч” - отечественная разработка. Уже за одно умение работать с великим и могучим программу можно водружать на пьедестал. Но - будем объективными. Утилита построена на двух модулях, отвечающих за распознавание надиктованной в микрофон речи и за команды различным приложениям. Жесткое тестирование показало, что проблемы с русским языком у “Горыныча”, увы, имеются - если проводить аналогии с зарубежными программами и их уровнем знания английского, то отечественный продукт работает где-то на уровне Dictation 2004 . То есть все здорово, но запинки случаются. Важный момент - в утилиту встроен блок самообучения: чем больше вы уделяете внимание “Горынычу”, тем лучше он вас понимает и меньше возмущается вашему неправильному русскому произношению. Мы испытывали нрав утилиты лишь несколько часов, и за это время, как нам показалось, программа действительно стала понятливей. Возможно, при более длительном общении результаты будут еще лучше.
Тестирование “командных” умений “Горыныча” прошло без сучка, без задоринки. Утилита не пытается претендовать на мега-интегральную систему, реализованы только основные функции управления программами - никаких сложносочиненных макросов писать не придется, но то, что есть, - на твердую пятерку. Запуски, отключения программ, вызовы дополнительных окошек - сказочный змей со всем справился и от демонстрации норовистости воздержался.
В природе встречается две версии коварного Горыныча - облегченная (Light), продающаяся в jewel-упаковке по цене около $5 (идеально подходит для домашнего пользования) и полноценный коробочный вариант за $49 (для дома функций явный перебор).
Плюсы: Русскоязычность, эргономичный интерфейс, функция самообучения, наличие недорогой облегченной версии.
Минусы: Средние показатели по всем функциям, но только на фоне зарубежных конкурентов, среди отечественных утилит аналогов нет.
Резюме: Отличная русскоязычная программа. За неимением достойных отечественных аналогов - чуть ли не единственный вариант для тех, кто совсем не дружит с английским.
Чего ждать? Чего бояться?
Несмотря на относительную схожесть “голосовых” программ, они используют разные алгоритмы распознавания речи, ее декодирования и выведения на экран в виде текста. Обычно в одну утилиту встроено несколько алгоритмических ядер, отвечающих за различные функции утилит. В зависимости от того, какой из компонентов в данной программе спрограммирован тщательнее, утилита справляется лучше с теми или другими функциями. Чаще всего “голосовые” приложения умеют работать по двум основным направлениям.
1) Распознавание русской или английской речи и конвертация голоса в текстовый файл. Самая сложная в реализации функция - разумеется, для разработчиков. Программ, владеющих этим навыком в совершенстве, увы, пока не существует.
2) Голосовое управление компьютером. Какое-то простое - или не очень простое, а многоступенчатое - действие “ассоциируется” с какой-то голосовой командой. После этого достаточно произнести заветное слово или фразу, и компьютер незамедлительно проделает соответствующую операцию.
Обратите внимание, что даже демоверсии описанных в статье программ занимают не менее 50 Мб. Это обусловлено большим объемом “словарного запаса” - чтобы понять произнесенное слово, утилита уже должна его “знать”. Не надейтесь, что “речевые” программы будут шустро бегать на слабых машинах. Для комфортной работы с большинством подобных утилит необходимо иметь вполне современный компьютер и хорошего качества микрофон.

* * *
В теории вы подкованы, дело - за практикой. Запасайтесь утилитами, инсталлируйте, осваивайте. Рынок программ распознавания речи молод, потому утилиты ведут себя как дети малые. За ними нужно ухаживать, вовремя менять им подгузники, следить, чтобы они вовремя узнавали новые слова (во всех программах есть модуль обучения новым выражениям), холить и лелеять. Что вырастет из скачанного из Сети или купленного дистрибутива - зависит только от вас. Если не будете уделять достаточно времени настройке и обучению программы - вырастет строптивый и хулиганистый отрок. Потратите несколько часов на изучение документации, лазанию по менюшкам, работе с микрофоном - взрастите прилежного юнца, который будет везде ходить за вами и глаголить: “Чего желаете, папенька?! Кашки? Огурчиков малосольных? ”.

Пожалуй, самая удобная программа для расшифровки текста для Windows и Mac OS, которая совмещает в себе аудиоплеер и текстовый редактор. Принцип работы очень прост – загружаете в программу аудиофайл, прослушиваете его при помощи горячих клавиш на клавиатуре (их можно назначать самому) и параллельно набираете текст. Скорость воспроизведения и громкость аудио также регулируются при помощи клавиатуры. Таким образом, ваши руки постоянно находятся на клавиатуре и отпадает необходимость использовать мышку или переключаться между разными программами. Нужно учитывать, что встроенный редактор текста не распознает ошибки и не имеет многих других привычных функций, например, переключение дефиса в тире. Однако можно пользоваться другими редакторами текста параллельно с Express Scribe, используя горячие клавиши для управления воспроизведением аудио. Программа условно бесплатная, полная стоимость: 17-50 долларов.


02. Transcriber-pro



Русскоязычная программа для Windows, которая позволяет прослушивать не только аудио, но и просматривать видеофайлы. Встроенный текстовый редактор имеет возможность проставлять временные метки и имена собеседников. Полученный текст можно импортировать в «интерактивные стенограммы», а также корректировать в рамках группового проекта. Приложение доступно только при годовой подписке, стоимость – 689 рублей в год.


03. RSplayer V1.4



Простая программа для обработки и расшифровки аудиофайлов с поддержкой горячих клавиш и возможностью набора текста в Microsoft Word. В отличие от предыдущих подобных программ, ее можно скачать бесплатно, но она нестабильно работает на новых версиях Windows.

04. Voco

Профессиональное Windows-приложение для преобразования речи в текст. Поддерживает голосовой набор в любом тестовом браузере, имеет большую коллекцию тематических словарей и не требует подключения к интернету для распознавания речи. Расширенные версии «Voco.Professional» и «Voco.Enterprise» могут работать с готовыми аудиофайлами. Единственный недостаток – высокая стоимость приложения.


05. Dragon Dictation



Бесплатное мобильное приложение для распознавания надиктованной речи. Программа умеет распознавать около 40 языков и их разновидностей, позволяет редактировать текст и отправлять его на почту, социальные сети или копировать в буфер обмена. Для работы необходимо подключение к интернету.


06. RealSpeaker



Уникальное приложение, которое способно не только распознавать аудиофайлы, но и живую речь, наговариваемую на камеру. За счет специального видеорасширения «RealSpeaker» считывает движение губ, тем самым улучшая процесс распознавания речи до 20-30% по сравнению с другими подобными алгоритмами. На данный момент приложение поддерживает 11 языков: русский, английский (американский и британский диалекты), французский, немецкий, китайский, корейский и японский, турецкий, испанский, итальянский и украинский. Программа распространяется условно бесплатно, стоимость зависит от времени подписки, бессрочная версия стоит около 2 тыс. руб.



Предыдущая статья: Следующая статья:

© 2015 .
О сайте | Контакты
| Карта сайта