Інтернет Windows Android

Надшвидке розпізнавання мови без серверів реальному прикладі. Програми розпізнавання мовлення

Як ми вже з'ясували у першому розділі, програми для розпізнавання мови в наш час дуже актуальні та широко використовуються у повсякденному житті. Дві головні завдання машинного розпізнавання мови - досягнення гарантованої точності при обмеженому наборі команд хоча б для одного фіксованого голосу і незалежне від дикції розпізнавання довільного злитого мовлення з прийнятною якістю - не вирішені досі, незважаючи на тривалу історію їхньої розробки. Більше того, існують сумніви щодо принципової можливості вирішення обох завдань, оскільки навіть людина не завжди може стовідсотково розпізнати мову співрозмовника. Розглянемо деякі продукти цієї області таблиці 3.

Таблиця 2

Порівняльна характеристика продуктів «ABBYY FlexiCapture» та «CORRECT. Автоматизація введення та обробки документів»

Програма

Можливості

Системні вимоги

ABBYY FlexiCapture

Автоматизує вилучення інформації з паперових документів та зберігає дані в інформаційній системі підприємства

Windows XP SP2, Vista SP2, 7, Server 2003 SP2, Server 2008 SP2 або R2 + Desktop Expirience. Вимоги до комп'ютера: ПК із процесором сімейств Intel Core2/2 Quad/Pentium/Celeron/Xeon/Core i5/Core i7, AMD K6/Turion/Athlon/Duron/Sempron, тактова частота 2 ГГц або вище;

Вимоги до встановленого програмного забезпечення:

Net Framework 2.0 або вище, якщо використовуються скрипти.

Додаткові вимоги: Інтернет-з'єднання для активації серійного номера, USB-порт для апаратного захисту.

Інформація про ціну доступна при замовленні. Можливе замовлення пробної версії.

CORRECT. Автоматизація введення та обробки документів

Рішення для автоматизованого оброблення первинної бухгалтерської документації на базі ABBYY FlexiCapture з використанням аутсорсингу.

Windows XP SP2, Vista SP2, 7, Server 2003 SP2, Server 2008 SP2 або R2 + Desktop Expirience. Вимоги до комп'ютера:

ПК із процесором сімейств Intel Core2/2 Quad/Pentium/Celeron/Xeon/Core i5/Core i7, AMD K6/Turion/Athlon/Duron/Sempron, тактова частота 2 ГГц або вище;

ОП:512 Мб на кожне ядро ​​процесора, але не менше 1 Гб; місце на диску: 1 Гб, їх 700 Мб для установки; сканер із підтримкою TWAIN, WIA або ISIS; інтернет-з'єднання для активації серійного номера; USB-порт для апаратного ключа захисту; відеоплата та монітор з роздільною здатністю не менше 1024Ч768; клавіатура, миша або інший вказівний пристрій.

Інформація про ціну доступна при замовленні.

Таблиця 3

Порівняльна характеристика програм для голосового введення

Доступно на:

Особливості програми

Яндекс. Диктування

iPhone та iPad та для Android

  • - Голосова активація. Щоб розпочати запис, достатньо вимовити "Яндекс, записуй".
  • - Розпізнавання мови. Ви кажете, а програма перетворює вашу мову на текст.
  • - Голосове керування. Відредагувати текст можна за допомогою команд - наприклад, "Видали останнє слово", "Почни з нового рядка", "Добав веселий смайлик". Яндекс. Диктування не лише розпізнає слова, а й розуміє їхній зміст, тому список команд не обмежений.
  • - Розміщення знаків пунктуації. Додаток орієнтується на паузи в мові і сам розставляє розділові знаки.
  • - Синтез мови

Windows 7 і 8. Почалася розробка Android-програми

"Скачай безкоштовно RealSpeaker, і ти зможеш вводити текст будь-якої довжини за допомогою голосу в будь-який текстовий редактор (блокнот, MS Word, Skype, VKontakte, Facebook і т.д.) будь-якою з одинадцяти мов", - вказано на сайті проекту. При цьому системні вимоги RealSpeaker заявлені демократичні: комп'ютер з фронтальною камерою і мікрофоном, наявність доступу в інтернет, ОС Windows 7 або 8.

Горинич 5.0 Dict Light

Сумісність із операційними системами Microsoft Windows Me/2000/XP.

Дуже простий та зручний інтерфейс.

Швидке та легке налаштування мікрофона.

Можливість додавати до словника власні слова.

Тренування слів безпосередньо у процесі диктування.

Інтегрується в безліч різних додатків, насамперед - у Microsoft Word

Вбудований словник. При виборі та призначенні команд слід пам'ятати, що VOICETYPE має режим, при якому програма автоматично набирає текстом все те, що не зберігається як голосовий аналог системної команди. Тому якщо ви використовували співзвучні вислови, то, швидше за все, VOICETYPE почне спотикатися, ніж зіпсує всю справу. Другою серйозною проблемою VOICETYPE є вбудований модуль самонавчання. Якщо програма вирішить, що правильно розпізнала слово або вираз, у сенсі текстового еквівалента, але не вловила до кінця вашої індивідуальної тонкості вимови, то вона може "попросити" користувача повторити слово кілька разів і перезапише справний фрагмент. При поганому вимові можна взагалі все зіпсувати, так як VOICETYPE DICTATION може все переплутати.

З даних таблиці 3 випливає, що програми голосового введення поширені як на комп'ютери, а й у смартфоны. Всі зазначені програми в даній таблиці доступні і зрозумілі у використанні. Всі ці продукти можна придбати безкоштовно.

Незважаючи на всі досягнення останніх років, засоби для розпізнавання злитого мовлення все ще допускають велику кількість помилок, потребують тривалого настроювання, вимогливі до апаратної частини і до кваліфікації користувача і відмовляються працювати в зашумлених приміщеннях, хоча останнє важливо як для шумних офісів, так і для мобільних систем та експлуатації в умовах телефонного зв'язку.

Однак розпізнавання мови, як і машинний переклад з однієї мови в іншу, відноситься до так званих культових комп'ютерних технологій, до яких проявляється особлива увага. Інтерес до цих технологій постійно підігрівається незліченними творами письменників-фантастів, тому неминучі постійні спроби створити такий продукт, який має відповідати нашим уявленням про технології завтрашнього дня. І навіть ті проекти, які за своєю суттю нічого не являють собою, часто бувають комерційно цілком успішними, оскільки споживача жваво цікавить сама можливість подібних реалізацій, навіть незалежно від того, чи зможе він застосувати її на практиці.

Титрівник телефону для глухих і тих, що слабо чують

Перетворіть ваш екран на дивовижний заголовок телефону. Це повністю автоматичний, без людського слуху-машиністки ваші розмови. Знаходять бабусі та дідусі важко почути родину та друзів по телефону? Увімкніть Speechlogger для них і зупинити кричати по телефону. Просто підключіть аудіовиход телефону до аудіо входу комп'ютера та запустити Speechlogger. Це також корисно віч-на-віч взаємодії.

Автоматична транскрипція

Ви занотували інтерв'ю? Зберегти деякий час на переписування його, з автоматичним мовлення Google, до тексту, принесла у ваш браузер Speechlogger. Відтворення записаного інтерв'ю в мікрофон вашого комп'ютера (або лінії) в-і нехай speechlogger зробити транскрипцію. Speechlogger зберігає транскрипції тексту разом з датою, часом і ваші коментарі. Вона також дозволяє редагувати текст. Телефонні розмови можуть бути розшифровані за допомогою того ж методу. Ви також можете записати аудіофайли безпосередньо з комп'ютера, як описано нижче.

Автоматичний усний та письмовий перекладач

Зустріч із іноземними гостями? Принесіть ноутбук (або два) з speechlogger і мікрофон. Кожна сторона бачитиме друга вимовлені слова, перекладені їхньою рідною мовою в режимі реального часу. Це також корисно на телефонний дзвінок іноземною мовою, щоб переконатися, що ви повністю зрозуміти іншу сторону. Підключіть аудіовиход вашого телефону, щоб лінійний вхід вашого комп'ютера і почати Speechlogger.

Вивчайте іноземні мови та покращуйте навички вимови

Speechlogger є відмінним інструментом для вивчення мов і може бути використаний u200b u200Bin кілька способів. Ви можете використовувати його, щоб дізнатися словниковий запас, говорячи рідною мовою і даючи програмного забезпечення перекласти його. Ви можете навчатися та практикувати правильну вимову, розмовляючи іноземною мовою і, бачачи, чи розуміє Speechlogger чи ні. Якщо розшифрувати текст у чорний шрифт це означає, що ви вимовив це добре.

Генерування субтитрів для фільмів

Speechlogger може автоматично записати фільми чи інші звукові файли. Потім візьміть файл і автоматично перекласти його будь-якою мовою, щоб зробити міжнародні субтитри.

Диктуйте замість введення

Написання листа? Документи? Списки? Резюме? Незалежно від того, вам потрібно ввести, спробуйте диктувати його Speechlogger замість цього. Speechlogger буде автоматично зберігати його для вас і дозволить експортувати його в документ.

Забавна гра:)

Чи можете ви імітувати китайську динамік? Французька? Що про російську мову? Спробуйте імітувати іноземну мову і побачити те, що ви тільки що сказали зі Speechlogger. Використовуйте синхронний переклад Speechlogger, щоб зрозуміти, що ви щойно сказали. Отримати дивовижні результати – це дуже весело!

У нашому сучасному, насиченому подіями світі швидкість роботи з інформацією є одним з наріжних каменів досягнення успіху. Від того, наскільки швидко ми отримуємо, створюємо, переробляємо інформацію, залежить наша робоча продуктивність і продуктивність, а значить і наш безпосередній матеріальний достаток. p align="justify"> Серед інструментів, здатних підвищити наші робочі можливості, важливе місце займають програми для перекладу мови в текст, що дозволяють істотно збільшити швидкість набору потрібних нам текстів. У цьому матеріалі я розповім, які існують популярні програми для перекладу аудіо голосу в текст і які особливості.

Більшість існуючих програм для перекладу голосу в текст мають платний характер, пред'являючи ряд вимог до мікрофона (у разі, коли програма призначена для комп'ютера). Не рекомендується працювати з мікрофоном, вбудованим у веб-камеру, а також розміщеним у корпусі стандартного ноутбука (якість розпізнавання мови з таких пристроїв знаходиться на досить низькому рівні). Крім того, досить важливо мати тихе навколишнє оточення, без зайвих шумів, здатних безпосередньо вплинути на рівень розпізнавання вашої мови.

При цьому більшість таких програм здатні не тільки трансформувати мову в текст на екрані комп'ютера, але й використовувати голосові команди для керування вашим комп'ютером (запуск програм та їх закриття, прийом та відправлення електронної пошти, відкриття та закриття сайтів тощо).

Програма перетворення мови на текст

Перейдемо до безпосереднього опису програм, які можуть допомогти в перекладі мови в текст.

Програма "Laitis"

Безкоштовна російськомовна програма для розпізнавання голосу «Laitis» має гарну якість розуміння мови, і, на думку її творців, здатна практично повністю замінити користувачеві звичну клавіатуру. Програма добре працює і з голосовими командами, дозволяючи з їх допомогою виконувати безліч дій щодо керування комп'ютером.

Для своєї роботи програма вимагає обов'язкової наявності на ПК швидкісного інтернету (у роботі програми використовуються мережеві сервіси розпізнавання голосу від Google та Yandex). Можливості програми дозволяють також управляти за допомогою голосових команд і вашим браузером, для чого необхідна установка на веб-навігатор спеціального розширення від Laitis (Chrome, Mozilla, Opera).

"Dragon Professional" - розшифровка аудіозаписів у текст

На момент написання цього матеріалу цифровий англомовний продукт « Dragon Professional Individual» є одним із світових лідерів за якістю розпізнаваних текстів. Програма розуміє сім мов (з російською поки що працює лише мобільний додаток «Dragon Anywhere» на і ), має високу якість розпізнавання голосу, вміє виконувати ряд голосових команд. При цьому цей продукт має виключно платний характер (ціна за основну програму становить 300 доларів США, а за «домашню» версія продукту «Dragon Home» покупцеві доведеться викласти 75 доларів США).

Для своєї роботи цей продукт від Nuance Communications вимагає створення свого профілю, який покликаний адаптувати можливості програми під специфіку вашого голосу. Крім безпосереднього диктування тексту, ви можете навчити програму виконувати ряд команд, тим самим роблячи свою взаємодію з комп'ютером ще більш конгруентним та зручним.

«RealSpeaker» - надточний розпізнаваний мовлення

Програма для трансформації голосу в текст RealSpeaker крім стандартних для програм такого роду функцій, дозволяє задіяти можливості веб-камери вашого ПК. Тепер програма не тільки зчитує аудіо складову звуку, а й фіксує рух куточків губ мовця, тим самим коректніше розпізнаючи слова, що вимовляються ним.


«RealSpeaker» зчитує не тільки аудіо, а й візуальну складову процесу мовлення

Додаток підтримує більше десяти мов (у тому числі і російську), дозволяє розпізнавати мову з урахуванням акцентів та діалектів, дозволяє транскрибувати аудіо та відео, дає доступ до хмари та багато іншого. Програма умовно безкоштовна, за платну версію доведеться заплатити цілком реальні гроші.

"Voco" - програма швидко переведе голос у текстовий документ

Ще один перетворювач голосу в текст - це платний цифровий продукт "Voco", ціна "домашньої" версії якого нині становить близько 1700 рублів. Більш просунуті і дорогі варіанти даної програми - Voco.Professional і Voco.Enterprise мають ряд додаткових можливостей, однією з яких є розпізнавання мови з аудіозаписів, що є у користувача.

Серед особливостей Voco відзначу можливість доповнення словникового запасу програми (нині словниковий запас програми включає більше 85 тисяч слів), а також її автономну роботу від мережі, що дозволяє не залежати від вашого підключення до Інтернету.


Серед плюсів "Voco" - висока навчання програми

Додаток включається досить просто - достатньо двічі натиснути на клавішу "Ctrl". Додаток абсолютно безкоштовно, підтримує кілька десятків мов, серед яких і російська.

Висновок

Вище мною були перераховані програми для перекладу аудіо запису голосу в текст, описаний їх загальний функціонал і характерні особливості. Більшість подібних продуктів зазвичай має платний характер, при цьому асортимент та якість російськомовних програм якісно поступається англомовним аналогам. Особливу увагу при роботі з подібними програмами рекомендую приділити вашому мікрофону та його налаштуванням – це має важливе значення в процесі розпізнавання мови, адже поганий мікрофон може звести нанівець навіть найякісніший софт розглянутого мною типу.

Жодна програма не зможе повністю замінити ручну роботу з розшифровування записаного мовлення. Однак існують рішення, які дозволяють суттєво прискорити та полегшити переклад мови в текст, тобто спростити транскрибацію.

Транскрибація – це запис аудіо або відеофайлу в текстовому вигляді. Є в інтернеті платні завдання, коли за транскрибацію тексту виконавцю виплачується деяка сума грошей.

Переклад мови в текст корисний

  • студентам для перекладу записаних аудіо- або відеолекцій у текст,
  • блогерам, що ведуть сайти та блоги,
  • письменникам, журналістам для написання книг та текстів,
  • інфобізнесменам, яким потрібен текст після проведеного ними вебінару, виступу тощо,
  • людям, яким складно друкувати – вони можуть надиктувати листа і надіслати його рідним чи близьким,
  • Інші варіанти.

Опишемо найефективніші інструменти, доступні на ПК, мобільні програми та онлайн-сервіси.

1 Сайт speechpad.ru

Це онлайн-сервіс, який дає змогу через браузер Google Chrome перекладати мову в текст. Сервіс працює з мікрофоном та з готовими файлами. Звичайно, якість буде значно вищою, якщо використовувати зовнішній мікрофон та диктувати самому. Однак сервіс непогано справляється навіть із відеороликами на YouTube.

Натискаємо «Включити запис», відповідаємо на запитання про «Використання мікрофона» – для цього натискаємо «Дозволити».

Довгу інструкцію щодо використання сервісу можна згорнути, натиснувши на кнопку 1 на рис. 3. Рекламу можна позбутися, пройшовши нескладну реєстрацію.

Мал. 3. Сервіс speechpad

Готовий результат легко редагується. Для цього потрібно або виправити вручну виділене слово, або надиктувати його заново. Результати роботи зберігаються в особистому кабінеті, їх можна скачати на свій комп'ютер.

Список відео-уроків з роботи зі speechpad:

Можна транскрибувати відео з Youtube або зі свого комп'ютера, щоправда, знадобиться мікшер.

Відео «транскрибування аудіо»

Працює сервіс із сімома мовами. Є невеликий мінус. Він у тому, що й потрібно транскрибировать готовий аудіо-файл, його звучання лунає у колонки, що створює додаткові перешкоди як луна.

2 Сервіс dictation.io

Чудовий онлайн-сервіс, який дозволить безкоштовно та легко перекладати мову в текст.

Мал. 4. Сервіс dictation.io

1 на рис. 4 – російську мову можна вибрати наприкінці сторінки. У браузері Google Chrome мова вибирається, а в Мозіллі чомусь немає такої можливості.

Примітно, що реалізована можливість автозберігати готовий результат. Це убереже від випадкового видалення в результаті закриття вкладки або браузера. Готові файли цей сервіс не розпізнає. Працює із мікрофоном. Потрібно називати розділові знаки, коли проводите диктовку.

Текст розпізнається досить коректно, орфографічних помилок немає. Можна самостійно вставляти розділові знаки з клавіатури. Готовий результат можна зберегти на комп'ютері.

3 RealSpeaker

Ця програма дозволяє легко переводити людську мову на текст. Вона призначена для роботи у різних системах: Windows, Android, Linux, Mac. З її допомогою можна перетворювати мову, що звучить у мікрофон (наприклад, він може бути вбудований в ноутбук), а також записану в аудіофайли.

Може сприймати 13 мов світу. Існує бета-версія програми, яка працює в режимі онлайн-сервісу:

Потрібно перейти за вказаним вище посиланням, вибрати російську мову, завантажити на онлайн-сервіс свій аудіо- або відео-файл та оплатити його транскрибацію. Після транскрибації можна буде скопіювати отриманий текст. Чим більше файл для транскрибації, тим більше часу знадобиться на його обробку, докладніше:

У 2017 році був безкоштовний варіант транскрибації за допомогою RealSpeaker, у 2018 році такої можливості немає. Сильно бентежить той момент, що транскрибований файл доступний всім користувачам для скачування, можливо, це буде доопрацьовано.

Контакти розробника (ВКонтакті, Facebook, Youtube, Твіттер, електронна пошта, телефон) програми можна знайти на сторінці його сайту (точніше, у підвалі сайту):

4 Speechlogger

Альтернатива попередньому додатку для мобільних пристроїв, що працюють на Android. Доступно безкоштовно в магазині додатків:

Текст редагується автоматично, в ньому розставляються розділові знаки. Дуже зручно для того, щоб надиктувати собі нотатки або складати списки. В результаті текст вийде дуже гідної якості.

5 Dragon Dictation

Ця програма, яка розповсюджується безкоштовно для мобільних пристроїв від компанії Apple.

Програма може працювати з 15 мовами. Вона дозволяє редагувати результат, вибирати потрібні слова зі списку. Потрібно чітко промовляти всі звуки, не робити зайвих пауз та уникати інтонації. Іноді виникають помилки у закінченнях слів.

Додаток Dragon Dictation використовують власники, наприклад, щоб переміщаючись по квартирі, надиктувати список покупок в магазині. Прийду туди, можна буде подивитися на текст у дописі, і не треба слухати.

Яку б програму Ви не використовували у своїй практиці, будьте готові перевіряти ще раз результат і вносити певні корективи. Тільки так можна отримати бездоганний текст без помилок.

Також корисні послуги:

Отримуйте актуальні статті з комп'ютерної грамотності прямо на вашу поштову скриньку.
Вже більше 3.000 передплатників

.

Та тільки віз і нині там.
І.А. Крилов. Байка «Лебідь, Щука і Рак»

Дві головні завдання машинного розпізнавання мови - досягнення гарантованої точності при обмеженому наборі команд хоча б для одного фіксованого голосу і незалежне від дикції розпізнавання довільного злитого мовлення з прийнятною якістю не вирішені досі, незважаючи на тривалу історію їх розробки. Більше того, існують сумніви щодо принципової можливості вирішення обох завдань, оскільки навіть людина не завжди може стовідсотково розпізнати мову співрозмовника.

Коли письменникам-фантастам можливість звичайної розмови з комп'ютером здавалася настільки очевидною і природною, що перші обчислювальні машини, позбавлені голосового інтерфейсу, сприймалися як щось неповноцінне.

Здавалося б, чому не зайнятися вирішенням цієї проблеми програмно з використанням «розумних» комп'ютерів? Адже і виробники подібних продуктів начебто є, і потужність комп'ютерів безперервно зростає, і вдосконалюються технології. Однак успіхи в галузі автоматичного розпізнавання мови та перетворення її на текст, схоже, знаходяться на тому ж рівні, що й 20-40 років тому. Пам'ятається, ще в середині 90-х років компанія IBM впевнено заявила про наявність таких інструментів в OS/2, а трохи пізніше і Microsoft підключилася до впровадження подібних технологій. Намагалася займатися розпізнаванням мови та компанія Apple, але на початку 2000 року вона офіційно оголосила про відмову від цього проекту. Продовжують працювати в цій галузі компанії IBM (Via Voice) і Philips, причому функцію розпізнавання мови IBM не тільки вбудовувала у свою операційну систему OS/2 (нині вже минула), а й досі випускає як окремий продукт. Пакет для розпізнавання злитої мови Via Voice (http://www-306.ibm.com/software/voice/viavoice) від IBM відрізнявся тим, що від початку навіть без навчання розпізнавав до 80% слів. При навчанні ймовірність правильного розпізнавання підвищувалася до 95%, а до того ж паралельно з налаштуванням програми на конкретного користувача відбувалося освоєння майбутнім оператором навичок роботи з системою. Зараз ходять чутки про те, що подібні новації будуть реалізовані і у складі Windows XP, хоча голова та засновник корпорації Білл Гейтс неодноразово заявляв, що вважає мовні технології ще не готовими до масового застосування.

Колись американська компанія Dragon Systems створила, напевно, першу комерційну систему розпізнавання мови Naturally Speaking Preferred, яка працювала ще в 1982 році на IBM PC (навіть не XT!). Щоправда, ця програма більше нагадувала гру і відтоді жодних серйозних зрушень компанія так і не зробила, а до 2000 року зовсім розорилася, причому її остання версія Dragon Dictate Naturally Speaking була продана компанії Lernout&Hauspie Speech Products (L&H), яка теж була однією з лідерів у галузі систем та методів розпізнавання та синтезу мови (Voice Xpress). L&H, у свою чергу, теж дійшла до банкрутства з розпродажем активів та майна (до речі, Dragon Systems була продана майже за 0,5 млрд. дол., а L&H вже за 10 млн., так що своїми масштабами в цій галузі вражає не прогрес, а регрес!). Технології L&H і Dragon Systems перейшли до компанії ScanSoft, яка до цього часу розпізнавала оптичні образи (у її віданні сьогодні знаходяться деякі відомі програми розпізнавання друкованого тексту типу OmniPage), але там, схоже, цим ніхто серйозно не займається.

Російська компанія Cognitive Technologies, що досягла значних успіхів у галузі розпізнавання символів, повідомила в 2001 році про спільний проект з Intel зі створення систем розпізнавання російської мови для Intel був підготовлений мовний корпус російської мови RuSpeech. Власне, RuSpeech є мовною базою даних, що містить фрагменти безперервної російської мови з відповідними текстами, фонетичною транскрипцією та додатковою інформацією про дикторів. Cognitive Technologies ставила собі за мету створити «диктонезалежну» систему розпізнавання безперервної мови, а мовний інтерфейс складався із системи сценарію діалогу, синтезу промови по тексту та системи розпізнавання мовних команд.

Проте насправді досі програм для реального розпізнавання мови (та ще й російською мовою) практично не існує, і створені вони будуть, очевидно, не скоро. Більше того, навіть зворотне розпізнавання завдання - синтез мови, що, здавалося б, значно простіше розпізнавання, до кінця так і не вирішено. Будь-яка синтезована мова сприймається людиною гірше, ніж жива, причому це особливо помітно при передачі каналом телефонного зв'язку, тобто саме там, де вона сьогодні найбільш затребувана.

«Ну все, тобі кінець», - сказав Іван Царевич, дивлячись прямо в очі третій голові Змія Горинича. Вона розгублено подивилася на дві інші. Ті у відповідь зловтішно посміхнулися.

Анекдот

1997 року вихід на комерційний ринок знаменитого "Горинича" (по суті адаптації програми Dragon Dictate Naturally Speaking, проведеної силами маловідомої на той час російської компанії White Group, офіційного дистриб'ютора Dragon Systems) став своєрідною сенсацією. Програма здавалася цілком працездатною, а її ціна була досить помірною. Однак час іде, «Гориничі» змінюють інтерфейси та версії, але жодних цінних властивостей не набувають. Можливо, ядро ​​Dragon Naturally Speaking було якось налаштоване на особливості англомовної мови, але навіть після послідовної заміни голови дракона на три голови «Горинича» воно дає не більше 30-40% розпізнавання середнього рівня лексики, причому при ретельному промовлянні. Та й кому це взагалі потрібно? Як відомо, за заявами розробників компаній Dragon Systems, IBM і Lernout&Hauspie, їх програми при безперервному диктуванні були здатні правильно розпізнавати до 95% тексту, але ж вони давно вже не випускаються, бо відомо, що для комфортної роботи точність розпізнавання необхідно довести до 99 %. Чи треба говорити, що для завоювання подібних висот у реальних умовах потрібні, м'яко кажучи, чималі зусилля.

Крім того, програма вимагає тривалого періоду тренування та налаштування під конкретного користувача, дуже примхлива до обладнання, більш ніж чутлива до інтонації та швидкості виголошення фраз, тому можливості її навчання розпізнаванню різних голосів сильно різняться.

Втім, може, хтось і придбає цей пакет як якусь просунуту іграшку, але пальцям, що втомилися від роботи з клавіатурою, це ніяк не допоможе, нехай навіть виробники «Горинича» стверджують, що швидкість введення мовного матеріалу та трансформації його в текст становить 500-700 знаків за хвилину, що недоступно навіть для кількох досвідчених друкарок, якщо скласти швидкість їх роботи.

При найближчому розгляді нової версії цієї програми нічого путнього витягти з неї нам так і не вдалося. Навіть після тривалого «навчання» програми (а стандартний словник нам взагалі не допоміг) виявилося, що диктовка, як і раніше, повинна здійснюватися строго за словами (тобто після кожного слова потрібно робити паузу) і слова потрібно вимовляти чітко, що не завжди характерно для мови . Звичайно, «Горинич» - це модифікація англомовної системи, а для англійської інший підхід просто немислимий, але говорити в такій манері російською здалося нам особливо неприродним. До того ж у процесі звичайної розмови будь-якою мовою інтенсивність звуку практично ніколи не падає до нуля (у цьому можна переконатися за спектрограмами), а розпізнавати диктування текстів загальної тематики, що виконується в манері злитого мовлення, комерційні програми навчилися вже років 5-10 тому .

Система орієнтована насамперед на введення, але містить кошти, що дозволяють виправити невірно почуте слово, навіщо «Горинич» пропонує список варіантів. Можна виправити текст і з клавіатури, що, до речі, постійно доводиться робити. З клавіатури вводяться й слова, які у словнику. Пам'ятається, у попередніх версіях стверджувалося, що чим частіше ви диктуєте, тим більше система звикає до вашого голосу, але ні тоді, ні зараз ми цього щось не помітили. Нам навіть здалося, що працювати з програмою «Горинич», як і раніше, складніше, ніж, наприклад, навчати папугу розмовляти, а з новинок версії 3.0 можна відзначити лише «попсовий» мультимедійний інтерфейс.

Одним словом, прояв прогресу в цій галузі тільки один: через збільшення потужності комп'ютера зовсім зникла тимчасова затримка між вимовою слова та відображенням його письмового варіанту на екрані, а кількість правильних влучень, на жаль, не збільшилася.

Аналізуючи можливості програми, ми дедалі більше схиляємося до думки фахівців, що лінгвістичний аналіз тексту - обов'язкова стадія процесу автоматичного введення під диктування. Без цього сучасну якість розпізнавання не може бути досягнуто, та й багато експертів пов'язують перспективи мовних систем саме з подальшим розвитком лінгвістичних механізмів, що містяться в них. Як наслідок, мовні технології стають все більш залежними від тієї мови, з якою вони працюють. А це означає, по-перше, що розпізнавання, синтез та обробка російської мови є тією справою, займатися якою повинні саме російські розробники, а по-друге, лише спеціалізовані вітчизняні продукти, які спочатку орієнтовані саме на російську мову, зможуть по-справжньому вирішити ту завдання. Щоправда, тут слід зазначити, що вітчизняні фахівці петербурзького «Центру мовних технологій» (ЦРТ) вважають, що створення власної системи диктування за нинішніх російських умов не окупиться.

Інші іграшки

Очі технології розпізнавання мови російськими розробниками успішно застосовуються в основному в інтерактивних навчальних системах і іграх на кшталт «Мій словник, що говорить», Talk to Me або «Професор Хіггінс», створених фірмою «ІстраСофт». Використовуються вони для контролю вимови у тих, хто вивчає англійську мову та аутентифікації користувача. Розвиваючи програму "Професор Хіггінс", співробітники "ІстраСофт" навчилися членити слова на елементарні сегменти, які відповідають звукам мови і не залежать ні від диктора, ні від мови (перш за систему розпізнавання мови не виробляли такої сегментації, а найменшою одиницею для них було слово) . При цьому виділення фонем з потоку злитого мовлення, їх кодування та подальше відновлення відбувається в режимі реального часу. Вказана технологія розпізнавання мови знайшла досить дотепне застосування, вона дозволяє суттєво стискати файли з диктофонними записами або мовними повідомленнями. Спосіб, запропонований фірмою «ІстраСофт», допускає стиснення мови в 200 разів, причому при стисканні менш ніж у 40 разів якість мовного сигналу практично не погіршується. Інтелектуальна обробка мови на рівні фонем перспективна не тільки як спосіб стиснення мовлення, а й як крок на шляху до створення нового покоління систем розпізнавання мови, адже теоретично машинне розпізнавання мови, тобто її автоматичне подання у вигляді тексту, якраз і є крайнім ступенем стиснення мовного сигналу.

Сьогодні фірма «ІстраСофт», крім навчальних програм, пропонує на своєму сайті (http://www.istrasoft.ru/user.html) і програми для стиснення/програвання звукових файлів, а також демонстраційну програму голосонезалежного розпізнавання команд російської мови Istrasoft Voice Commander.

Здавалося б, тепер для того, щоб створити систему розпізнавання, засновану на новій технології, залишилося зробити зовсім небагато…

), яка працює в цій галузі з 1990 року, схоже, досягла певних успіхів. ЦРТ має у своєму арсеналі цілий набір програмних та апаратних засобів, призначених для шумоочищення і для підвищення якості звукових, і в першу чергу мовних сигналів - це комп'ютерні програми, автономні пристрої, плати (DSP), що вбудовуються в пристрої каналів запису або передачі мовної інформації (ми вже писали про цю фірму у статті «Як покращити розбірливість мови?» № 8'2004). «Центр мовленнєвих технологій» відомий як розробник засобів шумоподавлення та редагування звуку: Clear Voice, Sound Cleaner, Speech Interactive Software, Sound Stretcher та ін. судах, і навіть у розслідуванні низки справ, котрим потрібно встановити зміст фонограм промови.

Комплекс шумоочищення мови Sound Cleaner є професійним набором програмно-апаратних засобів, призначених для відновлення розбірливості мовлення і для очищення звукових сигналів, записаних у складних акустичних умовах або передаються по каналах зв'язку. Цей справді унікальний програмний продукт призначений для шумоочищення та підвищення якості звучання живого (тобто надходить у реальному часі) або записаного звукового сигналу і може допомогти у підвищенні розбірливості та текстового розшифрування низькоякісних мовних фонограм (у тому числі архівних), записаних у складних акустичних умовах.

Природно, Sound Cleaner ефективніше працює щодо шумів та спотворень звуку відомої природи, таких як типові шуми та спотворення каналів зв'язку та звукозапису, шуми приміщень та вулиць, працюючих механізмів, транспортних засобів, побутової техніки, голосового «коктейлю», повільної музики, електромагнітних наведень систем живлення, комп'ютерної та іншої техніки, ефектів реверберації та луни. В принципі, чим рівномірніший і «регулярніший» шум, тим успішніший цей комплекс із ним впорається.

Однак при двоканальному зніманні інформації Sound Cleaner істотно знижує вплив шумів будь-якого типу, наприклад, він має методи двоканальної адаптивної фільтрації, призначені для придушення як широкосмугових нестаціонарних перешкод (таких як мова, радіо або телетрансляція, шуми залу і т.д.), так і періодичних (вібрації, мережеві наведення тощо). Ці методи ґрунтуються на тому, що при виділенні корисного сигналу використовується додаткова інформація про властивості перешкоди, представлена ​​в опорному каналі.

Коли ми говоримо про розпізнавання мови, то не можна не згадати про іншу розробку ЦРТ сімейство комп'ютерних транскрайберів, які, на жаль, поки що не є програмами автоматичного розпізнавання мови і перетворення її в текст, а скоріше являють собою комп'ютерні цифрові магнітофони, керовані з спеціалізованого текстового редактора Дані пристрої призначені для підвищення швидкості та покращення комфортності документування звукозаписів мовлення при підготовці зведень, протоколів нарад, переговорів, лекцій, інтерв'ю, їх також застосовують у безпаперовому діловодстві та в багатьох інших випадках. Транскрайбери відрізняються простотою та зручністю у використанні та доступні навіть для непрофесійних операторів. При цьому швидкість роботи з набору тексту зростає в два-три рази у професійних операторів, які друкують наосліп, а у непрофесіоналів у п'ять-десять разів! Крім того, значно зменшується механічне зношування магнітофона і стрічки, якщо йдеться про аналогове джерело. До того ж комп'ютерні транскрайбери мають інтерактивну можливість звіряння набраного тексту та відповідного звукового треку. Зв'язок тексту та мовлення встановлюється автоматично та дозволяє в набраному тексті при підведенні курсору до досліджуваної частини тексту миттєво автоматично знаходити та прослуховувати відповідні звукові фрагменти мовного сигналу. Підвищення розбірливості мови можна досягти тут як уповільнення швидкості відтворення без спотворення тембру голосу, і шляхом багаторазового повторення нерозбірливих фрагментів як кільця.

Зрозуміло, набагато простіше реалізувати програму, здатну розпізнавати лише обмежений, невеликий набір команд і символів, що управляють. Це, наприклад, можуть бути цифри від 0 до 9 у телефоні, слова «так»/«ні» та односкладові команди виклику потрібних абонентів тощо. Такі програми з'явилися найпершими і вже давно використовуються в телефонії для голосового набору номера або вибору абонента.

Точність розпізнавання, як правило, підвищується при попередньому налаштуванні на голос конкретного користувача, причому цим способом можна досягти розпізнавання мови навіть тоді, коли у того, хто говорить, є дефект дикції або акцент. Все начебто добре, але помітні успіхи в цій галузі видно лише в тому випадку, якщо передбачається індивідуальне застосування обладнання або програмного забезпечення одним або декількома користувачами, в крайньому випадку, для кожного з яких створюється свій індивідуальний «профіль».

Коротше кажучи, незважаючи на всі досягнення останніх років, засоби для розпізнавання злитого мовлення все ще допускають велику кількість помилок, потребують тривалого настроювання, вимогливі до апаратної частини і до кваліфікації користувача і відмовляються працювати в зашумлених приміщеннях, хоча останнє важливо як для шумних офісів, так і для мобільних систем та експлуатації в умовах телефонного зв'язку.

Однак розпізнавання мови, як і машинний переклад з однієї мови в іншу, відноситься до так званих культових комп'ютерних технологій, до яких проявляється особлива увага. Інтерес до цих технологій постійно підігрівається незліченними творами письменників-фантастів, тому неминучі постійні спроби створити такий продукт, який має відповідати нашим уявленням про технології завтрашнього дня. І навіть ті проекти, які за своєю суттю нічого не являють собою, часто бувають комерційно цілком успішними, оскільки споживача жваво цікавить сама можливість подібних реалізацій, навіть незалежно від того, чи зможе він застосувати її на практиці.