Голосом, жестом, прикосновением«Noos-Inform»

Способы взаимодействия с компьютерами с каждым днем все альтернативнее.

Долгие годы мы общались с цифровой техникой в основном с помощью кнопок. Но инженерам просто нажимать их показалось слишком скучно, поэтому сегодня стали доступными новые варианты управления, кардинально отличающиеся от привычных. Наверное, самый распространенный альтернативный способ ввода-вывода информации — сенсорный.

Сенсорный экран реагирует на прикосновения. Технологий реализации этой концепции довольно много (основных способов десять: резистивные, матричные, емкостные экраны и т. д.). Одни основаны на передаче импульса, другие — тепла, третьи используют инфракрасное излучение. Но результат один — пользователь передает устройству информацию непосредственно прикосновением к экрану без применения клавиатуры, мыши или другого манипулятора. Сегодня это уже привычный способ ввода, широко применяемый в мобильных устройствах (клавиатурой снабжаются в основном бюджетные модели).

Такой подход позволил существенно расширить мультимедийные функции «мобилок» за счет увеличения площади экрана и значительно упростить работу с ними. Самые продвинутые экраны умеют реагировать на несколько прикосновений одновременно (технология multi-touch), что позволяет с успехом использовать в управлении устройством специальные жесты (особенно удачно подобная система реализована в последней модели iPhone).

Сенсорные экраны применяются и в ПК, правда, далеко не повсеместно — дело в высокой цене больших экранов такого типа и специфике их применения. Так, если дисплей находится в вертикальном положении, у пользователя довольно быстро устают руки, а если в горизонтальном — руки существенно сужают обзор. Поэтому в стационарных ПК сенсорные технологии реализовываются в виде разнообразных тачпадов, графических планшетов и других вспомогательных устройств. Пример компьютера с большим сенсорным экраном — моноблок ASUS EeeTop. Это «заточенный» под мультимедийные цели компьютер, который можно использовать в качестве домашнего медиа-центра.

Не стоит забывать и о том, что технологии сенсорного ввода широко применяются в разнообразных сервисных устройствах — банкоматах, терминалах оплаты услуг и информационных стендах.

Бесконтактное понимание

Даже сенсорный ввод подразумевает контакт рук с устройством и, следовательно, необходимость находиться возле него. А хотелось бы управлять компьютером на расстоянии — голосом или жестом.

Об управлении жестами мы уже рассказывали, поэтому остановимся на голосовом вводе — одном из самых перспективных и в то же время пока самых неразвитых методов ввода информации. Наверное, все помнят эпизод из фильма «Назад в будущее-2», когда постаревший Марти МакФлай приходит домой, включает голосовой командой телевизор и говорит, какие каналы необходимо запустить.

К сожалению, подобная система в ее полноценной реализации так и остается фантастикой. Даже там, где речевой ввод реализован (голосовой набор номера поддерживается многими современными мобильными телефонами), он далеко не всегда работает корректно. А при работе с ПК голосовой ввод информации распространен скорее как средство для людей с ограниченными физическими возможностями. Так что говорить о полноценной замене привычных манипуляторов голосом пока не приходится. Даже в своем революционном продукте — игровом контроллере Microsoft Kinect для консоли XboX 360 — редмондцы не смогли реализовать полноценной поддержки голоса. Kinect распознает только простейшие фразы и пока только на английском и японском языках.

Первое устройство для распознавания речи появилось в 1952 году (оно могло «слышать» произнесенные цифры), а уже в 1964-м на ярмарке компьютерных технологий в Нью-Йорке компания IBM представила аппарат IBM Shoebox, способный «понимать» четкую речь. В первых таких системах использовали ряд грамматических и синтаксических правил. Если произнесенные слова соответствовали записанным в программе правилам, то система могла определить, какое слово используется. Правда, уже тогда стали возникать определенные трудности, толком не решенные и по сей день: главная из них — существенное отличие разговорной речи от установленных правил языка, из-за чего при распознавании возникает большое число ошибок.

В современных программах распознавания речи используются статистические системы моделирования. Они с помощью теории вероятности и математических вычислений способны определить наиболее вероятный вариант произнесенной фразы. Джон Гарофоло, работник информационно-технологической лаборатории Национального института стандартов и технологий (США), говорит, что на сегодняшний день существуют две основные модели, подходящие для этой цели, — скрытая модель Маркова и модель нейронных сетей. Оба эти метода основаны на сложных математических функциях. Принцип их работы — обработка известной системе информации и извлечение из нее скрытых данных с помощью вычислений. Конечно, подобный подход также не гарантирует стопроцентного результата: системе, например, не будет от чего отталкиваться, если она неправильно поймет даже начальные звуки.

В конечном итоге все зависит от правильности обработки звукового сигнала: здесь корень всех проблем, связанных с речевым вводом информации. Основное препятствие — индивидуальность голоса и произношения каждого человека. Если при распознавании отдельных звуков проблем обычно не возникает, то при произношении слов и целых предложений звуки смешиваются и накладываются один на другой, из-за чего точность распознавания значительно снижается. Не стоит забывать и о фонетических особенностях произношения некоторых слов, индивидуальной манере речи и шумах. В итоге получается, что голосовые команды следует произносить ровным голосом (изменения тембра и интонации несут много побочных данных, и процент распознавания падает), четко и монотонно, без проглатывания окончаний и других речевых особенностей, находиться при этом на определенном расстоянии от микрофона, избегая посторонних шумов (чего сложно добиться, скажем, в офисе). Плохое аппаратное обеспечение (например, низкокачественный микрофон) также добавляет проблем. Сказываются и особенности конкретного программного обеспечения. Так, диктуя целостный текст (скажем, при работе с текстовым редактором), нужно помнить о том, что знаки препинания все равно придется ставить вручную. В лучшем случае для этого есть специальные голосовые команды («запятая», «тире») — распознавать интонации и в соответствии с ними расставлять знаки ни одна система пока не умеет.