Статьи

Редакция: поместите свой код там, где ваш рот

Мы можем быть знакомы с Siri, Google Now и Cortana как родными голосовыми помощниками мобильной операционной системы, но Apple пошла еще дальше и опубликовала API, который позволяет разработчикам распознавать речь и использовать ее. Пользователи iOS уже привыкли к Siri взаимодействовать с приложениями и диктовать текст, и теперь разработчики имеют прямой доступ к этому тексту.

С большой властью приходит большая ответственность, как говорят в Интернете. Какие новые возможности мы получаем благодаря этой технологии, и каковы некоторые из рисков?

Очевидным преимуществом является то, что, объединяя речевые API с такими API, как NSLinguisticTagger, мы получаем инструменты, необходимые для того, чтобы наше приложение понимало намерения пользователя. Вместо того, чтобы инструктировать пользователя выбирать из набора кнопок, на которые он может нажать, мы можем позволить пользователю выразить свои детальные пожелания. Разница похожа на разницу между голосовыми сообщениями и текстовыми сообщениями: последние, как правило, содержат гораздо больше информации, которую мы можем использовать, чтобы понять человека и контекст.

Но, как и в случае с речевыми сообщениями, мы часто имеем шум или слишком много информации, и написание алгоритмов для фильтрации не является тривиальным. Еще одно предостережение: распознавание речи осуществляется на серверах Apple, и поэтому, как советуют сами Apple, вы должны дать пользователю указание не отправлять конфиденциальную информацию (например, данные о работоспособности или пароли) в облако.

Тем не менее, риски управляемы. Если вы действительно хотите прислушиваться к своим пользователям, разместите код там, где вы говорите.