блог
25.11.2021 15:18

Общение на равных

За последние несколько лет интеллектуальные голосовые ассистенты и чат-боты, с которыми человек может взаимодействовать посредством текста или голоса, стали неотъемлемой частью жизни. Но их потенциал еще не исчерпан. В ближайшие годы они завоюют сферу здравоохранения и многие другие области.

Эволюция искусственного общения

Попытки научить компьютер общаться как человек начались в 1950-х годах после выхода статьи Алана Тьюринга «Вычислительные машины и разум», в которой автор поднял вопрос о возможности компьютера мыслить и описал способ создания одной из таких машин. С каждой новой попыткой создать чат-бота, способного генерировать ответы на вопросы (общаться), ученые сталкивались со сложностью наложения правил языка на программу. Это связано с тем, что речь является одной из когнитивных функций – наиболее сложных функций головного мозга, с помощью которых осуществляется процесс рационального познания мира. Сложность языка состоит в многообразии форм слов, вариативности фраз и контексте, в зависимости от которого одни и те же слова могут нести разный смысл.

В 50-70-е годы прошлого века активно развивалась лингвистика и natural language processing (NLP), ученые искали способ формализовать естественный язык и вместить его в нужные разработчикам рамки. Первые попытки создания чат-ботов были основаны на правилах (rule-based подход). Подходы, основанные на правилах, используют сопоставление слов с образцом в словаре, парсинг данных и имеют низкую точность, хотя и могут иметь высокую производительность в конкретных случаях использования. Rule-based подходы до сих пор используются при создании чат-ботов, нацеленных на решение конкретных задач, например, заказ товаров или ответы о погоде.

Первой программой, специально предназначенной для взаимодействия с человеком, стала ELIZA, которую создал Джозеф Вейценбаум из Массачусетского технологического института в 1966 году.

В 70-80-е года прошлого века наступила так называемая «AI-зима», когда постоянное улучшение и расширение rule-based систем не приносило качественного улучшения работы алгоритмов искусственного интеллекта. Поэтому в 80-90-е годы произошел переход к простым статистическим моделям на основе машинного обучения (пока без нейросетей): деревьям решений, логистическим регрессиям, методам опорных векторов. С помощью таких алгоритмов стало возможно обучение моделей решению определенных задач путем демонстрации паттернов, например, различать положительный и негативный контекст в тексте. Такие алгоритмы по сей день используются в задачах анализа отзывов о продукте и в аналитике социальных сетей. Ограниченность этого подхода состоит в том, что решить более сложные задачи, например, общаться на разные темы или решать разноплановые задачи такие алгоритмы не в силах.

В 2000-х гг. на основе машинного обучения, еще до широкого распространения deep learning моделей, были выпущены знаковые виртуальные ассистенты, которые популяризовали технологию и познакомили миллионы людей с чат-ботами и голосовыми ассистентами: в 2006 г. IBM выпустила Watson – чат-бот, который может ответить на множество разных вопросов, в 2010 г. Apple запустила Siri, купив разработчика этого чат-бота. Параллельно с обучением компьютера понимать текст развивалось направление перевода (распознавания) речи в текст и генерации текста, для которых, как и для NLP в целом ключевым моментом стало развитие моделей глубокого обучения.

В 2012 г. произошел бум глубокого обучения, нейросети показали свою способность решать задачи по идентификации и классификации объектов с большей точностью, чем человек. Для обработки естественного языка с появлением моделей word2vec (позволяющих получить векторное представление слов на естественном языке) и других алгоритмов стало возможным определение контекста и генерация «осмысленных» диалогов. Модели deep learning стали показывать хорошие результаты на текстах благодаря наличию больших данных в открытом доступе в интернете. Однако, данные часто бывают не в том формате, который необходим для решения задач, и задача разметки данных стала одной из критических для решения задач NLP.

На ранних этапах развития NLP ученые делали попытки рассказать программе про окружающий мир с помощью правил, rule-based моделей, сопоставлении вопроса и словаря. Но в 2020 г. «победили» нейросетевая архитектура трансформеров и генеративное предварительное обучение, которые позволяют обучать нейросети без сверхбольших затрат ручного труда на разметку текста при одновременной высокой точности определения зависимости в текстах. Теперь, сама нейросеть содержит в себе информацию о языке, правилах выстраивания диалога, смыслах и фактах о мире. Чем больше нейросеть, тем она умнее.

Однако, возможность обучения таких моделей сейчас есть только у компаний, имеющих доступ к суперкомпьютеру и способных инвестировать в обучение модели и поддержку инфраструктуры миллионы долларов ежемесячно. То есть затраты на поддержание и обучение таких нейросетей доступны лишь крупнейшим компаниям мира. Следующий этап развития NLP наступит при обнаружении более энергоэффективного и дешевого способа обучения алгоритмам.

 

Рисунок No1. Эволюция технологий, обеспечивающих развитие чат-ботов и голосовых ассистентов (в пря- моугольниках) и эволюция чат-ботов и голосовых ассистентов (в кругах). Источник: TeqViser

Интерфейсы

Параллельно с развитием алгоритмов происходило развитие интерфейсов взаимодействия компьютер-человек. Они становились более удобными и нативными, а время, необходимое на обращение к компьютеру, сокращалось. Например, чтобы отправить электронное письмо обычным способом, необходимо включить компьютер, открыть браузер, зайти на сайт, напечатать адрес электронной почты отправителя и набрать необходимый текст. При голосовом взаимодействии, достаточно назвать имя и дать команду на отправку голосовому ассистенту. Логичным развитием пользовательского интерфейса станет считывание сигналов мозга для выполнения того или иного действия. Выигрыш во времени здесь также будет ощутимым. Например, если голосовой ассистент выполнил команду неправильно и вместо рок-музыки включил классическую, необходимо сначала остановить ассистента, а потом сказать команду заново. В случае с нейроинтерфейсами, ассистент по активности мозга поймет, что команда выполнена неверно и предложит другой вариант решения задачи.

Рисунок No2. Эволюция интерфейсов взаимодействия человека и компьютера

Сферы применения

Развитие технологии по стандартному сценарию обычно начинается с роста научных публикаций по этой теме, дальше происходит увеличение числа патентов, а вслед за этим – рост инвестиций. Вместе с ростом инвестиций, увеличивается количество статей и материалов про технологию в СМИ, появляются кейсы использования. По частоте упоминаний в СМИ можно судить также и об уровне внедрения технологии и ее реальном использовании. Чаще всего про чат-боты и голосовые ассистенты СМИ пишут в связке со сферами торговли и банковским сектором. Однако, статистика по научным статьям и патентам выводит на первое место здравоохранение.

Рисунок No3. Рейтинг отраслей по развитию чат-ботов и голосовых ассистентов. Источник: TeqViser

Почему так происходит? Основной областью применения чат-ботов и голосовых ассистентов является обслуживание конечных пользователей. В торговле эту технологию уже успешно освоили интернет-магазины, упростившие способ покупки практически любых товаров, из-за чего их клиентами стали сотни миллионов людей. Товары приобретаются ежедневно, интернет-магазинам приходится справляться с сотнями миллионов заказов, что делает практически невозможным поддержку сервиса и оказание услуг в ручном режиме.

В банковском секторе за последние пять лет произошли серьезные изменения из-за появления и широкого распространения мобильных приложений, позволяющих получать услуги без посещения офиса банка. Онлайн-банкинг также уже невозможно представить без использования чат-ботов.

Во все остальные сферы, где услуга преимущественно ориентирована на физических лиц и требует персонализированного подхода, – телеком, здравоохранение, образование, госуправление, медиа и развлечения, и где возможен переход в онлайн, будут с разной скоростью проникать виртуальные ассистенты. В телекоме это уже происходит, в том числе в России.

Большое количество научных статей и патентов по чат-ботам и голосовым ассистентам в сфере здравоохранения связано с высокой перспективностью внедрения этой технологии. Здравоохранение необходимо каждому человеку, особенно этот вопрос актуален для стран, где на одного врача приходится максимальное количество человек: Китая, Индии, а также для других стран, в бедных и малонаселенных районах которых в ближней доступности нет больниц и поликлиник. При этом появление голосовых ассистентов в здравоохранении предъявляет к разработчикам высокий уровень ответственности, так как от этого зависит здоровье людей. Здесь пересекается большое количество вопросов: наличие данных, этические вопросы, вопросы распределения ответственности, общая консервативность отрасли, из-за чего времени для внедрения технологии требуется больше, чем в других отраслях. На примере США и Китая, где чат-боты уже помогают записаться к врачу, дают рекомендации по лечению или, в зависимости от симптомов, подбирают нужного специалиста, можно увидеть, что часть барьеров по внедрению виртуальных ассистентов в сферу здравоохранения уже сняты, и скоро технология станет массовой.

Типы чат-ботов и кейсы

Чат-боты и голосовые ассистенты можно разделить на те, что ориентированы на решение определенных задач (closed-domain), и универсальных собеседников, т.н. «болталки» (open-domain). Последние часто используются для решения маркетинговых задач, а также для развлекательных целей.

Одна из последних разработок open-domain чат-бота – ассистент Meena от Google, способный поддерживать разговор на любую тему. Чат-боты в этом направлении создаются для спасения людей от одиночества и улучшения их психического состояния за счет получения поддержки, внимания и сочувствия в процессе разговора с ассистентом.

В будущем возможна реализация личного виртуального помощника, который будет совмещать в себе собеседника и цифрового друга, который не забудет спросить, как у вас прошел день, и вашего помощника, способного сделать резюме статьи, подать за вас налоговую декларацию или раздать задачи по уборке дома и приготовлению обеда гаджетам в системе «умного дома».

Для большинства бизнес-задач достаточно closed-domain бота с ограниченной областью знаний. Однако, такой бот не только может справляться с такими простейшими задачами, как пополнение баланса или заказ товаров, но и может быть интегрирован в CRM-системы, собирать данные и строить по ним аналитику.

Пример «сложного closed-domain бота» - виртуальный ассистент компании SAS для управляющего фермы по производству солнечной энергии, который разработан для управления объектом и анализирует непрерывный поток данных с солнечных панелей. Такой чат-бот способен в режиме реального времени ответить на вопросы: «Какой статус каждой солнечной батареи?», «Сколько энергии будет производить солнечная ферма в следующем месяце?», «Идет ли выработка электроэнергии ночью?». Другой пример такого ассистента: чат-бот, который записывает разговоры с клиентами, переводит голос в текст и анализирует разговор на предмет решения поставленной задачи, недовольства клиента и другие необходимые компании проблемы.

Для тяжелой промышленности в сложных физических условиях, когда сотрудникам необходимо освободить руки, голосовые помощники позволяют автоматически формировать отчеты и передавать их в другие подразделения без прерывания основной деятельности. Также существуют кейсы, в которых голосовой помощник встроен в очки дополненной реальности для помощи операторам во время обслуживания роботов, благодаря чему также обеспечивается взаимодействие без помощи рук и получается преодолеть ограничения в задачах, связанных с интенсивной ручной работой.

В целом, для бизнеса виртуальные ассистенты будут вертикально интегрироваться во внутренние бизнес-процессы, решая как точечные задачи, так и собирая информацию о всей компании. Благодаря возможности «общения» и «понимания», а в будущем и запоминания контекста, чат-бот приобретет гибкость, которой не хватает при внедрении классических систем автоматизации процессов.

блог
Хотите попробовать нашу платформу?
Откройте потенциал внешних данных
Получить демо-доступ