На сайте исследовательской компании Nielsen Norman Group вышла статья Якоба Нильсена, доктора философии, основателя компании Nielsen Norman Group, в которой говорится, что благодаря нейросетям — впервые за 60 лет — появился новый механизм взаимодействия с пользовательскими интерфейсами. Мы перевели статью на русский язык.
Искусственный интеллект вводит третью в истории вычислительной техники концепцию пользовательского интерфейса, переходя к новому механизму взаимодействия, когда пользователи говорят компьютеру, что они хотят, но не говорят, как это сделать, – таким образом, меняя локус контроля.
Использование Chat GPT и других нейросетей знаменует собой начало третьей в истории вычислительной техники концепции пользовательского интерфейса. Это новая за более чем 60 лет модель взаимодействия.
2 парадигма – взаимодействие на основе команд
3 парадигма – спецификация результатов на основе намерений
Первые две концепции
1. Пакетная обработка.
С момента создания компьютеров, примерно в 1945 году, первой концепцией пользовательского интерфейса стала пакетная обработка данных. Пользователи полностью задавали и контролировали рабочие процессы во всем, что они хотели, чтобы сделал компьютер. Пакет с инструкциями передавался в дата-центры, часто в виде перфокарт (носители информации из тонкого картона, данные на которых кодируются с помощью отверстий, проделанных в определенных точках), и обрабатывался неопределенное время, часто в течение ночи.
Позже, как правило на следующее утро, пользователи получали результаты: обычно это была толстая папка с распечатками, но также это могла быть и новая колода перфокарт. Если исходный пакет запросов содержал хотя бы малейшую ошибку, результата могло не быть, или он становился бессмысленным.
С точки зрения пользовательского интерфейса пакетная обработка данных не включала в себя никакого обмена между пользователем и компьютером. Единственной точкой контакта была партия перфокарт. Юзабилити было ужасным и требовалось несколько дней, чтобы настроить пакет запросов так, чтобы его выполнение привело к желаемому конечному результату.
2. Взаимодействие на основе команд
Примерно в 1964-м появление режима разделения времени, когда несколько пользователей одновременно используют один мэйнфрейм ( многопользовательская вычислительная система) через подключенные терминалы, привело к возникновению второй концепции пользовательского интерфейса: взаимодействию на основе команд. Пользователь и компьютер выполняли команды по очереди, одна команда за один раз. Эта концепция сработала настолько хорошо, что с тех пор – вот уже более 60 лет – является доминирующей в вычислительной технике.
Взаимодействие на основе команд стало основным подходом для трех поколений технологий пользовательских интерфейсов: командные строки (DOS и Unix), полноэкранные текстовые терминалы (распространенные в мейнфреймах IBM) и графические пользовательские интерфейсы (Macintosh, Windows и все ныне существующие платформы смартфонов). Подход, действительно, мощный и долговечный.
Преимущество командного взаимодействия перед пакетной обработкой очевидно: после выполнения каждой команды пользователь может заново оценить ситуацию и скорректировать предстоящие команды, чтобы быстрее приблизиться к желаемой заданной цели.
На самом деле пользователям даже не нужно удерживать в голове четко детализированную цель, потому что они могут корректировать подход к решению проблемы по мере того, как они получают от компьютера больше информации и видят результаты их предыдущих команд (по крайней мере, в случае, когда дизайн соответствует первой из 10 эвристик юзабилити: отображению статуса системы).
Ранние системы командной строки обычно не показывали текущее состояние системы, что в результате привело к их ужасному юзабилити. Например, в UNIXe хорошей новостью являлось отсутствие новостей, поскольку вы получали отклик от компьютера только в случае, если результатом вашей команды было сообщение об ошибке. Отсутствие ошибок означало и отсутствие информации от компьютера о новом состоянии, и пользователи испытывали затруднения в составлении следующих команд. Прелесть графических пользовательских интерфейсов в том, что они показывают статус после каждой команды, по крайней мере, если они хорошо спроектированы.
Графический пользовательский интерфейс доминировал (и доминирует) в UX с момента выпуска Macintosh в 1984 году: около сорока лет превосходства, но, возможно, он будет заменен технологией пользовательского интерфейса следующего поколения, и, что еще важнее, следующей UI парадигмой в лице искусственного интеллекта.
Новейшая концепция
Спецификация результатов на основе намерений.
Так называется подход, реализуемый в сетях IBN, который предполагает, что администратор формулирует намерение в высокоуровневом виде и сеть реализует его «сама», используя средства автоматизации и искусственного интеллекта.
Сомневаюсь, что существующий набор генеративных ИИ, таких как ChatGPT, Bard и других, является репрезентативным для пользовательских интерфейсов, которые мы будем использовать через несколько лет, поскольку имеет глубокие проблемы в плане юзабилити. Эти проблемы привели к развитию новой должности – промт-инженера. Промт-инженер нужен для того, чтобы «потыкать» ChatGPT в нужном месте, чтобы тот в ответ выдал нужный результат.
Эта новая должность напоминает мне, как раньше для поиска по обширным базам данных медицинских исследований или юридических дел нам необходимы были специалисты по обработке запросов. Затем появился Google, и искать смог любой. Такой же скачок в юзабилити необходим и новым инструментам — генеративным ИИ. Высокий уровень юзабилити ИИ должен стать значительным конкурентным преимуществом. Если вы рассматриваете возможность стать промт-инженером, не рассчитывайте на длительную карьеру.
Действующий стиль взаимодействия через чат также страдает от того, что пользователи должны излагать свои проблемы в виде текста. Основываясь на последних исследованиях грамотности, я считаю, что половина населения развитых стран недостаточно грамотно излагает свои мысли для того, чтобы получить хорошие результаты от какого-нибудь из современных ботов ИИ.
Тем не менее, пользовательский интерфейс ИИ — это другая парадигма взаимодействия между людьми и компьютерами, парадигма, которая имеет большие перспективы.
Как я упоминал, при командном взаимодействии пользователь дает компьютеру команды, по одной за раз, постепенно приходя к желаемому результату (если дизайн достаточно продуман, чтобы пользователи могли понять, какие команды отдавать на каждом этапе). Компьютер полностью послушен и делает в точности то, что от него просят. Обратная сторона состоит в том, что плохой юзабилити часто приводит к тому, что пользователи отдают команды, которые выполняют совсем не то, чего они действительно хотят.
В новых системах ИИ пользователь больше не говорит компьютеру, что делать. Пользователь говорит компьютеру, какой результат он хочет получить. Таким образом, третья парадигма пользовательского интерфейса, представленная современным генеративным ИИ, — это спецификация результатов на основе намерений.
Простой пример промта для ИИ: Сделай рисунок для обложки научно-фантастического журнала, на котором изображен ковбой в скафандре на безвоздушной планете с двумя красными лунами в небесах.
Попробуйте в 2021 году попросить Photoshop сделать такое! Тогда бы вам пришлось дать сотни команд, чтобы постепенно создать иллюстрацию. Сегодня же Bing Image Creator сделал на выбор четыре изображения за несколько секунд.
В этой новой концепции пользовательского интерфейса, которая представлена современными генеративными ИИ, пользователь сообщает компьютеру желаемый результат, но не указывает, как достичь этого результата. По сравнению с традиционным командным взаимодействием, эта парадигма полностью меняет локус контроля. Я сомневаюсь, что мы даже можем описывать такой пользовательский опыт как «взаимодействие», потому что здесь отсутствует и очередность, и постепенный прогресс.
Тем не менее, в моем примере с научно-фантастической иллюстрацией я не очень доволен скафандром. Это может быть исправлено еще одним этапом работы с ИИ. Такие этапы постепенной доработки — форма взаимодействия, которая в настоящее время слабо поддерживается. Это предоставляет хорошие возможности для повышения юзабилити тем разработчикам ИИ, которые потрудились провести пользовательские исследования, чтобы найти лучшие способы управлять системами для обычных пользователей.
«Делай то, что я подразумеваю, а не то, что говорю» – соблазнительный подход к пользовательскому интерфейсу. Как уже говорилось, пользователи часто отдают компьютеру указания делать не то, что нужно. С другой стороны, полная передача локуса контроля компьютеру имеет минусы, особенно в случае с современными нейросетями, которые склонны включать ошибочную информацию в результаты своей работы. Когда пользователи не знают, как что-то было сделано, им может быть сложнее выявить или исправить проблему.
Концепция, основанная на намерениях, не дорастет до уровня некомандных систем, которые я представил в 1993 году. Настоящая некомандная система не требует от пользователя указать намерение, потому что компьютер действует как вспомогательный инструмент для обычных пользовательских действий.
В качестве примера рассмотрим открытие автомобиля путем нажатия на дверную ручку: это отпирание без команды, поскольку пользователь может выполнять одно и то же действие независимо от того, заблокирован или разблокирован автомобиль. Напротив, автомобиль на голосовом управлении может открыть дверь, потому что пользователь сказал: «Я хочу, чтобы автомобиль был разблокирован», и это может быть спецификацией результата на основе намерения. А старыми автомобилями можно управлять прямой командой открыть дверь, вставив и повернув ключ в замке.
Смогут ли системы ИИ достичь высокого уровня юзабилити в контексте парадигмы, которая основана на определении намерений-результатов, неясно. Лично я сомневаюсь в этом, поскольку я – верный поклонник графических пользовательских интерфейсов. Визуальную информацию часто легче понять, и с ней быстрее взаимодействовать, чем с текстом. Сможете ли вы заполнить длинную форму, например, заявку на открытие банковского счета или бронирование отеля, общаясь с чат-ботом, даже с таким умным, как новые генеративные ИИ-программы?
Кликание или постукивание по экрану – интуитивно понятный и важный аспект взаимодействия с пользователем, который нельзя упускать из виду.
Таким образом, вторая концепция пользовательского интерфейса сохранится, хотя и в менее доминирующей роли. Будущие нейросети, вероятно, будут иметь гибридный пользовательский интерфейс, сочетающий в себе элементы интерфейсов на основе намерений и команд, и при этом во многом сохраняющий элементы графического интерфейса.