Эволюция использования ChatGPT в работе ORM: часть 1

Впервые об автоматизации процесса копирайтинга с помощью ИИ мы задумались в 2019 году, когда Open-AI опубликовала в общий доступ нейросеть GPT-2. С тех пор мы протестировали все новые версии и кучу гипотез — расскажем обо всём в серии статей, чтобы вы могли познакомиться с опытом, не наступать на грабли и тоже включиться в активное применение нейронок в работе.

В далёком-далёком 2019 году…

Возможности модели GPT-2.0 поражали — если раньше ИИ решали задачу предсказания двух-трех слов после исходной фразы, то новая модель генерировала целые страницы осмысленного текста, писала стихи и могла придумать синопсис для вымышленного фильма. Так как основные продукты нашей компании были завязаны на копирайтинге, то мы не могли остаться в стороне от зарождающейся движухи.

Мы поставили себе амбициозную цель автоматизировать создание небольших продуктовых текстов на 300–400 символов, описывающих основные характеристики и опыт взаимодействия с продуктом или брендом. Сразу же определились с основной метрикой, по которой будем измерять качество нашей разработки — процент приемлемых текстов в выборке из 100 результатов, которые сгенерировала нейросеть.

Приемлемый результат мы определи как «осмысленный текст, который копирайтер может довести до готового к публикации в течение 5 минут», т.е. исправить возможные ошибки, что-то добавить или убрать. В среднем опытный копирайтер тратит на подготовку текста 25–30 минут и увеличение скорости его работы в 5 раз казалось очень перспективным способом оптимизации процесса создания текста.

IT'S ALIVE, IT’S ALIVE!

GPT-2 был опубликован в исходном коде с краткой справкой для быстрого старты. Для запуска мы арендовали виртуальный сервер с GPU семейства Nvidia Tesla и после двух недель плясок с бубном запустили нейросеть у себя на сервере.

Первые тесты выявили ряд серьезных ограничений:

Модель работает только на английском языке
Без дообучения (fine-tune) результаты нас не устраивали даже на английском языке. Процент приемлемых текстов не превышал 1–2%.

Поскольку уже много лет вся работа над текстами у нас происходит во внутренней корпоративной системе, к моменту тестирования ИИ мы сумели накопить примерно 100 тыс. примеров подобных текстов. Спустя два месяца, через тернии, боль и страдания мы смогли выкрутить возможности GPT-2 на максимум по следующему алгоритму:

Формировали обучающую выборку по каждому бренду из текстов в корпоративной системе.
Не все тексты годились для обучения, поэтому мы отсеивали нерелевантные тексты с помощью сервиса Яндекс.Толока.
Через API от Яндекса, переводили обучающую выборку на английский язык.
Дообучали GPT-2, получая модели генерации текстов для каждого бренда по отдельности.
Переводили полученные тексты обратно на русский.

В итоге процент приемлемых текстов достиг 15%, а на некоторых моделях, где были большие объемы данных для обучающей выборки — до 25%. Неплохой результат, учитывая, что нейросеть могла генерировать до 450–500 приемлемых текстов в час.

Но сомнения все равно где-то витали, поэтому для тестирования в поле мы определили самый минимальный функционал.

Держать постоянно включенным сервер с двумя видеокартами Nvidia Tesla очень затратное занятие, поэтому чтобы сократить расходы мы делали так: включали сервер на несколько часов, генерировали большой объем текстов по разным брендами и загружали их в корпоративную систему, где работают копирайтеры.

У копирайтеров появилась кнопка, которая выводит случайный текст из сгенерированной выборки. Текст можно дизлайкнуть, чтобы он исчез навсегда и появился новый, и так пока нужный текст не будет найден.

Почему не пошло и какие выводы мы сделали?

Несмотря на то, что новый функционал был добавлен в корпоративную систему без повышения планов на копирайтера или обязанностью ее использовать, специалисты отнеслись к ней достаточно холодно. Аналитика по использованию функционала показывала удручающие результаты — интерес к нему угасал после 2–3 попыток использовать его, процент текстов, которые были взяты в работу минимальным.

Опросы копирайтеров, модераторов и руководителей помогли понять причины:

В тексте очень важна точность описываемых преимуществ или недостатков продукта. GPT-2 умел создавать стилистически приемлемый текст, но в качественное описание характеристик и преимуществ он не смог. Тексты выглядели очень складно и логично, но дьявол кроется деталях — фактически ошибки можно было выявить только сверяясь с базой знаний по проекту. Наша ошибка в том, что на этапах тестирования и обучения моделей, мы использовали для оценки текстов случайных копирайтеров, а не специалистов, погруженных в особенности конкретного бренда или продукта.
Модераторы тоже увидели риски в возможном снижении качества, прохождения текстов с фактическими ошибками. И если у копирайтера еще был выбор - полностью писать текст самому или с помощью ИИ, то модераторы были вынуждены дотошно проверять все тексты, потому что не знали каким образом они были написаны.
Сам процесс отбраковки текстов, где из 100 только 15 можно взять в качестве «болванки» довольно трудоемок.

Итоги

Насильно внедрять технологию смысла никакого не имело: скорость генерации текстов едва ли изменилась, скорость модерации резко упала и появились риски снижения качества. Проект мы закрыли, но в целом, опыт оказался очень важным, чтобы сделать некоторые выводы.

Во-первых, тексты — основа продуктов нашей компании и жертвовать их качеством в угоду производительности мы не можем. Намного перспективней использовать ИИ для повышения качества текста, помощи в модерации и сокращения времени на задачи не связанные с творческим процессом создания текстов. Профессиональные и грамотные специалисты наше главное преимущество и пытаться заменить их опыт и компетенции искусственным интеллектом как минимум глупо.

Во-вторых, если бы мы сформулировали правильные гипотезы и протестировали их на этапе, когда обучили первую модель с реальной командой, то много лишней работы можно было бы избежать. Но проект казался очень перспективным и почти обреченным на успех. Мы сосредоточились на преодоление технических ограничений, забыв протестировать продуктовую гипотезу о повышении эффективности копирайтеров, приняв ее подлинность за факт.

Общий вывод простой — нужно как можно быстрее тестировать даже самые привлекательные и амбициозные гипотезы и сокращать MVP до действительно минимального функционала.

Эти довольно полезные выводы позволили нам осмысленно подойти к внедрению ИИ в будущем. Через 3 года, когда вышли новые модели GPT 3.5 и GPT4, мы сделали новый подход к внедрению и пересмотрели в корне модель использования искусственного интеллекта в бизнесе. Этим опытом мы обязательно поделимся в следующих статьях.

Свяжитесь с нами