Сегодня мы будем сочинять стендап с помощью нейросетей. И это не шутки!
Недавно в одном университете ruGPT-3 дообучили на анекдотах -- и вот, например, что она теперь рассказывает:
Забегает в бар программист и заказывает ящерицу в стакане. Заказывает 0 ящериц в стакане. Заказывает 999999999 ящериц в стакане. Заказывает -1 ящерицу в стакане. Заказывает САГАРОНЕДЦЫБ. Заказывает ФАОЛФВОЫЛ.
Не очень забавляет? Может быть, у тебя получится лучше?
Необходимо сгенерировать набор связных шуток на любые темы.
Итоговый текст оценивается по следующим критериям:
- Юмор. Понятие субъективное, но мы постараемся быть как можно менее предвзяты в оценке. Если говорить более формально, важно, чтобы полученные тексты содержали в себе типичные элементы шутки/байки/анекдота -- иронию, сарказм, игру слов, сетапы и панчлайны; основывались на актуальных новостях, культурном контексте и т. д.
- Стилевая целостность. Будет здорово, если все получившиеся шутки будут связаны тематически, и потенциально могли бы стать частью одного стендап-концерта. Кроме того, вы можете сконцентрироваться на шутках определенного комика, и генерировать тексты в его стиле.
В ноутбуке вы можете найти пример генерации коротких забавных текстов с нуля на русском языке с помощью модели ruGPT-3 от Сбера. В качестве обучающих данных используется датасет русскоязычных шуток1 (10 тыс. примеров из ~126 тыс. текстов, определенных как "шутка").
Здесь мы не будем ограничивать вашу фантазию -- можете использовать твиты вашего любимого стендап-комика, архивы анекдотов про Вовочку, сценарии текстов Монти Пайтона или "Вечернего Урганта" -- всё, что кажется вам смешным, может пойти в ход. Не стесняйтесь экспериментировать!
Узнать подробности про ruGPT-3 можно в блоге и на официальном гитхабе проекта.
Почитать про fine-tuning модели можно, например, здесь и здесь.
Генерация коротких шуток с помощью трансформеров также описана в статье. Для вдохновения можно оценить сборник GPT-творчества на английском или код для генерации текстов в стилистике Жириновского.
- Blinov et al: Large Dataset and Language Model Fun-tuning for Humor Recognition // ACL, (2019).