XLNet появилась как попытка исправить ограничения языковых моделей, которые доминировали в обработке естественного языка до массового распространения современных генеративных систем. Модель была представлена исследователями Google Brain и Carnegie Mellon University в 2019 году и быстро стала заметной в задачах понимания текста. Ее главная особенность заключалась в сочетании идей авторегрессионного моделирования и двунаправленного контекста, что позволило эффективнее учитывать связи между словами. До XLNet одной из самых известных архитектур была BERT. Она обучалась предсказывать замаскированные токены, анализируя контекст слева и справа. Такой подход хорошо работал во многих задачах, но имел недостаток: во время обучения часть слов искусственно заменялась масками, а в реальных текстах таких масок нет. XLNet предложила другой механизм — перестановочное языковое моделирование. Модель училась предсказывать элементы последовательности в разных порядках, не нарушая естественный вид входного текста. Архитектурно XLNet опиралась на Transformer-XL, откуда унаследовала способность работать с более длинным контекстом по сравнению с ранними трансформерными моделями. Это было важно для задач, где смысл зависит не только от ближайших слов, но и от более удаленных фрагментов документа. Благодаря механизму сегментной рекуррентности модель могла лучше сохранять информацию между частями длинного текста. На практике XLNet показывала сильные результаты в классификации текстов, анализе тональности, ответах на вопросы, распознавании смысловой близости предложений и других задачах NLP. В ряде бенчмарков она превосходила BERT, что сделало ее важной точкой в развитии предобученных языковых моделей. Особенно заметным было преимущество там, где требовалось учитывать сложную структуру контекста. При этом XLNet не стала универсальным стандартом для всех сценариев. Модель была сложнее в реализации и обучении, требовала значительных вычислительных ресурсов и не всегда давала выигрыш, оправдывающий дополнительные затраты. Позднее появились более крупные и удобные архитектуры, ориентированные как на понимание, так и на генерацию текста, поэтому внимание индустрии постепенно сместилось к другим семействам моделей.