w2v, или Word2Vec, — семейство моделей для представления слов в виде числовых векторов. Подход получил широкое распространение после публикаций исследователей Google в 2013 году и заметно повлиял на развитие обработки естественного языка. Его основная идея заключается в том, что слова с похожим контекстом должны располагаться близко друг к другу в многомерном пространстве. В отличие от методов, которые учитывают только частоту слов, w2v фиксирует смысловые связи на основе окружения каждого термина в текстовом корпусе. Например, названия городов, профессий или продуктов часто образуют отдельные группы. Расстояния и направления между векторами позволяют сравнивать слова, находить близкие понятия и анализировать структуру лексики. К семейству w2v обычно относят две архитектуры: CBOW и Skip-gram. CBOW прогнозирует слово по соседним словам, а Skip-gram решает обратную задачу — предсказывает контекст по заданному слову. Обе архитектуры основаны на неглубоких нейронных сетях и рассчитаны на эффективную обработку больших текстовых коллекций. Выбор варианта зависит от объёма данных, частотности слов и требований к скорости обучения. Практическое значение w2v связано с компактностью получаемых представлений. Векторы можно использовать для поиска похожих запросов, группировки документов, анализа отзывов, подготовки признаков для классификаторов и исследования тематических связей. В рекомендательных системах такие представления помогают сопоставлять пользовательские формулировки с описаниями товаров или контента. У подхода есть ограничения. Каждому слову назначается один вектор независимо от контекста, поэтому многозначные слова обрабатываются неточно. Кроме того, качество результатов зависит от состава корпуса: редкие термины получают менее надёжные представления, а перекосы исходных данных могут переноситься в модель. w2v также не учитывает порядок слов так глубоко, как современные трансформерные архитектуры.