MRPC, или Microsoft Research Paraphrase Corpus, относится к числу небольших, но заметных наборов данных в истории оценки языковых моделей. Его основная задача связана с определением того, являются ли две фразы парафразами, то есть передают ли они один и тот же смысл разными словами. В контексте нейросетей и ИИ этот корпус стал удобной проверкой способности модели понимать семантическое сходство, а не только совпадение отдельных слов. Корпус MRPC был создан на основе новостных текстов и содержит пары предложений, размеченные как эквивалентные или неэквивалентные по смыслу. По современным меркам он невелик, однако именно компактность сделала его популярным в исследовательской среде. Модель можно быстро обучить или протестировать, а результаты легко сравнивать между разными архитектурами и подходами. Особую известность MRPC получил благодаря набору бенчмарков GLUE, где он используется как одна из задач для оценки общего понимания языка. Для моделей вроде BERT, RoBERTa, ALBERT и их последователей результаты на MRPC стали частью стандартной отчетности. Этот датасет помогает увидеть, насколько хорошо нейросеть различает близкие по форме, но разные по смыслу предложения, а также распознает одинаковый смысл при иной структуре фразы. Практическая ценность MRPC связана с задачами, где требуется находить смысловые дубликаты. Это может быть фильтрация повторяющихся новостей, сопоставление пользовательских запросов, объединение похожих обращений в службе поддержки, анализ поисковой выдачи или проверка близости ответов в диалоговых системах. Хотя сам корпус ограничен английским языком и новостной тематикой, его идея повлияла на множество похожих датасетов для других языков и доменов. У MRPC есть и ограничения. Небольшой размер выборки делает метрики чувствительными к случайным колебаниям, а новостной стиль не отражает всего разнообразия реальной речи. Кроме того, высокие результаты на этом корпусе не гарантируют, что модель одинаково хорошо справится с разговорными фразами, техническими текстами или многоязычными данными. Поэтому MRPC чаще рассматривают как один из элементов оценки, а не как исчерпывающий показатель качества.