МТS Al и Сколтех разработали уникальный набор данных для идентификации перефразов

A sorted dataset of random data presented in hexadecimal encoding
МТS Al и Сколтех разработали уникальный набор данных для идентификации перефразов
© FBM.ru

Исследователи NLP МТS Аl совместно со Сколтехом разработали уникальный набор данных RuPAWS, который позволяет обучать и тестировать модели для идентификации парафраза. Парафраз (или перафраза) – это пересказ исходного предложения другими словами. Их точная идентификация и соответствующие наборы данных необходимы для обучения поисковых систем, чат-ботов, войс-ботов и языковых голосовых помощников. Благодаря точному распознаванию перефразировки помощники ИИ смогут правильно отвечать пользователям веб-сервисов и приложений и предоставлять информацию строго в соответствии с их запросами.

Набор данных RuPAWS состоит из 17 346 пар перефразировок, а также большого количества предложений с большим количеством одинаковых слов, но с разными значениями. Например, фразы “Может ли плохой человек стать хорошим?” и “Может ли хороший человек стать плохим?”. Человеку не составит труда понять, что это далеко не одно и то же, но ML-модели, обученные на классических наборах данных, могут ошибаться.

“RuPAWS отличается от других русскоязычных датасетов тем, что в нем сфокусированы редкие примеры перефразировок, которые вызывают особые трудности при классификации – такой подход называется состязательными атаками”, — говорит инженер МТС AI NLP Никита Мартынов.

Первыми идею такого датасета предложили авторы PAWS, аналогичного датасета для английского языка. Он основан на текстах из социальных сетей и Википедии, поэтому собранные данные подходят для решения многих практических задач. RuPAWS – это переведенный с помощью nmt (машинного перевода) и протестированный вручную PAWS.

Датасеты для русской классификации парафразов уже созданы, но им не хватает сложных примеров. Один из эталонных наборов данных, ParaPhraser, близок по размеру, поскольку содержит 9 151 пару предложений, и уже успешно используется для обучения и тестирования моделей машинного обучения. Но даже SoTA (современное решение), решение для задачи классификации парафразов на русском языке, представляющее собой монолингвальную адаптацию RuBERT’s BERT, идентифицирует предложения с большим количеством пересечений слов как парафразы, когда они таковыми не являются.

Согласно результатам эксперимента, проведенного в совместной лаборатории МТС и Сколтеха, набор данных RuPAWS позволяет решить эту проблему.

“Эксперименты показали, что модель, обученная на данных из обоих датасетов, практически не теряет в качестве при классификации примеров из ParaPhraser, но точность на сложных примерах возрастает почти вдвое, до 79%”, — говорит Ирина Кротова, старший разработчик в группе NLP компании МТС AI.

Например, фразу о которой речь шла ранее о плохом и хорошем человеке Paraphraser распознал как парафраз в 96% случаев, а Paraphraser+RuPAWS только в 2%. Научные сотрудники МТС AI NLP Никита Мартынов и Ирина Кротова представят материалы исследований нового языкового корпуса RuPAWS на крупной международной конференции LREC 2022, которая пройдет в Марселе с 20 по 25 июня.