Московские ученые научились распознавать тексты нейросетей

14 сентября 2023, 15:40

Ученые факультета вычислительной математики и кибернетики Московского государственного университета (МГУ) разработали новый метод распознавания автоматически сгенерированных текстов. Об этом «Газете.Ru» рассказали в научном учреждении.

Московские ученые научились распознавать тексты нейросетей — © Газета.Ru

Исследователи воспользовались моделью ruRoBERTa, созданной специально для обработки письменных данных на русском языке командой SberDevices. Также они рассмотрели возможности модели на основе архитектуры LSTM или долгой краткосрочной памяти, представляющие собой особый вид организации нейронных сетей.

Специалисты испытали метод на 20 тысячах реальных и сгенерированных ИИ отзывов, часть которых собрали на страницах различных товаров популярных онлайн-маркетплейсов.

Модель RoBERTa отличала тексты живых людей от творчества нейросетей с точностью 86%, LSTM оказалась чуть менее эффективна, набрав 82%. Большинство ложных распознаваний обоих инструментов пришлось на короткие заметки менее 40 символов.

«Мы предполагаем, что это связано с распространенностью некоторых общих фраз в отзывах, на которых обучалась модель. Такие клишированные фразы, повторенные генеративной моделью с точностью до слова, представляют сложности для распознавания», — объяснила «Газете.Ru» ассистент кафедры алгоритмических языков ВМК МГУ Наталья Ефремова.

В МГУ отметили, что и RoBERTa и LSTM достаточно хорошо себя показали в распознавании сгенерированных текстов и могут использоваться для решения практических задач. Альтернативой им может выступать модель на архитектуре глубоких нейронных сетей «Трансформер», однако ее применение требует больших вычислительных мощностей.

Газета.Ru: главные новости