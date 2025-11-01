Учёные российского научно-исследовательского института искусственного интеллекта AIRI создали бенчмарк для проверки того, насколько большие языковые модели (LLM) справляются с реальными задачами химиков. Причём речь идёт не просто об извлечении фактов, а о последовательном решении связанных между собой вопросов и исследовательской проблематики.

Для этих целей исследователи AIRI разработали новый бенчмарк, построенный из композиций базовых химических задач. В бенчмарк вошли такие параметры, как определение продуктов реакций, предсказание их свойств и генерация описаний молекул по формуле и другие.

Примечательно, что каждая цепочка заданий для нейросети моделирует логику реальной повседневной работы химика. Для проверки эффективности LLM в потенциальном создании лекарств ИИ должен определить, какой конкретно продукт получится в результате реакции, а затем оценить, обладает ли предложенное вещество каким-либо ценным свойством, в частности биоактивностью.

Таким образом, учёные ставят перед нейросетью многоступенчатые задачи, которые встречаются в реальной практике химиков при поиске новых лекарств или катализаторов, когда необходимо умение рассуждать о свойствах молекулы, комбинируя несколько этапов химического анализа.

Кроме того, учёные рассказали, что для создания нового бенчмарка использовалось пересечение существующих датасетов по реакциям и свойствам молекул, чтобы каждая задача обладала максимальной информативностью. При этом исследователи оценивали разные современные LLM — как универсальные, так и более специализированные химические модели.

В ходе экспериментов оказалось, что универсальные модели, хотя часто и дают содержательные ответы, однако их результаты «порой хуже оцениваются автоматическими метриками по сравнению с моделями, привыкшими к стандартным шаблонам, а профильные решения дают верные ответы на запросы, хотя по формальным метрикам не дотягивают до необходимого качества».