Фантазия и анализ: почему нейросеть не смогла бы поступить в МФТИ
Никого уже не удивить, тем, что искусственный интеллект помогает писать дипломы. А вот сможет ли нейросеть сдать ЕГЭ, да так, чтобы ее приняли в один из самых престижных технических вузов, например в МФТИ?
Эксперты Физтеха пошли на эксперимент и протестировали генеративную нейросеть Chat GPT-4 Turbo в решении задач ЕГЭ по физике.
Что вышло? По итоговым результатам искусственный интеллект не дотянул до уровня успешного абитуриента МФТИ. Нейросеть получила менее 85 баллов (пороговое значение для Физтеха).
Эксперты разобрали, чего же не хватило.
Напомним, в ЕГЭ по физике есть задачи по механике, оптике, термодинамике, электричеству, кинематике.
По словам преподавателя МФТИ, кандидата физико-математических наук Леонида Колдунова, провалы нейросети касались как финальных расчетов, так и использования терминов в решении и понимании физики процесса. Кроме того, иногда у ИИ попросту страдала логика.
- У GPT все в порядке ровно до тех пор, пока предлагаются простые задачи, требующие формального подхода. Но как только нужно что-то проанализировать, включить фантазию - нейросеть "ломается", - говорит Леонид Колдунов. - Также ИИ не способен интерпретировать условия. Например, он не смог решить задачу, где сказано, что длина волны изменится в два раза, но не указано, увеличится она или уменьшится. Безусловно, с таким уровнем знаний нейросеть не смогла бы поступить в МФТИ.
Однако, по мнению главного аналитика Центра искусственного интеллекта МФТИ Игоря Пивоварова, для нейросети еще не все потеряно и ее можно обучить.
- У всех систем, подобных Chat GPT, есть проблемы с математикой и с логикой, с цепью рассуждений, - отмечает эксперт. - Для того чтобы повысить точность модели, ей можно давать определенный контекст, что сильно повышает качество. Когда нейросеть начинает рассуждать по шагам, качество ответа растет.
Но в целом эксперимент показал: пока у всего класса подобных систем ИИ есть проблемы с логикой. Говоря научным языком, "параметр последовательной логики" у них пока на порядок ниже, чем у человека.