Если программа не выдает ошибок и не зависает, то и результат ее работы должен быть правильным. Логично? В целом, да.

© Ferra.ru

Однако эксперты и операторы крупнейших дата-центров подняли тревогу. Они предупредили о феномене, который называют «тихим повреждением данных» (silent data corruption).

Современные чипы — процессоры, видеокарты и ИИ-ускорители — могут содержать «микроскопические дефекты». Они возникают либо при производстве, либо появляются со временем из-за износа. Обычно дефект приводит к тому, что компьютер просто зависает или выдает «синий экран смерти». Это неприятно, но заметно. В описанном экспертами случае процессор продолжает работу, но вычисляет неправильно. Например, на «2+2» выдает «5». Программа не видит сбоя и записывает неверный результат как истинный.

© Ferra.ru

Масштабы проблемы выяснились, когда IT-гиганты стали проверять свои сервера. Оказалось, что примерно один из тысячи процессоров в их стойках может выдавать такие скрытые ошибки. В масштабах огромного дата-центра это означает сотни неверных результатов в день. В опасности и обычные ПК-процессоры, хоть негативный эффект в такой ситуации может быть не таким фатальным.

Ученые и инженеры сейчас ищут способы защиты. Полностью исключить дефекты невозможно — это сделает процессоры слишком дорогими. Поэтому предлагается внедрять системы слежения за «здоровьем» процессоров прямо в дата-центрах и создавать программы, которые умеют перепроверять результаты.