Определяет ли Google тексты, написанные ИИ? Как это влияет на поисковую выдачу?

Могут ли алгоритмы Google определять, что текст написан не человеком, а нейросетью? Может ли Google Search сообщить об этом пользователю? Ответ тут и «да», и «нет», - утверждают аналитики издания SEO_AI.

Еще в 2022 году специалиста Google Джона Мюллера (John Mueller) спросили в интервью, отличает ли поисковая система ИИ-текст от текста, написаного человеком. «Я не могу утверждать этого», - уклончиво ответил тогда г-н Мюллер. Это интервью вызвало большой интерес и дебаты, потому что в ходе интервью Джон Мюллер сравнил контент, сгенерированный нейросетью, с автоматически генерируемым спамом. Тем не менее, в настоящее время Google такой позиции в отношении контента, сгенерированным ИИ, не придерживается — сейчас подобные тексты спамом, как показывает практика, не считаются.

Что же считается в Google спамом? Спам, по мнению алгоритмов Google, это контент, который был сгенерирован программно, не несет никакой оригинальной или новой информации, целью его создания была манипуляция уровнем поисковой выдачи, а не помощь пользователям. В противоположность высококачественному контенту, созданному людьми и обеспечивающему лучший опыт для пользователей с целью сохранения доверия к поисковой системе.

Тем не менее, в настоящее время ИИ используется не только и не столько для создания спама. Часто авторы применяют его для создания полезного для пользователей контента. Таким образом, довольно сложно отличить контент, созданный только для манипуляции поисковой выдачей, от полезного контекта, созданного с помощью нейросети.

Как алгоритмы Google могут отличать тексты, созданные человеком, от текстов, созданных с помощью нейросети? Для этого авторы SEO_AI углубились в особенности работы больших языковых моделей. Такая модель работает на основе вероятностей : ставит следующее слово в предложении, базируясь на слове предыдущем и размещая вслед за ним слово с максимальной вероятностью. Для этого анализируются схемы и статистика языка на базе огромных объемов текста. Таким образом большая языковая модель генерирует вполне натурально звучащие предложения. Но уже появились приложения-тестеры, например, GLTR (Giant Language model Test Room), которые определяют, кто был автором текста — человек или ИИ. Человек, очевидно, куда менее предсказуемый автор. Приложение создано в сотрудничестве MIT-IBM Watson AI lab и Harvard NLP.

В GLTR текст анализируется на основе входит ли каждое следующее слово в предложении в топ-10 вероятностных, топ-100 вероятностных, или топ-1000 и менее вероятностных, потом создается распределение вероятностей для текста, после чего становится очевидно, кто автор. Есть еще один инструмент GPT-2 Output Detector Demo компании Huggingface. Очевидно, что количество подобных инструментов будет только расти, и в целом выявление текста, написанного с помощью ИИ, не является большой проблемой. Впрочем, по мере совершенствования ИИ применение слов будет, вероятно, все менее прямолинейно определенным.

По некоторым сведениям, OpenAI, крупнейший разработчик ИИ, работает и над тем, чтобы предоставлять поисковым системам инструменты, распознающие работу нейросетей и ставящим специальный «водяной знак» на подобные тесты, не вмешиваясь собственно в поисковую выдачу.

В целом, как было уже указано выше, в Google фокусируются на том, чтобы контент был полезным, и только потом на инструменте его создания, разве что помечая текст, созданный с помощью ИИ, специальным знаком для справки пользователю.

При этом в SEO-сообществе в отсутствие официальных заявление от Google в настоящее время представлены три точки зрения: 1) Google определяет, был ли текст написан с помощью нейросети, и это негативно влияет на поисковую выдачу; 2) Google определяет — как было указано выше, это не слишком сложно, но на выдачу это не влияет; 3) Google вообще не определяет, был ли контент создан с помощью ИИ.

‍Точный ответ пока неизвестен, мы в IT-World внимательно следим за темой.

Наука и техника

Гарвардский университет

Google