Google расширяет список неподдерживаемых правил robots.txt
Новая инициатива Google по анализу robots.txt
Компания Google готовится значительно расширить свою документацию по файлам robots.txt, основываясь на анализе реальных данных веб-сайтов. Эта инициатива возникла после того, как участник сообщества предложил добавить два новых тега в список неподдерживаемых правил. Однако команда Google решила не ограничиваться только этими двумя тегами и провести более масштабное исследование. Гэри Ильес и Мартин Сплитт из Google объяснили, что вместо произвольного добавления правил они решили собрать данные о 10-15 наиболее часто используемых неподдерживаемых директивах. Такой подход позволит создать надежную базу для документирования самых распространенных неподдерживаемых тегов, которые реально используются веб-мастерами. AI Content Aggregator и подобные инструменты могут помочь в анализе таких данных для оптимизации SEO-стратегий.
Методология исследования и технические детали
Для проведения анализа команда Google использовала HTTP Archive, который ежемесячно сканирует миллионы URL-адресов через WebPageTest и сохраняет результаты в Google BigQuery. Первоначально исследователи столкнулись с проблемой: стандартное сканирование не запрашивает файлы robots.txt, поэтому соответствующие данные отсутствовали в базе. После консультаций с Барри Полардом и сообществом HTTP Archive была разработана специальная программа на JavaScript, которая построчно извлекает правила из robots.txt файлов. Этот инструмент был интегрирован перед февральским сканированием, и теперь данные доступны в наборе custom_metrics в BigQuery. AI Post Images Generator и другие современные инструменты используют аналогичные методы парсинга для обработки веб-контента и автоматизации SEO-процессов.
Результаты анализа и практические выводы
Анализ данных показал интересную закономерность в использовании директив robots.txt. После трех основных полей – allow, disallow и user-agent – популярность остальных правил резко падает, образуя длинный хвост менее распространенных директив. В настоящее время Google официально поддерживает только четыре поля: user-agent, allow, disallow и sitemap. Все остальные директивы игнорируются поисковой системой. Исследование также выявило распространенные опечатки в написании правила disallow, что может привести к расширению списка допустимых вариантов написания. Для веб-мастеров это означает необходимость аудита своих robots.txt файлов и проверки используемых директив. Auto Backlinks Builder и аналогичные SEO-инструменты должны учитывать эти изменения при автоматической оптимизации сайтов.


