Що таке robots.txt?
robots.txt – файл обмеження доступу роботам до вмісту на http-сервері. Файл повинен знаходитися у корені сайту (тобто мати шлях щодо імені сайту /robots.txt). При наявності декількох субдоменів файл повинен розташовуватися в кореневому каталозі кожного з них. Даний файл доповнює стандарт Sitemaps, який є прямо протилежною цілі: полегшувати роботам доступ до вмісту.
Використання файлу є добровільним. Стандарт був прийнятий 30 січня 1994 року в списку розсилки robots-request@nexor.co.uk і з тих пір використовується більшістю відомих пошукових машин.Файл robots.txt використовується для часткового управління індексування сайту пошуковими роботами. Цей файл складається з набору інструкцій для пошукових машин, за допомогою яких можна задати файли, сторінки або каталоги сайту, які не повинні індексуватися.
Файл robots.txt може використовуватися для вказівки розташування файлу Sitemaps.
Файл складається із записів. Записи розділяються однієї або більше порожніх рядків (ознака кінця рядки: символи CR, CR + LF, LF). Кожен запис містить непорожній рядки наступного виду:
<поле>: <необов'язковий пробіл> <значення> <необов'язковий пробіл>
Порівняння проводиться методом простого пошуку підстроками. Наприклад, запис Disallow: / about заборонить доступ як до розділу http://example.com/about/, так і до файлу http://example.com/about.php, а запис Disallow: / about / – тільки до розділу http://example.com/about/.
Приклад:
Заборона доступу всіх роботів до всього сайту:
User-agent: * Disallow: /</code> Заборона доступу певного робота до каталогу /private/: <code>User-agent: googlebot Disallow: /private/
Приклад з директивою Crawl-delay:
Crawl-delay: встановлює час, що робот повинен витримувати між завантаженням сторінок. Якщо робот буде завантажувати сторінки надто часто, це може створити зайву навантаження на сервер. Втім, сучасні пошукові машини за замовчуванням задають достатню затримку в 1-2 секунди.
User-agent: * Crawl-delay: 10
Приклад з директивою Allow:
Allow має дію, зворотню директиві Disallow – дозволяє доступ до певної частини ресурсу. Підтримується всіма основними пошуковими системами. У наступному прикладі дозволяється доступ до файлу photo.html, а доступ пошуковиків до всієї іншої інформації в каталозі / album1 / забороняється.
Allow: /album1/photo.html Disallow: /album1/
Приклад розширеного стандарту:
User-agent: * Disallow: / downloads / Request-rate: 1 / 5 # завантажувати не більше однієї сторінки за п'ять секунд Visit-time: 0600-0845 # завантажувати сторінки тільки в період з 6 ранку до 8:45 за Гринвічем.
[...] минулій статті на цю тему Я розказав, що собою являє robots.txt. В цій статті Я розкажу як оптмізувати даний файл для [...]
Дуже добра та змістовна стаття. Я збираюсь написати відеоурок про robots.txt і планую скористатися з цього посту. Звісно, зворотнє посилання на цей пост обов’язково буде опубліковано.
На мою думку, в україномовному сегменті Всемережжя подібна інформація унікальна.
[...] Сьогодні поговоримо про те, що таке robots.txt та навіщо цей файл потрібен. Для створення цього відеоуроку було в основному використано матеріал з посту на zero.if.ua [...]