Из этой статьи вы узнаете, как частично автоматизировать процесс поиска плагиата и подачи жалоб за нарушение авторских прав.
Веб изменчив, и сайты наполняются контентом законно или с нарушением авторских прав.
Объекты интеллектуальной собственности в интернете защищаются:
- национальным законодательством об авторском праве;
- законом США об авторском праве в цифровую эпоху, сокращённо — DMCA.
О том, как Google реагирует на плагиат, читайте в статье «Основы DMCA и Алгоритма Google Pirate».
Рассмотрим пример. Автор блога в статьях использует созданные им уникальные изображения.
Как найти плагиат?
«Знаете ли вы, что в поиске Google по изображениям используется оператор src:»
— Gary Illyes, Google
Воспользуйтесь советом Гэри. Начните с поиска по изображениям Google и найдите плагиат: картинки (хотлинкинг), статьи, используемые без разрешения автора или копию сайта.
Зачастую для урегулирования претензий к плагиаторам авторы контента используют механизм подачи жалоб в Google. Но процесс этот не быстрый, и не факт, что всё решится в пользу заявителя. Потому нужно иметь запасной вариант.
Для автоматизации поиска URL и доменов, которые содержат хотлинкинг, используйте программу Netpeak Spider.
Шаблон составления ссылки:
[https://www.google.com/search?q=src:] + [тут домен]+ [-site:] + [тут домен] + [&num=100&tbm=isch]
Получится примерно так:
https://www.google.com/search?q=src:domaine.ru+-site:domaine.ru&num=100&tbm=isch
Вставьте ссылку в Netpeak Spider (кнопка — «Список URL»).
Настройте параметры парсинга. Перейдите в меню «Настройки», опция «Парсинг».
Используйте css-селекторы:
- Для получения списка доменов — site
Извлечение данных: Внутренний текст.
- Для получения URL, которые вероятно содержат хотлинкинг, — a[href^="/url?"]
Извлечение данных: Значение атрибута: href
В опции «User Agent» выбирайте «Desktop Windows».
Если всё готово, нажмите кнопку «Старт». В разделе «Отчеты» перейдите на вкладку «Парсинг».
Проверяем сначала список URL, которые могут содержать хотлинкинг. Нам нужно очистить всё, что находится до и после ссылки.
Список копируем в Notepad ++ и очищаем в режиме регулярных выражений.
Для очистки всего, что находится:
- перед ссылкой используйте:
Найти — .*(?=ttp)
Заменить — h
Кнопка — «Заменить все».
- после знака амперсанды (&) используйте:
&.*
Не исключено, что на некоторых ссылках вы самостоятельно размещали изображения подобным образом. Нужно проверить исходный код страниц незнакомых для вас доменов.
Результат — сформированный список доказательств (URL), которые будут использованы при подаче жалобы.
Следующий этап — сбор e-mail адресов сайтов-плагиаторов, их хостеров и регистраторов.
В настройках парсинга Netpeak Spider прописываем выражение RegExp:
[a-zA-Z0-9-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+
Область поиска: Весь исходный код.
Не исключено, что вы не найдёте e-mail плагиатора и вам нужно будет обратиться к его хостеру. Если и он не поможет — к регистратору домена.
Открываем другую программу — Netpeak Checker. Вставьте в неё список собранных доменов (кнопка — «Список URL»).
Настройки параметров в Netpeak Checker:
On-Page: Email-адреса.
Whois: Email-адреса.
Сравните список e-mail адресов из столбца «On-Page» Netpeak Checker с теми, что собрал Netpeak Spider.
В колонке «Whois»: Email-адреса обычно указаны почтовые адреса регистраторов, но там же могут быть указаны контакты плагиатора и его хостера.
Если вы по какой-то причине после этого не нашли информацию о хостерах, проверьте сайты-плагиаторы в сервисах:
- bulkseotools.com/bulk-check-nameserver.php ,
- intodns.com ,
- check-host.net .
Затем полученный список хостеров снова прогоните по указанным выше настройкам в Netpeak Checker и Netpeak Spider.
Использование подобного метода позволяет найти и наказать интернет-пиратов. Список URL, содержащих незаконный контент, у вас есть, контакты для урегулирования тоже. Действуйте!
Авторизуйтесь, чтобы оставлять комментарии
Пані Яновська
04.02.2019
Может сначала проверить пиратов, а то вдрух хороший донор, а вы его в ДМСА (((
Вячеслав Вареня
04.02.2019
Конечно нужно проверить. Этот способ тоже полезен для анализа информации, как конкурент продвигается при помощи изображений.