31.01.2019

Как автоматизировать поиск плагиата

Из этой статьи вы узнаете, как частично автоматизировать процесс поиска плагиата и подачи жалоб за нарушение авторских прав.

Веб изменчив, и сайты наполняются контентом законно или с нарушением авторских прав.

Объекты интеллектуальной собственности в интернете защищаются:

  • национальным законодательством об авторском праве;
  • законом США об авторском праве в цифровую эпоху, сокращённо — DMCA.

О том, как Google реагирует на плагиат, читайте в статье «Основы DMCA и Алгоритма Google Pirate».

Рассмотрим пример. Автор блога в статьях использует созданные им уникальные изображения.

Как найти плагиат?

«Знаете ли вы, что в поиске Google по изображениям используется оператор src:»

— Gary Illyes, Google

Воспользуйтесь советом Гэри. Начните с поиска по изображениям Google и найдите плагиат: картинки (хотлинкинг), статьи, используемые без разрешения автора или копию сайта.

Зачастую для урегулирования претензий к плагиаторам авторы контента используют механизм подачи жалоб в Google. Но процесс этот не быстрый, и не факт, что всё решится в пользу заявителя. Потому нужно иметь запасной вариант.

Для автоматизации поиска URL и доменов, которые содержат хотлинкинг, используйте программу Netpeak Spider.

Шаблон составления ссылки:

[https://www.google.com/search?q=src:] + [тут домен]+ [-site:] + [тут домен] + [&num=100&tbm=isch]

Получится примерно так:

https://www.google.com/search?q=src:domaine.ru+-site:domaine.ru&num=100&tbm=isch

Вставьте ссылку в Netpeak Spider (кнопка — «Список URL»).

Настройте параметры парсинга. Перейдите в меню «Настройки», опция «Парсинг».

Используйте css-селекторы:

  • Для получения списка доменов — site

Извлечение данных: Внутренний текст.

  • Для получения URL, которые вероятно содержат хотлинкинг, — a[href^="/url?"]

Извлечение данных: Значение атрибута: href

В опции «User Agent» выбирайте «Desktop Windows».

Если всё готово, нажмите кнопку «Старт». В разделе «Отчеты» перейдите на вкладку «Парсинг».

Проверяем сначала список URL, которые могут содержать хотлинкинг. Нам нужно очистить всё, что находится до и после ссылки.

Список копируем в Notepad ++ и очищаем в режиме регулярных выражений.

Для очистки всего, что находится:

  • перед ссылкой используйте:

Найти — .*(?=ttp)

Заменить — h

Кнопка — «Заменить все».

  • после знака амперсанды (&) используйте:

&.*

Не исключено, что на некоторых ссылках вы самостоятельно размещали изображения подобным образом. Нужно проверить исходный код страниц незнакомых для вас доменов.

Результат — сформированный список доказательств (URL), которые будут использованы при подаче жалобы.

Следующий этап — сбор e-mail адресов сайтов-плагиаторов, их хостеров и регистраторов.

В настройках парсинга Netpeak Spider прописываем выражение RegExp:

[a-zA-Z0-9-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+

Область поиска: Весь исходный код.

Не исключено, что вы не найдёте e-mail плагиатора и вам нужно будет обратиться к его хостеру. Если и он не поможет — к регистратору домена.

Открываем другую программу — Netpeak Checker. Вставьте в неё список собранных доменов (кнопка — «Список URL»).

Настройки параметров в Netpeak Checker:

On-Page: Email-адреса.

Whois: Email-адреса.

Сравните список e-mail адресов из столбца «On-Page» Netpeak Checker с теми, что собрал Netpeak Spider.

В колонке «Whois»: Email-адреса обычно указаны почтовые адреса регистраторов, но там же могут быть указаны контакты плагиатора и его хостера.

Если вы по какой-то причине после этого не нашли информацию о хостерах, проверьте сайты-плагиаторы в сервисах:

  • bulkseotools.com/bulk-check-nameserver.php ,
  • intodns.com ,
  • check-host.net .

Затем полученный список хостеров снова прогоните по указанным выше настройкам в Netpeak Checker и Netpeak Spider.

Использование подобного метода позволяет найти и наказать интернет-пиратов. Список URL, содержащих незаконный контент, у вас есть, контакты для урегулирования тоже. Действуйте!

Если Вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter

Вячеслав Вареня

Google top contributor Справочного форума для веб-мастеров и Google News

Аудитор, блоггер, SEO-эксперт.
Соавтор книги “Трансфертное ценообразование: украинский вариант”.

Мнение редакции может не совпадать с мнением автора. Если у вас есть, что дополнить — будем рады вашим комментариям. Если вы хотите написать статью с вашей точкой зрения — прочитайте правила публикации на блоге WebPromoExperts.

Контент, Уникальность текста, DMCA
Вопросы и комментарии:
Авторизуйтесь, чтобы оставлять комментарии

Может сначала проверить пиратов, а то вдрух хороший донор, а вы его в ДМСА (((

Пані Яновська

04 февраля 2019 в 17:28

Конечно нужно проверить. Этот способ тоже полезен для анализа информации, как конкурент продвигается при помощи изображений.

Вячеслав Вареня

04 февраля 2019 в 17:39