не секрет, что существует уже порядка двух десятков сервисов в мире, позволяющих проверить уникальность контента на своём сайте (а то вдруг ваш копирайтер поленился писать сам, а просто украл текст с другого сайта). в рунете самый популярный, насколько мне известно - antiplagiat.ru.
не имею чёткого представления о принципах его работы, но могу с некоторой уверенностью заявлять, что, скорее всего, он пользуется ресурсами некой поисковой машины (пускай Яндекса), и просто достаточно быстро (в сравнении с вбиванием в поисковик вручную) проверяет подряд отрезки текста размером, скажем, с предложение, на точное вхождение поисковой фразы через бот поисковика.
по-русски это так: из текста знаменитой баллады робот антиплагиат.ру проверяет подряд фразы "скажи как дядя ведь недаром", а потом "Москва спалённая пожаром", и уже потом "французу отдана". возможно, ещё и перемешивает их в каком-то произвольном порядке. если вся фраза полностью встречается в огромных базах поисковиков (создавать собственную под это дело по меньшей мере нерационально), текст считается украденным.
причём вовсе не обязательно, что первым его разместил правообладатель, обычно как раз наоборот - первым оригинальный текст размещают воры, а уже потом - правообладатели. поисковики же, вероятно, выявляют "первого" именно по дате в кукисах или логах сервера, если имеют к ним доступ (тут не уверен, поэтому утверждать не берусь).
подобная же система возможна при проверке картинок на индивидуальность. допустим, создать сервис, в который загружается определённая картинка, и проверяется по цветовой диафрагме и совпадению цветов с остальными картинками в базе поисковика. и если ваше фото концерта вы вчера разместили в ЖЖ, то уже сегодня его можно увидеть на десятке новостных сайтов, двух десятков журналов и в пятидесяти фотогалереях, выдаваемым за чужое.
это возвращаясь к вопросу о создании поисковиков по словоформе и изображению
[ссылка для комментариев] 22/12/2007 |