Яндекс поиск по картинке
3
Каждая поисковая система старается быть лидирующей не только по узнаваемости бренда, но и по качеству услуг, которые складываются из десятков составляющих. Главным критерием в поиске является его качество. Если пользователь ввел «пицца», а получил выдачу с порно-сайтами, то наверняка это не соответствует его представлениям поиска. Вторым наверняка можно назвать упорядочивание результатов по степени их важности. Ведь на вершине по всем логикам должны быть самые-самые со всех сторон и оценок проекты. Бронзу занимает удобство — подсказки, живая выдача(результаты появляются уже при вводе искомых фраз), колдунщики. Ниже расположился дизайн, который уже не так важен, если все остальное не представляет интереса. Далее идут вспомогательные компоненты, которые на прямую не связаны с SEARCH(ем): переводчик, антиспам, антивирус и далее…
Качество поиска
Сайты, которые по сути и являются фундаментом любого поиска/ранжирования должны соответствовать определенным условиям. Давайте с начала разберем определение «Качественный сайт» — такой интернет проект, который предоставляет пользователю полезную информацию (актуальную, интересную, неповторимую). Руководствуясь данному термину, поисковые системы стремятся не ранжировать высоко те интернет-ресурсы, которые не обладают полезным и актуальным контентом. Под актуальным понимается не только свежесть новости (статьи…), но также и её неповторимость и единственность. Именно последних составляющих в интернет-паутине все меньше и меньше. Пользователь сталкивается с сотнями дублей как текста, так и картинок. Нет, люди не разучились писать текст — в большинстве своём повторение возникает на некачественных или слишком молодых веб-проектах. Причин этому может быть много: нет времени писать, лень, с целью продажи ссылок на системах бирж, нехватка корреспондентов (в случая с новостями, которые не могут осветить собственные штатные специалисты), не опытность модератора и так далее… Сегодня же мы разберём, как обстоят дела с графическим наполнением, а точнее с его воровством — как к этому относятся яндекс, goolе и как вообще они могут вообще найти откорректированные картинки? Читаем далее…
Яндекс поиск по картинке. Поиск дубликатов
Определенные поисковые пауки, которые ответственны за графику, находят среди контенты картинки, далее происходит их обработка. На данном этапе собираются сведения: размер, форма (PNG, JPG, BMP, GIF, TIFF и т.д.), цвет. Далее создаётся уникальная числовая характеристика объектов — сигнатура. На всех картинках яндекс извлекает фрагменты, далее производит их уменьшение до 16×16 пикселей, которые образуют квадрат с общим числом 256 пикселей. Каждая клеточка (пиксель) называется числом, которое равно его яркости. В результате поиска по картинкам от Яндекса получается определенный код цифр (яркостей), который и называется сигнатурой.
На втором этапе происходит упорядочение в определённые группы тех изображения, которые содержат схожие сигнатуры (кодовые яркости). Далее выделяются более похожие картинки (которые имеют как минимум два похожих фрагмента). Происходит вырезание областей, которые так или иначе захватывают схожие фрагменты.
На завершающем этапе Яндекс «поиск по картинке» уменьшает выведенные области до 60×60 пикселей. Полученные квадраты 3600 px переводятся в код яркостей и сравниваются между друг-другом. При совпадении кодовых областей объекты признаются дубликатами.
Весь процесс весьма сложный, однако его этапы позволяет с очень большой долей выявить не только распространение графических составляющих контента, но и определить за кем распространяется право первоисточника, а за кем вора.
Виды дубликатов при поиске по картинкам
Яндекс способен найти картинки даже при их внешнем изменении. Не какие редактирования не способны сделать графику неповторимой.
Точные дубли — полностью аналогичные объекты, которые не отличаются не размером, не расширением.
Тумбнейлерные — различие только в размеров картинок (многие фотогалереи выводят вначале мелкие группы фотографий, а при клике открывают один объект в полно размерном качестве).
Полудубликаты — нанесение полупрозрачных надписей (копирайтов, адресов сайтов или фирм — водные марки), рамки, не глубокая коррекция цвета, резка по краю и прочее.
Расширенные дубликаты — картинки с глубоким и сильным изменением цвета, размера, формата, либо самих фрагментов в объекте.
Все вышеперечисленные изменения позволяют сделать единственный, неповторимый и не дублирующийся вывод 🙂 — фотографируйте и рисуйте самостоятельно, воровство наказуемо при любом его виде. Потратьте лишние минуты на создание актуального контента — тем самым вы привлечете на свой проект посетителей и сделаете свой интернет-сайт интересным.
Определение названия картинки при поиске
Графические элементы зачастую не имеют названия, однако нужен поиск и систематизация элементов. Как же быть? В помощь идёт любая «подножная информация»: мета теги, адрес в URL, околокружный текст и прочее. Именно данная вспомогательная информация позволяет обозвать графический контент и включить его в ранжирование яндекс поиска по картинкам. Но как быть, если на разных проектах сети информация, по которой можно инициализировать фотографию, разная? В работу вступает алгоритм, работающий по принципам выборки.
К примеру, возьмем всеми «любимый» автоваз, а именно машину с гордым названием «Волга». При поиске было найден 100 похожих (точных и не очень точных) картинок
[волга] — 0,8 (50 совпадений)
[белая] — 0,3 (25 фото из 100)
[железо] -0,25 (15 из сотни)
[авто депутатов] -0,2 (10 фото из ста)
В итоге, графический объект будет назван «белая волга», так как частота данных слов больше.
Подытожим
Не занимайтесь плагиатом! если есть возможность разместить новую фотографию или отрисованный объект, то сделайте это. Интернет и так становится одним большим воровством — и воруют не только деньги с интернет-кошельков, но и все, что плохо лежит. Внесите свой вклад в развитие прежде всего своего сайта и поиск по картинкам от яндекса уведет, и среагирует только с лучшей стороны.
Tweet |
К сведению, на автоВАЗе не делали ни когда Волг…
Сильно не вникал в историю, да и не приверженец я русских машин 🙂 В Нашей Раше делаю много хороших и качественных изделий, но вот машины к сожалению не входят в их число (кроме военной техники).
Ну ок, а если для интернет-магазина требуется фото iPhone 7, по любому же придется брать с официального сайта Apple, и обрезать-менять контраст, чтобы у покупателя глаза вытекли и он телефон вообще не узнал, не вариант. Тоже будет засчитано, как плагиат? Или есть какой-нибудь механизм учета подобного?