Самые популярные вопросы в яндексе на сегодня. Разработчица Google о том, что и как люди ищут в интернете. Есть шутка про то, что можно залезть на YouTube,чтобы посмотреть, как варить борщ, а через полчаса оказаться во вселенной Стивена Хокинга

По популярности запросов, вне зависимости от количества жителей в городах, лидируют соцсети, далее идет поиск по слову «порно». Об этом свидетельствуют данные исследования компании «Яндекс».

В целом, топ-10 во всех городах - от миллиоников до самых мелких - выглядит одинаково: помимо соцсетей и запроса «порно» также встречаются названия различных интернет-сервисов («ютуб», «авито», «яндекс»).

Миллионы поисков ежедневно проводятся на популярных поисковых системах и сайтах социальных сетей людьми по всему миру. Но что именно эти люди ищут? Ряд основных поисковых систем предоставляет возможность взглянуть на поток запросов в Интернете, чтобы обнаружить самые популярные тенденции поиска, ключевые слова и темы.

Поскольку результаты персонализированы, вы можете больше контролировать функцию автозаполнения. Расширенный поиск имеет множество функций, примечательно, что использование смайликов для поиска твитов с определенным отношением, например, грустный смайлик представляет собой негативное отношение. Как один из крупнейших поисковых систем, этот список ключевых слов покажет ценную информацию о том, как люди ищут, когда они ищут видеоресурсы, а не общие поисковые запросы. Темы тенденций - это алгоритмически сгенерированные темы из ключевых слов в заголовке, тегах и описании видео в наборах видео, которые в настоящее время растут в популярности. Расширенные параметры и фильтры позволяют вам уточнять местоположение и языки, а также на рабочем столе или на мобильных устройствах. Сравните несколько терминов. . Основные поисковые системы и социальные сети также ежегодно публикуют последние тенденции в этом году.

Больше 50 процентов всех поисковых запросов поступает из крупных городов - Москвы, Санкт-Петербурга и миллиоников. На населенные пункты с числом жителей менее 100 тысяч человек приходится только 6-7 процентов всего потока запросов к «Яндексу». Как отмечается в исследовании, такая неравномерность объясняется вероятнее тем, что пользователи из маленьких городов, как правило, не ищут в сети, а предпочитают посещать привычные сайты. В целом в месяц поисковик обрабатывает 5 миллиардов запросов.

Просмотрите эти прошлые статьи, чтобы увидеть ключевые слова, вопросы, темы и тенденции, которые искали люди каждый год. Существует корреляция между редкостью запроса и его длиной. Как правило, чем короче запрос, тем он более распространен и чем дольше он становится более редким. Такие запросы часто являются разговорными и описывают что-то подробно, когда пользователь не знает точную фразу или слово, но пытается объяснить это поисковой системе.

Например, написав описание фильма, не зная названия, как «фильм о парне, выращивающем картофель на какой-то планете». Эти запросы с длинными хвостами бросают вызов поисковым системам, чтобы полностью понять намерение запроса, чтобы предложить наиболее релевантные результаты поиска. Поисковые системы более легко предлагают результаты поиска, основанные на сходстве слов в запросе на подобие и релевантность слов в результатах. Задача более длинных запросов состоит в том, что они не соответствуют таким же синтаксическим синтаксическим синтаксическим словам, и гораздо меньше данных об этих редких запросах.

Примечательно, что по поисковой активности выделяются петербуржцы: в среднем они запрашивают у поисковика на два запроса в неделю меньше, чем другие пользователи. В Петербурге также самый низкий показатель частоты использования интернет-поиска жителями города: отношение еженедельно отправляющих поисковые запросы людей к числу тех, кто ищет что-то в сети только раз в месяц, равно лишь около 30 процентам по сравнению, например, с Москвой, где этот показатель составляет более 35 процентов.

Тем не менее, запросы с длинным хвостом и результаты поиска могут быть наилучшим образом подобраны путем поиска и сопоставления сходства значений. Яндекс решил включить передовой искусственный интеллект, чтобы улучшить то, как он находит совпадения между запросами и результатами, лучше понимая намерение за запросом, а не сходство самих слов.

Совсем недавно с Палехом команда поиска Яндекса научила свои нейронные сети видеть связи между запросом и документом, даже если они не содержат общих слов. Этот новый алгоритм был назван в честь русского города Палеха из-за пожарной птицы на ее гербе с длинным хвостом. Яндекс назвал все свои поисковые алгоритмы после российских городов и выбрал Палеха на основе символа длинного хвоста и влияния этого алгоритма на запросы с длинным хвостом.

Исследование также определило, с какой целью пользователи ищут что-либо на «Яндексе». Первая - навигационная, то есть поиск адреса какого-либо ресурса с целью перейти на него. Она составляет в разных группах городов примерно одинаковое значение - 21-23 процента от всего потока.

Далее по цели поиска идут информационные запросы: в маленьких городах их доля составляет почти 30 процентов, в Москве - 26 процентов. В основном, это такие запросы, как адреса, цены, характеристики товаров, погода, ответы на загадки, результаты спортивных соревнований и прочее.

В этом блоге объясняется динамика машинного обучения за последним алгоритмом поиска Яндекса Палеха и что отличает его от других применений глубоких нейронных сетей для ранжирования веб-поиска. Машиноведение - это именно то, что машина изучает сам по себе, создавая связи с шаблонами входных данных. Как говорит Яндекс, «машина, которая может учиться, - это машина, которая может принимать собственные решения на основе входных алгоритмов, эмпирических данных и опыта». После достижения цели модели обучаются достижению этой цели на основе образцов обучения.

Наконец, третья группа целевых запросов - это поиск развлекательного контента. Больше всего его ищут в маленьких городах (30 процентов от всех запросов), в то время как в Санкт-Петербурге - 20 процентов. При этом видео является самым популярным типом контента - его ищут на 30 процентов чаще, чем тексты, и примерно в три раза чаще, чем аудио, игры или картинки.

Машина учит себя создавать правила, которые со временем улучшаются, поскольку обрабатывает больше данных. Миллионы факторов вносят вклад в результаты алгоритма, что оказывается гораздо более сложным, чем способность человека обрабатывать или программировать.

Нейронные сети - это метод машинного обучения, смоделированный после нейронов в мозге человека, целью которого является решение таких проблем, как мозг человека. Нейронные сети основаны на реальных числах и могут быть обучены найти отношения в наборе данных после обработки входных данных и распознавания шаблонов. Их можно обучить анализу изображений, звука или текста и применять их для нескольких применений, таких как распознавание изображений, перевод текста или ранжирование веб-поиска.

Что касается формулировок запросов, то жители небольших городов составляют их тщательнее, чем живущие в мегаполисах: например, вместо «греется компьютер» - «что делать чтобы компьютер не перегревался». Аналитики объясняют это тем, что в больших городах люди уже привыкли, что поиск понимает их с полуслова.

В Москве и Санкт-Петербурге поисковые интересы разнообразнее, чем в регионах. В столицах люди часто используют интернет для решения личных и рабочих задач, а в регионах - в основном для развлечений. Также в крупных городах чаще спрашивают о разных организациях: банках, магазинах, местах досуга, туристических объектах, в отличие от маленьких городов, где люди и так знают, где что находится.

Как Яндекс научил свои нейронные сети лучше понимать запросы?

Вообще семантическое отображение находит связи между двумя разными объектами, помещая их в одно и то же семантическое пространство и подтверждая их связи, основанные на близости их близости друг к другу. В этом случае ранжирование веб-страницы двумя объектами, которые проверяются для соединений, являются поисковые запросы и документы или заголовок обходных страниц. Прежде чем что-либо произошло с отображением, поисковой команде сначала необходимо было подготовить алгоритм, представив ему примеры пар запросов и соответствующих заголовков веб-страниц.

Исследование было проведено на основе данных поиска «Яндекса» с сентября 2013 года по май 2014 года.

Каждый день пользователи формулируют в виде вопроса около полутора миллионов запросов к поиску Яндекса. Например, [на что ловить карася], [хипстеры кто это] или [когда я выйду замуж]. Запросы‑вопросы составляют более процента от общего ежедневного потока

Этот набор упражнений обеспечил нейронные сети базовым пониманием связей, которые команда поиска Яндекса хотела сделать. Затем эти цифры должны были быть организованы, поэтому за ними стоял смысл. Произвольное множество слов не имеет реального понятия или смысла. Только очень конкретные наборы слов имеют смысл вместе, и есть миллионы возможных контекстов. Алгоритм находит малые подмножества слов, которые заполнены смыслом, но это все еще приводит к миллионам возможностей, поэтому числа должны быть сгруппированы.

Используя метод, называемый уменьшением размерности, матрица, таким образом, сжимает длинный список слов в группу из 300 и затем помещает ее в 300-мерный вектор. Слова могут быть совершенно разными, но если они попадают в один и тот же вектор, то есть аналогичное значение.

Чаще всего задают вопросы на актуальные темы: о свежих интернет‑мемах, новых фильмах и т.п. Возникнув в связи с определённым событием, запросы исчезают вскоре после того, как оно проходит. Так, например, в январе самые популярные вопросы были связаны с фильмом «Высоцкий. Спасибо, что живой» и сериалом «Великолепный век». А в июне — с популярным интернет‑мемом «Ты кто такой? Давай, до свидания!», результатами экзаменов (ЕГЭ и ГИА) и чемпионатом Европы по футболу.

То же самое делается для заголовков обходных страниц. Эти семантические векторы затем используются для поиска матчей на основе их близости. Каждый запрос и заголовок проверяются, чтобы увидеть, насколько близка проекция размерности заголовка к запросу на карте. Точно так же, как слова выглядят похожими на поисковые системы, векторы тоже.

Чтобы упростить объяснение, предположим, что мы имеем дело с двумерным пространством, поэтому числа обрабатываются как точки на координатной плоскости. Затем заданный запрос и заголовок веб-страницы отображаются на координатной плоскости. Затем можно определить расстояние между точками запроса и заголовком веб-страницы, чтобы определить, насколько релевантен документ для запроса. Чем ближе эти два пункта, тем более актуальным является запрос к документу.

Некоторые вопросы постоянно присутствуют в поисковых запросах, вне зависимости от времени года или происходящих событий. Самые популярные из них — [какой сегодня праздник], [какой фильм посмотреть] и [почему не заходит в контакт].

В любое время года одинаково часто задают вопросы про даты. Пользователи хотят узнать, что можно праздновать прямо сейчас, когда будет конкретный праздник или что за праздник будет такого‑то числа: [когда татьянин день], и т.п. Также люди интересуются, какие дни будут нерабочими — [майские праздники 2012 как отдыхаем]. Зимой по сравнению с летом гораздо чаще спрашивали о датах «конца света», а в начале лета — о прохождении Венеры по диску Солнца.

Почему это особенно полезно для длиннохвостых запросов?

Помещая запрос в семантическом векторе с заголовком веб-страницы, поисковая система понимает, что заголовок запроса и веб-страницы имеет смысл, даже если у них нет похожих слов. Раньше алгоритмы были более ограничены поиском сходств на основе синонимов и понятий. Однако, как люди, мы знаем, что запросы с длинным хвостом могут не включать слова, которые соответствуют аналогичным словам или понятиям. Используя нейронные сети, поисковая система может найти сходство за пределами слов до значений.

Еще одна большая тема, одинаково популярная всегда, — здоровье. Пользователи спрашивают у Яндекса, что делать в той или иной ситуации или как лечить болезнь: [высокое давление что делать], [укусил клещ что делать], [ячмень на глазу как лечить]. Примерно каждый пятидесятый вопрос к Яндексу так или иначе связан с беременностью: [когда делать тест на беременность], [когда начинает расти живот у беременных].

Что отличает подход Яндекса от других?

Из-за того, что длинные запросы хвоста обычно требуют результатов, основанных на значении, и для этих редких запросов меньше данных, семантическое отображение заполняет пробел. Яндекс также включает в себя другие цели для обучения своих нейронных сетей. Сравнивая преимущества включения всех своих моделей, команда поиска Яндекса замечает гораздо более точные результаты поиска.

Что планирует Яндекс в будущем?

Применяя все свои предыдущие рейтинговые факторы и пять моделей нейронных сетей, это улучшение удваивается и приводит к 2% -ному повышению точности для длиннохвостых запросов. На сегодняшний день другие поисковые системы с подобной технологией проверяют только заголовки. В настоящее время модель просматривает сотни документов, которые уже были отфильтрованы до лучших результатов поиска в Яндексе.

Зимние и летние вопросы

Популярность некоторых тем сильно зависит от времени года. Про погоду, например, задают вопросы в основном зимой, и все они связаны с холодами: [когда потеплеет], [при какой температуре не ходят в школу], [при какой температуре можно гулять с ребенком]. Также в январе по сравнению с июнем гораздо чаще задавали социально‑политические вопросы. В первую очередь они были вызваны изменениями в законодательстве, вступившими в силу с нового года, и перерасчетом различных индексов: [на сколько повысят пенсии в 2012 году], [на что можно потратить материнский капитал в 2012 году], [сколько будут стоить сигареты в 2012].

Чем больше документов может включать Яндекс, тем точнее будут результаты поиска. Однако в конечном итоге качественный контент для пользователя всегда был основным направлением поисковой группы Яндекса. До тех пор, пока веб-мастера предоставляют контент, который поможет пользователям Яндекса, машинное обучение в Яндексе узнает его.

Поскольку команда поиска Яндекса успешно обучила Палеха, пользователи могут ожидать взаимодействия с полем поиска Яндекса с гораздо более сложными запросами. Или хотите добавить события в свой календарь или опубликовать его на своем веб-сайте? Просто добавьте свои данные ниже, и мы отправим вам все, что вам нужно! Планировщик маршрутов является бесспорным наверху - классический среди поисковых слов, пользователи поисковых систем также неоднократно вписывают телефонную книгу или погоду в качестве условий поиска.

В июне стартовал чемпионат Европы по футболу, и спортивная тематика резко приобрела популярность — каждый двадцатый запрос в виде вопроса был посвящен Евро‑2012.

В основном интересовались расписанием предстоящих игр и телетрансляций, но также спрашивали про текущий счет и даже о правилах игры: [во сколько сегодня евро 2012], [какой счет россия чехия], [сколько таймов в футболе].

По его просьбе он признает, что сексуальная концепция не входит в первую десятку, но все же топ-50 в Германии. Поиск нацистского диктатора Адольфа Гитлера, для многих также частых поисковых слов, по словам Кечеля, даже не относится к вершине «Этот термин, вероятно, будет играть роль на новостных сайтах», - подозревает представитель компании.

По крайней мере, как младенец был живым ориентиром Берлина, полярный медведь Кнут. Животное в зоопарке в Берлине также часто искалось в этом году. Но оба они не относятся к первой десятке: список самых популярных людей ведет немецкий-рэпер Бусидо, а затем Пэрис Хилтон. Бритни Спирс, которая делала заголовки этой ночью с ночными выходками и проиграла юридическую битву против своего бывшего мужа за заботу о детях.

Ещё одна тема, сильно взлетевшая летом, — это экзамены. Зимой о них практически не вспоминали, зато в июне каждый десятый вопрос был связан с результатами ЕГЭ или ГИА. Самые популярные предметы, как и ожидалось, русский язык и математика.

Кроме того, в июне увеличилось количество вопросов, связанных с отдыхом и поездками: [сколько стоит билет на поезд], [ибица где находится]. Довольно часто пользователи задают вопросы «как доехать» или «как добраться» до определенного места. Зимой и летом в одном и том же регионе спрашивают про разные места. Воронежцы, например, зимой чаще всего ищут, как доехать до птичьего рынка, а летом спрашивают дорогу в Костомарово.

Байретер меньше интересуется фестивалями и Вагнером, но тем более для пива. Но какое это использование, когда вы потеряли ее из виду? Тем временем в Интернете есть ряд предложений, которые специализируются на поиске людей. Эти поисковые машины и профильные услуги делают вещи намного проще, но они также являются шипом в глазах некоторых пользователей, которые внезапно столкнулись с их собственной сетевой идентичностью в своей полноте.

Если спрашивают, как готовить пирог, то, скорее всего, это женщина. А если спрашивают, как варить сосиски, то, вероятнее всего, мужчина

Преимущество явно лежит на стороне искателя. Плохо это, только если имя встречается слишком часто, тогда все запутывает. С другой стороны, человек, которого ищут, часто испытывает поисковую машину человека как шок, потому что здесь его веб-личность внезапно появляется в совокупности, как он не мог себе представить, включая адрес и номер телефона.

Вопросы в разных регионах

Большинство вопросов одинаково сильно интересуют пользователей из разных регионов, но есть и различия. Например, только в Калининграде часто спрашивают [сколько стоит растаможка авто из германии], в Омске — [ктулху что это], а в Челябинске — [зачем крокодилы глотают камни]. Также в каждом регионе есть свои места отдыха, дорогу к которым спрашивают чаще всего: в Киеве едут к ботаническому саду, в Санкт‑Петербурге к Петергофу, в Беларуси к Мирскому замку, а одесситы ищут путь к местному нудистскому пляжу.

Популярные вопросительные слова

Из вопросительных слов пользователи чаще всего используют «сколько» и «как». Это неудивительно — слово «сколько» встречается в таких популярных вопросах, как количество серий в сериалах, возраст знаменитостей, стоимость товаров. Слово «как» обычно предваряет вопросы вроде «как узнать», «как пишется», «как лечить», «как проехать», «как удалить», «как отключить».

Между четырьмя изученными странами наблюдаются минимальные различия в частоте употребления разных вопросительных слов. Россияне немного чаще, чем остальные, спрашивают «сколько?», казахи — «как?», а украинцы — «зачем?». В остальном различий нет.

Довольно часто пользователи употребляют конструкции «что это», «кто это» и «как это» — с их помощью ищут определения новых слов, понятий и явлений. Нередко интерес к неизвестным понятиям обусловлен их широким употреблением в массовой культуре. Так, например, самый популярный зимний запрос с вопросительным словом «что» — — очевидно, вызван упоминаниями 228 статьи Уголовного кодекса во многих песнях российских рэп‑исполнителей и ростом популярности одежды с надписью «228». Также часто в топ неизвестных понятий попадают интернет‑мемы и интернет‑сленг.

Вопросы на вечные темы

Чаще всего, задавая вопросы поиску, пользователи хотят решить определенные задачи, например, выяснить, какой фильм посмотреть, или узнать прогноз погоды. Но встречаются и риторические вопросы или вопросы на вечные темы — [когда же я высплюсь] и [почему я такая дура]. Среди них много вопросов про любовные отношения и, судя по формулировкам, любовные вопросы в значительно большей степени волнуют девушек.

Иногда Яндексу задают и детские вопросы — [почему небо голубое] или [откуда берутся дети]. Очевидно, родителям, загнанным в угол столь сложными вопросами, приходится искать ответы в интернете.