Печать страницы - Гуглопоиск

Название: Гуглопоиск
Отправлено: Тайльнемер от июля 9, 2015, 07:32

У меня возникла такая идея — сделать тулзу для сравнения частотности вариантов.
Например, пишешь запрос: «Б(э|е)тм(э|е|а)н[ъ]», тулза делает 12 гуглозапросов по всем вариантам, смотрит количества найденных результатов и суммирует их для каждого варианта в каждой скобке.
То есть,

«Бэтм(э|е|а)н[ъ]» vs «Бетм(э|е|а)н[ъ]»
«Б(э|е)тмэн[ъ]» vs «Б(э|е)тмен[ъ]» vs «Б(э|е)тман[ъ]»
«Б(э|е)тм(э|е|а)н» vs «Б(э|е)тм(э|е|а)нъ»

Вопрос в том ¿насколько показательна цифра на первой странице поиска?
Бхудх, помнится, говорил, что цифра на последней странице более реалистична, а на первой всегда сильно завышена.
Это так?

Например, я набираю какое-нибудь редко встречающееся буквосочетание, например, «шиззя».
Первая страница (https://www.google.ru/search?newwindow=1&q=%D1%88%D0%B8%D0%B7%D0%B7%D1%8F&nfpr=1&sa=X&ved=0CBoQvgUoAWoVChMIpb-viZjNxgIVhg9yCh181QOz) показывает «About 1,950 results».
На последней (https://www.google.ru/search?q=%D1%88%D0%B8%D0%B7%D0%B7%D1%8F&newwindow=1&nfpr=1&ei=YfWdVYypKev8ygPj9qzQCg&start=50&sa=N&biw=1254&bih=1005) — «about 22 results» и надпись:
«In order to show you the most relevant results, we have omitted some entries very similar to the 27 already displayed.
If you like, you can repeat the search with the omitted results included.»
Если нажать на ссылку, то первая страница (https://www.google.ru/search?q=%D1%88%D0%B8%D0%B7%D0%B7%D1%8F&newwindow=1&nfpr=1&biw=1254&bih=1005&filter=0) даёт «About 18,700 results»,
а последняя (https://www.google.ru/search?q=%D1%88%D0%B8%D0%B7%D0%B7%D1%8F&newwindow=1&nfpr=1&biw=1254&bih=1005&ei=XvadVb_vKsPdywP07a7YCg&start=990&sa=N&filter=0) — «about 216 results».

Что из этих цифр более правдоподобно?

Другой пример — слово «girl».
Первая страница (https://www.google.ru/search?q=girl&ie=utf-8&oe=utf-8&gws_rd=cr&ei=UvidVe-KFoacygPhroDgCg) — «About 1,770,000,000 results».
Последняя (https://www.google.ru/search?q=girl&newwindow=1&ei=CPWdVejUIsXLyAOHp47gCg&start=990&sa=N&biw=1254&bih=1005) — «about 302 results. In order to show you the most relevant results, we have omitted some entries very similar to the 313 already displayed.» — серьёзно!? :o Только 313 не «очень похожих» страницы с словом girl?!
При переходе по ссылке первая страница даёт те же 1,770,000,000, последняя недоступна.

С последней страницей вообще проблема — она недоступна, если страниц больше ста. Так что, видимо, в тулзе придётся довольствоваться первой страницей.

А как дела в Яндексе и других поисковиках?

Название: Гуглопоиск
Отправлено: Тайльнемер от июля 9, 2015, 07:45

Цитата: Тайльнемер от июля 9, 2015, 07:32
последняя недоступна.

Хотя, у гугла стоит ограничение на 1000 результатов, а выдаёт-то он всего 627 для 'girl'.

Название: Гуглопоиск
Отправлено: Тайльнемер от июля 9, 2015, 07:53

Цитата: Bhudh от октября 23, 2014, 16:02
Поэтому у меня давно настроен автоматический поиск с выдачей последней страницы.
Потому, что на первой странице что Гугла, что Яндекса число результатов придумали маркетологи: «Гляньте, какие мы крутые, столько нашли!».
А лохи верят.

Всё-таки, что-то здесь не то. Если поисковик всегда завышает результат в сто, тысячу, миллион раз (и при этом на последней странице всё-таки пишет честно), то это было бы слишком очевидным враньём и не в пользу самого поисковика.

Название: Гуглопоиск
Отправлено: Hellerick от июля 9, 2015, 08:26

Кроме надписи на последней странице, выдаваемой гуглом, у нас нет других причин сомневаться в истинности количества рузультатов, указанных на первой странице.

Название: Гуглопоиск
Отправлено: Ыняша от июля 9, 2015, 09:26

У гугла очень сложный механизм ранжирования и выдачи. На последней странице он выдаст "всё что осталось" с исключением уже показанной информации и включением разных забаненных страниц.

Название: Гуглопоиск
Отправлено: Тайльнемер от июля 9, 2015, 10:43

Цитата: Hellerick от июля 9, 2015, 08:26
Кроме надписи на последней странице, выдаваемой гуглом, у нас нет других причин сомневаться в истинности количества рузультатов, указанных на первой странице.

Но зачем-то же пишется это число на последней странице.
Это типа «я вот выдаю вам столько, хотя знаю, что есть ещё»? Но всё равно непонятно, зачем менять число. Тогда логичнее было бы оставить число и просто написать «и т. д.» в конце.

Название: Гуглопоиск
Отправлено: Ыняша от июля 9, 2015, 10:58

кстати, из справки гугла:

Цитировать
Summary: The number of results provided on the search results page is inaccurate.

Cause: The number of results provided on the search results page or in the search results XML is only an estimate, and should not be considered to be an exact count of the number of matching documents.

Workaround: Use the rc=1 request parameter to request an accurate result count for up to 1M documents.

Про разные количества на страницах:

Цитировать
None of these numbers are exact. It's not a bug per se either.

That count is an estimate. What makes it hard to produce an accurate number is that your query is run in parallel across a number of machines. The final result count is extrapolated from the results returned and incorporates a number of factors. Google doesn't want to actually return all of the results for a query, just the first few that really matter and then it estimates how many total results there are for the query. It'll go fetch the others later if you page through extra pages (which very few people do).

As with many extrapolations the end estimate van vary dramatically based on factors such as the data returned from various machines (one machine could hold a skewed representation of the Internet and so over/under estimate the total results for that query) and can also vary depending on which datacenter the query hits since the index is constantly in flux. It's way more complicated than this but you get the idea.

Ещё про парадоксы, когда более узкий запрос даёт больше результатов чем более широкий:

Цитировать
The answer to the headline's question "Is Google Guilty Of Deliberate Query Sabotage?" is no. We've talked about the fact that results estimates are just estimates for years, see e.g. http://video.google.com/videoplay?docid=-4814548594071648913# or http://www.youtube.com/watch?v=2ix3mHeL7hg for more details, including the fact that we only return three significant digits on our results estimates.

As to why the query [A B -C] can return more estimated results than [A B], that's easy to explain. The query [A B -C] causes us to go deeper through our posting lists looking for matches, which can lead to more accurate (and larger) results estimates. Other things can cause us to go deeper in finding matches, such as clicking deeper in search results. Results estimates can also vary based on which data centers or indices your query hits, as well as what language you're searching in. It certainly has nothing to do with whether you're a "possible enemy of Google," as you put it.

We try to be very clear that our results estimates are just that–estimates. In theory we could spend cycles on that aspect of our system, but in practice we have a lot of other things to work on, and more accurate results estimates is lower on the list than lots of other things.

Название: Гуглопоиск
Отправлено: Тайльнемер от июля 9, 2015, 11:11

О, полезно. Спасибо.

Лингвофорум

Общий раздел => Наука и техника => Компьютеры => Тема начата: Тайльнемер от июля 9, 2015, 07:32