С чего всегда начинается поиск данных
Как правильно искать в интернете нужную информацию?
Ежедневно пользователи сталкиваются с неудовлетворительными результатами веб-поиска, после чего опускают руки и уже не рассчитывают найти нужную информацию. Это происходит из-за недостатка знаний о том, как правильно использовать поисковые системы.
Поиск информации в интернете – как быстро находить именно то что нужно?
Не все понимают, что поисковая система – это инструмент, который нужно научиться правильно использовать, чтобы быстро находить в интернете любые необходимые данные. Для этого существует большое количество разнообразных хитростей, которые позволяют сделать процесс поиска максимально эффективным. Прийти к необходимому результату помогут банальные знаки препинания, а также некоторые команды на английском языке. Кроме того не стоит забывать о том, что помимо Google существуют и другие поисковые системы.
Способы поиска информации в интернете: почему стоит пользоваться несколькими поисковыми системами?
При поиске информации рекомендуется использовать как минимум две поисковые системы – Google и Яндекс, но чем больше, тем лучше. Дело в том, что у разных поисковиков страницы сайтов индексируются по-разному. В связи с этим даже самый простой запрос в разных поисковых системах может привести вас к разным результатам.
То, что не заметили алгоритмы одной поисковой системы, могут заметить алгоритмы другой, а то, что Яндекс покажет на 10 или 20 странице поисковой выдачи, в Google вполне может оказаться на первых позициях. Кроме того, разные поисковые системы по-разному реагируют на частоту употребления слов в предложении, на наличие или отсутствие знаков пунктуации, на порядок слов и так далее.
Как осуществляется поиск информации в сети интернет — зачем и как искать «глубже»?
Многие сдаются после быстрого просмотра первых двух-трех позиций в поисковой выдаче, а зря. Так сложилось, что люди уверены в том, что только самая достоверная и качественная информация попадает в топ поисковой выдачи. В связи с этим компании платят большие деньги, чтобы их сайт занял первые позиции в поисковой выдаче.
Именно поэтому не нужно останавливаться на том, что вы нашли по первым двум-трем ссылкам. Не дайте себя обмануть, просмотрите еще несколько сайтов. Там может оказаться более актуальная и менее поверхностная информация.
Почему нужно предельно четко формулировать поисковый запрос?
Правильная формулировка запроса – одно из наиболее важных условий для эффективного поиска. К примеру, если поиск по слову «Москва» выдает 951 000 000 результатов, то поиск по запросу «Квартира в Москве» выдает уже 121 000 000 результатов, а по запросу «квартира в Москве недорого снять без посредников» поиск и вовсе выдаст 9 460 000 веб-страниц. Чем больше слов в запросе, тем меньше поисковая выдача.
На картинке, приведенной выше, можно увидеть, что последний поисковый запрос выдал всего 10 результатов, так как запрос сформулирован достаточно криво. Если написать «снять квартиру в Москве без посредников иностранцу посуточно недорого», то поисковая выдача будет состоять уже из 83 000 результатов, хотя смысл не поменялся, изменился лишь порядок слов в запросе.
Что такое модификаторы и как их использовать?
Не многие знают о том, что обычные знаки препинания могут облегчить процесс поиска и сделать поисковую выдачу максимально релевантной. Такие хитрости при поиске называют модификаторами, и вот некоторые из них:
Как правильно искать информацию в интернете?
К сожалению, далеко не вся информация, представленная в интернете, является достоверной. Интернет уже давно используется в качестве рекламной площадки, поэтому буквально на каждом шагу вам пытаются что-то продать или привлечь ваше внимание. Именно поэтому важно выбирать надежные источники информации и научиться объективно анализировать найденную информацию.
Перед тем, как приступить к изучению найденной информации, убедитесь, что на сайте содержатся данные из первоисточника. Также следите за тем, чтобы новость была свежая и актуальная. Если в статье приводятся какие-либо факты или цифры, достоверные источники всегда указывают на то, откуда взята эта информация. Если автор ссылается на какой-либо товар, услугу, на чей-то блог, аккаунт и т.д., важно вовремя задаться вопросом: «а не реклама ли это?».
Чем полезно цитирование и как его можно использовать при поиске?
Если у вас есть свой блог или информационный сайт, данная функция может вам пригодиться. Если вам интересно, ссылался ли кто-нибудь на ваш сайт или блог в своих статьях, вы можете узнать об этом с помощью цитирования. Для этого введите в поисковую строку команду «link:» (без кавычек) и после двоеточия укажите необходимый источник. К сожалению, данный модификатор не актуален для Яндекса.
Выводы
Поиск в интернете может не дать желаемого результата, если вы не умеете его правильно использовать. Существует большое количество хитростей, освоить которые очень просто. Благодаря им можно находить в точности то, что нужно и тратить на поиск минимальное количество времени. Кроме того крайне важно разобраться в том, является ли найденная информация действительно достоверной.
Пожалуйста, опубликуйте свои мнения по текущей теме статьи. Мы очень благодарим вас за ваши комментарии, дизлайки, лайки, отклики, подписки!
Дайте знать, что вы думаете по этой теме статьи в комментариях. Мы очень благодарим вас за ваши комментарии, отклики, дизлайки, подписки, лайки!
Информационный поиск
Содержание
История
Термин «информационный поиск» был впервые введён Кельвином Муром в 1948 в его докторской диссертации, опубликован и употребляется в литературе с 1950.
Сначала системы автоматизированного ИП, или информационно-поисковые системы (ИПС), использовались лишь для управления информационным взрывом в научной литературе. Многие университеты и публичные библиотеки стали использовать ИПС для обеспечения доступа к книгам, журналам и другим документам. Широкое распространение ИПС получили с появлением сети Интернет. У русскоязычных пользователей наибольшей популярностью пользуются поисковые системы Google, Яндекс и Рамблер.
Информационный поиск как процесс
Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.
Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление информации.
В общем случае поиск информации состоит из четырех этапов:
Виды поиска
Полнотекстовый поиск — поиск по всему содержимому документа. Пример полнотекстового поиска — любой интернет-поисковик, например www.yandex.ru, www.google.com. Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.
Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе (например, MS Windows).
Поиск изображений — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы: Polar Rose, Picollator и др.
Методы поиска
Адресный поиск
Процесс поиска документов по чисто формальным признакам, указанным в запросе.
Для осуществления нужны следующие условия:
Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи, и адреса хранения документов в хранилище.
Семантический поиск
Процесс поиска документов по их содержанию.
Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске — с точки зрения содержания.
При семантическом поиске находится множество документов без указания адресов.
В этом принципиальное отличие каталогов и картотек.
Библиотека — собрание библиографических записей без указания адресов.
Документальный поиск
Процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя.
Два вида документального поиска:
Фактографический поиск
Процесс поиска фактов, соответствующих информационному запросу.
К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения.
Различают два вида:
Информационный поиск как наука
Информационный поиск — большая междисциплинарная область науки, стоящая на пересечении когнитивной психологии, информатики, информационного дизайна, лингвистики, семиотики, и библиотечного дела.
Поиск информации — процесс выявления в массиве информации записей, удовлетворяющих заранее определенному условию поиска или запросу.
ИП рассматривает поиск информации в документах, поиск самих документов, извлечение метаданных из документов, поиск текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы.
Существует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска. Тем не менее, каждое из этих направлений исследования обладает собственными методиками, практическими наработками и литературой.
В настоящее время ИП — это бурно развивающаяся область науки, популярность которой обусловлено экспоненциальным ростом объемов информации, в частности в сети Интернет. ИП посвящена обширная литература и множество конференций. Одной из наиболее известных является TREC, организованной в 1992 Министерством обороны США совместно с Институтом Стандартов и Технологий (NIST) с целью консолидации исследовательского сообщества и развития методик оценки качества ИП.
Запрос и объект запроса
Говоря о системах ИП, употребляют термины запрос и объект запроса.
Запрос — это формализованный способ выражения информационных потребностей пользователем системы. Для выражения информационной потребности используется язык поисковых запросов, синтаксис варьируется от системы к системе. Кроме специального языка запросов, современные поисковые системы позволяют вводить запрос на естественном языке.
Объект запроса — это информационная сущность, которая хранится в базе автоматизированной системы поиска. Несмотря на то, что наиболее распространенным объектом запроса является текстовый документ, не существует никаких принципиальных ограничений. В частности, возможен поиск изображений, музыки и другой мультимедиа информации. Процесс занесения объектов поиска в ИПС называется индексацией. Далеко не всегда ИПС хранит точную копию объекта, нередко вместо неё хранится суррогат.
Задачи информационного поиска
Центральная задача ИП — помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.
Классическая задача ИП, с которой началось развитие этой области, — это поиск документов, удовлетворяющих запросу, в рамках некоторой статической коллекции документов. Но список задач ИП постоянно расширяется и теперь включает:
Также, перед движками ИП ставятся некоторые задачи по обработке естественных языков, что включает в себя морфологический анализ, разрешение лексической многозначности и так далее.
Оценки эффективности
Существует много способов оценить насколько хорошо документы, найденные ИПС, соответствуют запросу. К сожалению, понятие степени соответствия запроса, или другими словами релевантности, является субъективным понятием, а степень соответствия зависит от конкретного человека, оценивающего результаты выполнения запроса.
Точность (precision)
Определяется как отношение числа релевантных документов, найденных ИПС, к общему числу найденных документов:

где 

Полнота (recall)
Отношение числа найденных релевантных документов, к общему числу релевантных документов в базе:

где 

Выпадение (fall-out)
Выпадение характеризует вероятность нахождения нерелевантного ресурса и определяется, как отношение числа найденных нерелевантных документов к общему числу нерелевантных документов в базе:

где 

F-мера (F-measure, мера Ван Ризбергена)
Иногда бывает полезно объединить точность и полноту в одной усреднённой величине. Для этой цели среднее арифметическое не подходит, так как, например, поисковой системе достаточно вернуть вообще все документы, чтобы обеспечить равную единице полноту при близкой к нулю точности, и среднее арифметическое точности и полноты будет не меньше 1/2. Среднее гармоническое не обладает этим недостатком, поскольку при большом отличии усредняемых значений приближается к минимальному из них.
Поэтому хорошей мерой для совместной оценки точности и полноты является F-мера, которая определяется как взвешенное гармоническое среднее точности P и полноты R:
Обычно F-меру записывают в виде
При 



Использование сбалансированной F-меры не является обязательным: при 

Поиск информации
Информационный поиск (ИП) (англ. Information retrieval ) — процесс поиска неструктурированной документальной информации и наука об этом поиске.
Содержание
История
Термин «информационный поиск» был впервые введён Кельвином Муром в 1948 в его докторской диссертации, опубликован и употребляется в литературе с 1950.
Сначала системы автоматизированного ИП, или информационно-поисковые системы (ИПС), использовались лишь для управления информационным взрывом в научной литературе. Многие университеты и публичные библиотеки стали использовать ИПС для обеспечения доступа к книгам, журналам и другим документам. Широкое распространение ИПС получили с появлением сети Интернет. У русскоязычных пользователей наибольшей популярностью пользуются поисковые системы Яндекс и Рамблер.
Информационный поиск как процесс
Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех таких, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.
Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересованным лицам.
В общем случае поиск информации состоит из четырех этапов:
Виды поиска
Полнотекстовый поиск — поиск по всему содержимому документа. Пример полнотекстового поиска — любой интернет-поисковик, например www.yandex.ru,
Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе (например, MS Windows).
Поиск по изображению — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы:
Методы поиска
Адресный поиск
Процесс поиска документов по чисто формальным признакам, указанным в запросе.
Для осуществления нужны следующие условия:
Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи, и адреса хранения документов в хранилище.
Семантический поиск
Процесс поиска документов по их содержанию.
Условия:
Документальный поиск
Процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя.
Два вида документального поиска:
Фактографический поиск
Процесс поиска фактов, соответствующих информационному запросу.
К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения.
Различают два вида:
Информационный поиск как наука
Информационный поиск — большая междисциплинарная область науки, стоящая на пересечении когнитивной психологии, информатики, информационного дизайна, лингвистики, семиотики, и библиотечного дела.
ИП рассматривает поиск информации в документах, поиск самих документов, извлечение метаданных из документов, поиск текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы.
Существует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска. Тем не менее, каждое из этих направлений исследования обладает собственными методиками, практическими наработками и литературой.
В настоящее время ИП — это бурно развивающаяся область науки, популярность которой обусловлено экспоненциальным ростом объемов информации, в частности в сети Интернет. ИП посвящена обширная литература и множество конференций. Одной из наиболее известных является Министерством обороны США совместно с Институтом Стандартов и Технологий (NIST) с целью консолидации исследовательского сообщества и развития методик оценки качества ИП.
Запрос и объект запроса
Говоря о системах ИП, употребляют термины запрос и объект запроса.
Запрос — это формализованный способ выражения информационных потребностей пользователем системы. Для выражения информационной потребности используется язык поисковых запросов, синтаксис варьируется от системы к системе. Кроме специального языка запросов, современные поисковые системы позволяют вводить запрос на естественном языке.
Объект запроса — это информационная сущность, которая хранится в базе автоматизированной системы поиска. Несмотря на то, что наиболее распространенным объектом запроса является текстовый документ, не существует никаких принципиальных ограничений. В частности, возможен поиск изображений, музыки и другой мультимедиа информации. Процесс занесения объектов поиска в ИПС называется индексацией. Далеко не всегда ИПС хранит точную копию объекта, нередко вместо неё хранится суррогат.
Задачи информационного поиска
Центральная задача ИП — помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.
Классическая задача ИП, с которой началось развитие этой области, — это поиск документов, удовлетворяющих запросу, в рамках некоторой статической коллекции документов. Но список задач ИП постоянно расширяется и теперь включает:
Оценки эффективности
Существует много способов оценить насколько хорошо документы, найденные ИПС, соответствуют запросу. К сожалению, понятие степени соответствия запроса, или другими словами релевантности, является субъективным понятием, а степень соответствия зависит от конкретного человека, оценивающего результаты выполнения запроса.
Точность (precision)
Определяется как отношение числа релевантных документов, найденных ИПС, к общему числу документов:

где Drel — это множество релевантных документов в базе, а Dretr — множество документов, найденных системой. По результатм исследований компании, оценивающей релевантность показателей основных русских и зарубежных поисковых систем.
0.698 Эти показатели были получены на основе анализа запроса на слово cat и по тому, как много релевантных ссылок выдаёт поисковик на 100 первых ответов.
Полнота (recall)
Отношение числа найденных релевантных документов, к общему числу релевантных документов в базе:

где Drel — это множество релевантных документов в базе, а Dretr — множество документов, найденных системой.
Выпадение (fall-out)
Выпадение характеризует вероятность нахождения нерелевантного ресурса и определяется, как отношение числа найденных нерелевантных документов к общему числу нерелевантных документов в базе:

где Dnrel — это множество нерелевантных документов в базе, а Dretr — множество документов, найденных системой.
F-мера (F-measure, мера Ван Ризбергена)
Традиционно F-мера определяется, как гармоническое среднее точности и полноты:
Часто ее также называют F1 мерой, потому что точность и полнота присутствуют в этой формуле с одинаковым весом.
Более общая формула для положительного вещественного α имеет вид:
См. также
Ссылки
Литература
Полезное
Смотреть что такое «Поиск информации» в других словарях:
Поиск информации — в узком смысле процесс выявления в массиве информации записей, удовлетворяющих заранее определенному условию поиска (запросу). По английски: Information retrieval Синонимы: Поиск данных См. также: Автоматизированный информационный поиск… … Финансовый словарь
поиск (информации) — — [http://slovarionline.ru/anglo russkiy slovar neftegazovoy promyishlennosti/] Тематики нефтегазовая промышленность EN retrieval … Справочник технического переводчика
поиск информации — — [http://www.iks media.ru/glossary/index.html?glossid=2400324] Тематики электросвязь, основные понятия EN information retreival … Справочник технического переводчика
поиск информации — informacijos paieška statusas T sritis automatika atitikmenys: angl. information retrieval vok. Informationserschließung, f; Wiederauffinden von Informationen, n; Wiedergewinnung von Nachrichten, f rus. информационный поиск, m; поиск информации,… … Automatikos terminų žodynas
ПОИСК ИНФОРМАЦИИ — совокупность логических и технических операций, конечной целью которых является извлечение из массива документов нужной информации или документа по заданным признакам в соответствии с запросом … Большой экономический словарь
Ретроспективный поиск информации — информационный поиск, проводимый во всем накопленном массиве документов или фактов по любому запросу, соответствующему тематике и виду информационного массива. По английски: Retrospective searching См. также: Информационный поиск Финансовый… … Финансовый словарь
ХРАНЕНИЕ И ПОИСК ИНФОРМАЦИИ — ХРАНЕНИЕ И ПОИСК ИНФОРМАЦИИ, отрасль КОМПЬЮТЕРНОЙ НАУКИ, изучающая функционирование массивов информации. Система поиска баз данных предполагает нахождение больших компьютерных файлов, содержащих необходимые ДАННЫЕ. Эти данные могут быть… … Научно-технический энциклопедический словарь
упорядоченный поиск информации — — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом EN ordered retrieval … Справочник технического переводчика
хранение и поиск информации — — [http://www.iks media.ru/glossary/index.html?glossid=2400324] Тематики электросвязь, основные понятия EN information storage and retrievalISR … Справочник технического переводчика
Поиск подстроки — Поиск информации одно из основных использований компьютера. Одна из простейших задач поиска информации поиск точно заданной подстроки в строке. Тем не менее, эта задача чрезвычайно важна она применяется в текстовых редакторах,… … Википедия










