| PageRank |
|
| алгоритм расчета статической (глобальной) популярности страницы в интернете,
назван в честь одного из авторов - Лоуренса Пейджа. Соответствует вероятности
попадания пользователя на страницу в модели случайного блуждания |
|
| TF*IDF |
|
| численная мера соответствия слова и документа в векторной модели; тем больше,
чем относительно чаще слово встретилось в документе и относительно реже в коллекции |
|
| асессор (assesor, эксперт) |
|
| специалист
в предметной области, выносящий заключение о релевантности документа, найденного
поисковой системой |
|
| булевская модель (boolean, булева, булевая, двоичная) |
|
| модель поиска, опирающаяся на операции пересечения, объединения и вычитания
множеств |
|
| векторная модель |
|
| модель информационного поиска, рассматривающая
документы и запросы как векторы в пространстве слов, а релевантность как расстояние
между ними |
|
| вероятностная модель |
|
| модель информационного поиска,
рассматривающая релевантность как вероятность соответствия данного документа запросу
на основании вероятностей соответствия слов данного документа идеальному ответу |
|
| внетекстовые критерии (off-page, вне-страничные) |
|
| критерии
ранжирования документов в поисковых системах, учитыващие факторы, не содержащиеся
в тексте самого документа и не извлекаемые оттуда никаким образом |
|
| входные страницы (doorways, hallways) |
|
| страницы, созданные для искусственного повышения
ранга в поисковых системах (поискового спама). При попадании на них пользователя
перенаправляют на целевую страницу |
|
| дизамбигуация (tagging, part of speech disambiguation, таггинг) |
|
| выбор одного из нескольких омонимов c
помощью контекста; в английском языке часто сводится к автоматическому назначению
грамматической категории «часть речи» |
|
| дубликаты (duplicates) |
|
| разные документы с идентичным, с точки зрения пользователя, содержанием; приблизительные
дубликаты (near duplicates, почти-дубликаты), в отличие от точных дубликатов,
содержат незначительные отличия |
|
| иллюзия свежести |
|
| эффект кажущейся
свежести, достигаемый поисковыми системами в интернете за счет более регулярного
обхода тех документов, которые чаще находятся пользователями |
|
| инвертированный файл (inverted file, инверсный файл, инвертированный индекс, инвертированный список) |
|
| индекс поисковой системы, в котором перечислены слова коллекции документов,
а для каждого слова перечислены все места, в которых оно встретилось |
|
| индекс (index, указатель) |
|
| см. индексирование |
|
| индекс цитирования (citation index) |
|
| число упоминаний (цитирований) научной статьи, в традиционной
библиографической науке рассчитывается за промежуток времени, например, за год |
|
| индексирование (indexing, индексация) |
|
| процесс составления
или приписывания указателя (индекса) – служебной структуры данных, необходимой
для последующего поиска |
|
| информационный поиск (Information Retrieval, IR) |
|
| поиск неструктурированной информации, единицой представления которой
является документ произвольных форматов. Предметом поиска выступает информационная
потребность пользователя, неформально выраженная в поисковом запросе. И критерий
поиска, и его результаты недетермированы. Этими признаками информационный поиск
отличается от «поиска данных», который оперирует набором формально заданных предикатов,
имеет дело со структурированной информацией и чей результат всегда детерминирован.
Теория информационного поиска изучает все составляющие процесса поиска, а именно,
предварительную обработку текста (индексирование), обработку и исполнение запроса,
ранжирование, пользовательский интерфейс и обратную связь. |
|
| клоакинг (cloaking) |
|
| техника поискового спама, состоящая в распознании авторами документов
робота (индексирующего агента) поисковой системы и генерации для него специального
содержания, принципиально отличающегося от содержания, выдаваемого пользователю |
|
| контрастность термина |
|
| см. различительная сила |
|
| латентно-семантическое индексирование |
|
| запатентованный алгоритм поиска по смыслу, идентичный факторному
анализу. Основан на сингулярном разложении матрицы связи слов с документами |
|
| лемматизация (lemmatization, нормализация) |
|
| приведение формы слова
к словарному виду, то есть лемме |
|
| накрутка поисковых систем |
|
| см. спам поисковых систем |
|
| непотизм |
|
| вид спама поисковых систем,
установка авторами документов взаимных ссылок с единственной целью поднять свой
ранг в результатах поиска |
|
| обратная встречаемость в документах (inverted
document frequency, IDF, обратная частота в документах, обратная документная частота) |
|
| показатель поисковой ценности слова (его различительной силы); обратная говорят,
потому что при вычислении этого показателя в знаменателе дроби обычно стоит число
документов, содержащих данное слово |
|
| обратная связь |
|
| отклик
пользователей на результат поиска, их суждения о релевантности найденных документов,
зафиксированные поисковой системой и использующиеся, например, для итеративной
модификации запроса. Следует отличать от псевдо-обратной связи – техники модификации
запроса, в которой несколько первых найденных документов автоматически считаются
релевантными |
|
| омонимия |
|
| см. полисемия |
|
| основа |
|
| часть слова, общая для набора его словообразовательных и словоизменительных
(чаще) форм |
|
| поиск по смыслу |
|
| алгоритм информационного поиска,
способный находить документы, не содержащие слов запроса |
|
| поиск похожих
документов (similar document search) |
|
| задача информационного поиска, в которой
в качестве запроса выступает сам документ и необходимо найти документы, максимально
напоминающие данный |
|
| поисковая система (search engine, SE, информационно-поисковая
система, ИПС, поисковая машина, машина поиска, «поисковик», «искалка») |
|
| программа,
предназначенная для поиска информации, обычно текстовых документов |
|
| поисковое предписание (query, запрос) |
|
| обычно строчка текста |
|
| полисемия (polysemy, homography, многозначность, омография, омонимия) |
|
| наличие нескольких значений у одного и того же слова |
|
| полнота (recall,
охват) |
|
| доля релевантного материала, заключенного в ответе поисковой системы,
по отношению ко всему релевантному материалу в коллекции |
|
| почти-дубликаты
(near-duplicates, приблизительные дубликаты) |
|
| см. дубликаты |
|
| прюнинг
(pruning) |
|
| отсечение заведомо нерелевантных документов при поиске с целью
ускорения выполнения запроса |
|
| прямой поиск |
|
| поиск непосредственно
по тексту документов, без предварительной обработки (без индексирования) |
|
| псевдо-обратная связь |
|
| см. обратная связь |
|
| различительная
сила слова (term specificity, term discriminating power, контрастность, различительная
сила) |
|
| степень ширины или узости слова. Слишком широкие термины в поиске
приносят слишком много информации, при это существенная часть ее бесполезна. Слишком
узкие термины помогают найти слишком мало документов, хотя и более точных. |
|
| регулярное выражение (regualr expression, pattern, «шаблон», реже «трафарет»,
«маска») |
|
| способ записи поискового предписания, позволяющий определять пожелания
к искомому слову, его возможные написания, ошибки и т.д. В широком смысле – язык,
позволяющий задавать запросы неограниченной сложности |
|
| релевантность
(relevance, relevancy) |
|
| соответствие документа запросу |
|
| сигнатура
(signature, подпись) |
|
| множество хеш-значений слов некоторого блока текста.
При поиске по методу сигнатур все сигнатуры всех блоков коллекции просматриваются
последовательно в поисках совпадений с хеш-значениями слов запроса |
|
| словоизменение (inflection) |
|
| образование формы определенного грамматического
значения, обычно обязательного в данном грамматическом контексте, принадлежащей
к фиксированному набору форм (парадигме), характерного для слов данного типа.
В отличие от словообразования никогда не приводит к смене типа и порождает предсказуемое
значение. Словоизменение имен называют склонением (declension), а глаголов – спряжением
(conjugation) |
|
| словообразование (derivation) |
|
| образование слова
или основы из другого слова или основы. Чаще приводит к смене типа и к образованию
слов, имеющих идеосинкразическое значение |
|
| смыслоразличительный |
|
| см. различительная сила |
|
| спам поисковых систем (spam, спамдексинг,
накрутка поисковых систем) |
|
| попытка воздействовать на результат информационного
поиска со стороны авторов документов |
|
| статическая популярность |
|
| см. PageRank |
|
| стемминг |
|
| процесс выделения основы слова |
|
| стоп-слова (stop-words) |
|
| те союзы, предлоги и другие частотные слова,
которые данная поисковая система исключила из процесса индексирования и поиска
для повышения своей производительности и/или точности поиска |
|
| суффиксные
деревья, суффиксные массивы (suffix trees, suffix arrays, PAT-arrays) |
|
| индекс,
основанный на представлении всех значимых суффиксов текста в структуре данных,
известной как бор (trie). Суффиксом в этом индексе называю любую «подстроку»,
начинающуюся с некоторой позиции текста (текст рассматривается как одна непрерывная
строка) и продолжающуюся до его конца. В реальных приложениях длина суффиксов
ограничена, а индексируются только значимые позиции – например, начала слов. Этот
индекс позволяет выполнять более сложные запросы, чем индекс, построенный на инвертированных
файлах |
|
| токенизация (tokenization, lexical analysis, графематический
анализ, лексический анализ) |
|
| выделение в тексте слов, чисел, и иных токенов,
в том числе, например, нахождение границ предложений |
|
| точность (precision) |
|
| доля релевантного материала в ответе поисковой системы |
|
| хеш-значение
(hash-value) |
|
| значение хеш-функции (hash-function), преобразующей данные
произвольной длины (обычно, строчку) в число фиксированного порядка |
|
| частота (слова) в документах (document frequency, встречаемость в документах,
документная частота) |
|
| число документов в коллекции, содержащих данное слово |
|
| частота термина (term frequency, TF) |
|
| частота употреблений
слова в документе |
|
| шингл – (shingle) |
|
| хеш-значение непрерывной
последовательности слов текста фиксированной длины |
|