Введение В Информационный Поиск Pdf

18.07.2019

Введение В Информационный Поиск Pdf

Информационный поиск (Information Retrieval) - это процесс поиска в большой коллекции некоторого неструктурированного материала (документа), удовлетворяющего информационные потребности. Д., Рагхаван П., Шютце Х. Введение в информационный поиск. Поисковая система в общем виде представлена на рис. В зависимости от типа задачи пользователь формирует различные запросы и обращается к различным поисковым механизмам. Однако общим для всех задач является то, что:.

Печать В Pdf
Из Pdf В Word
Введение В Информационный Поиск Pdf
Преобразовать В Pdf

Б1.В.ОД.3 Введение в информационный поиск 2. Целями освоения дисциплины «Введение. Введение в информационный. Информационный поиск Методы оценки качества поискаЭволюция.

пользователь формирует запрос (A) естественным для него (человека) способом;. пользователь желает искать среди объектов (C), представленных в традиционном для него виде;. машина получая запрос пользователя, преобразовывает его к формальному описанию (B), затем ищет среди коллекции документов, заранее преобразованных к формальному виду (D), наиболее близкие к запросу пользователя (релевантные) документы. Поисковая система в общем виде Под формальным описанием исходных объектов поиска, или образами объектов, будем понимать представление объекта (документа, запроса) в виде списка его признаков, например, слов или словосочетаний, снабжённого информацией о значимости (весе) каждого признака для содержания (тематики) конкретного документа. Процесс предварительной обработки документов, нацеленный на формирование образов документов, часто называют. Представим, что имеется множество документов D размерностью N D. После выделения признаков из каждого документа получаем множество признаков P размерностью N P.

Множество признаков содержит все признаки, встречающиеся хотя бы в одном из документов. Тогда получаем разреженную матрицу «документ-признак». Строками которой являются образы документов d i, для каждого из которых известен вес каждого признака (вес равен нулю в случае отсутствия некоторого признака в некотором документе).

Далее поисковая задача сводится к применению некоторого математического метода для анализа матрицы «документ-признак» и принятия решения о релевантность того или иного образа документа, а следовательно и самого документа. Это одна из поисковых моделей – векторная модель. Существуют и другие модели (подробнее - в ). Важной проблемой является оценка результатов работы поисковой машины. В настоящее время известен ряд метрик, позволяющих получить количественную оценку качества поиска.

Их можно разделить на две группы: внешние (а) и внутренние (б) метрики. Внешние метрики – требуется сравнить результат поиска, выполненный автоматически, с результатом выполненным экспертами, т. Необходимо наличие «эталонного» поискового результата, составленного человеком. Ярким примером таких метрик являются всем известные полнота (recall) и точность (precision).

Интерпретация этих метрик меняется в зависимости от типа решаемой задачи, однако, общий смысл остаётся неизменным. Его проще всего раскрыть на примере задачи классического поиска.

Так, полнота – это количество релевантных (соответствующих запросу) документов в ответе поисковой машины по отношению к общему количеству релевантных документов в коллекции документов, а точность – это количество релевантных документов в ответе поисковой системы по отношению к общему количеству документов в ответе системы. Внутренние метрики – анализируют результат работы поисковой системы без привлечения внешней информации, т. Не требуется «эталонный» результат поиска. Например, анализ средних межкластерного и внутрикластерного расстояний в задаче кластеризации документов.

Таким образом получаем, что основными направлениями исследований являются следующие:. как и какие выявить признаки исходных объектов (а также и объектов-запросов), чтобы они наилучшим образом отображали смысл объектов, который видит в них человек (пользователь);. как эффективно сравнить формальные описания заданных объектов и объектов, среди которых осуществляется поиск;.

как оценить, хорошо или плохо был выполнен поиск: удовлетворён ли пользователь результатами поиска, т. Какие формальные критерии использовать, чтобы вычислить формальные характеристики качества поиска, совпадающие с мнением большинства людей (пользователей системы);. как эффективно организовать хранение поисковой информации и обеспечить быстрый и надежный доступ поисковым машинам к данной информации. Основная литература. van Rijsbergen C.

Information retrieval. , там же PDF. Manning C.

D., Schutze H. Introduction to Information Retrieval.

, там же PDF. Baeza-Yates R., Ribeiro-Neto B.

Modern Information Retrieval. Grossman D. A., Frieder O. Information Retrieval: Algorithms and Heuristics (2nd Edition). – Springer, 2004. Видеозаписи и слайды лекций, прочитанных во время, 2008. Manning C.

D., Schutze H. Foundations of statistical natural language processing. – Cambridge: MIT Press, 1999. Белоногов Г. Компьютерная лингвистика и перспективные информационные технологии. – М.: Русский мир, 2004.

Солтон Дж. Динамические библиотечно-информационные системы. – М.: Мир, 1979. Lewandowski D.

Web Information Retrieval: Technologien zur Informationssuche im Internet. Frankfurt am Main: DGI, 2005. Периодические издания. Материалы Ассоциации по вычислительной технике. Журналы издательства научной, технической и медицинской литературы., например,. Электронная библиотека в сфере информатики и вычислительной техники. Статьи и др.

Публикации из научной электронной библиотеки. Труды конференции 'Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции',. Труды международной конференции по компьютерной лингвистике.см.

Возможности бесплатного доступа к публикациям отечественных и иностранных издательств из локальной сети МГТУ на сайте. Также информацию о новых публикациях на вашу тему можно получать, периодически пролистывая РЖ ВИНИТИ (реферативный журнал, выпускаемый ). Доступен в библиотеке МГТУ.

Модели и методы представления текстового документа в системах информационного поиска / М. Губин // Научно-техническая информация. Браславский П. Автоматические операции с запросами к машинам поиска интернета на основе тезауруса: подходы и оценки. Гусев В.Д. Алгоритм выявления устойчивых словосочетаний с учетом их вариативности (морфологической и комбинаторной) / В.Д. Саломатина // Труды международной конференции Диалог’2004.

– М.: Наука, 2004. Добрынин В. Оценка тематического подобия текстовых документов / В. Добрынин, В.В. Некрестьянов // Электронные библиотеки: перспективные методы и технологии: Труды второй всероссийской научной конференции. – Санкт-Петербург, 2000.

Печать В Pdf

Прикладная статистика: Исследование зависимостей: Справ. Мешалкин; Под. – М.: Финансы и статистика, 1985.

Прикладная статистика: Классификация и снижение размерности: Справ. Бухштабер, И. Мешалкин; Под. – М.: Финансы и статистика, 1989.

Salton G., Buckley C. Term-weighting approaches in automatic text retrieval: Technical Report. – New York: Cornell University, 1987. Salton G., Buckley C. Weighting approaches in automatic text retrieval // Information Processing and Management.

A statistical approach to mechanized encoding and search of library information // IBM Journal of Research and Development. A Statistical Interpretation of Term Specificity and Its Application in Retrieval // Journal of Documentation. Mladenić D., Grobelnik M. Word sequences as features in text learning // Proceedings of the 17th Electrotechnical and Computer Science Conference. – Ljubljana, 1998. Yang Y., Pedersen J. A Comparative Study on Feature Selection in Text Categorization // The Fourteenth International Conference on Machine Learning: Proceedings of ICML'97.

– San Francisco, 1997. Guo D., Berry M. Knowledge-Enhanced Latent Semantic Indexing // Information Retrieval. – 2003.– Vol.

Kelledy F., Smeaton A.F. Automatic Phrase Recognition and Extraction from Text // Proceedings of the 19th Annual BCS-IRSG Colloquium on IR Research. – Aberdeen, 1997. The Use of Bigrams to Enhance Text Categorization / Ch.-M. Lee // Information Processing and Management.

A Maximum Entropy Approach to Natural Language Processing / A. A.Della Pietra, V. Della Pietra // Computational Linguistics.

Landauer T. Introduction to Latent Semantic Analysis / T.

Laham // Discourse Processes. Singular value decomposition and principal component analysis / M. Wall, A.Rechtsteiner, L. Rocha // A Practical Approach to Microarray Data Analysis. – Kluwer, 2003. Cristianini N. Latent Semantic Kernels / N.

Cristianini, J. Shawe-Taylor, H.

Lodhi // Journal of Intelligent Information Systems. Combining linguistics with statistics for multiword term extraction: A fruitful association? Guillore, J.-C Bassano., J.

Pereira Lopes// Proc. Of Recherche d’Informations Assistee par Ordinateur 2000 (RIAO’2000) Electronic resource.

– Electronic text and graphic data. – Аccess mode: //www.di.ubi.pt/ddg/publications/riao2000.pdf. Improving text categorization using the importance of sentences / Y. Seo // Information Processing and Management. Готовая семантическая сеть для английского языка. Официальные метрики РОМИП’2004 / М.С.

Агеев, И.Е Кураленок // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) – Пущино, 2004. Гусарова Л. Проверка обоснованности кластерного решения / Л. Яцкив // Reliability and statistics in transportation and communication (RelStat’03). – Рига, 2004.

On Clustering Validation Techniques / M. Batistakis, M. Vazirgiannis // Journal of Intelligent Information Systems, Kluwer Academic Publishers. Manufactured in The Netherlands. Задачи информационного поиска (Information Retrieval Tasks) Классификация Поиск по запросу Извлечение фактов Автоматическое реферирование Ответы на вопросы Объекты поиска Плоские тексты Fact Extraction Automatic Text Summarization Question Answering Структурированные тексты Изображения Аудио-ресурсы Видео-ресурсы Веб-сайты Web-site classification Web-site search Примечание.

Пустые ячейки данной таблицы совсем не означают, что в соответствующей области отсутствуют работы. Они пустые либо потому, что я ещё не дописала эту страницу, либо потому, что данная область не входила в список моих активных интересов. Вход: запрос на естественном языке, например, список ключевых слов. Выход: ранжированный список найденных документов.

Объекты для поиска: множество текстовых документов. Признаки объектов: численные характеристики вхождения в документ слов, словосочетаний и т. П., а также различные эвристические данные, примеры которых см. В необязательные дополнительные данные. Обязательные дополнительные данные: нет.

Необязательные дополнительные данные (по выбору авторов системы): дополнительные признаки объектов, например, индекс цитирования и т. Для сортировки выдачи; сбор и анализ обратной связи для корректировки запросов и др. Литература:. Сегалович И. Как работают поисковые системы —.

«Мир Интернет», №10. или. см.;. см. Некрестьянов И. Тематико-ориентированные методы информационного поиска: Дис.

Из Pdf В Word

Наук: 05.13.11. – 2000. Пескова О. Методы автоматической классификации текстовых электронных документов категоризация текстов / О. Пескова // Научно-техническая информация.

Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys. Yang Y., Liu X.

A re-examination of text categorization methods, School of Computer Science Carnegie Mellon University Pittsburgh, PA, USA, 1999 – p. Dumais S.T. Inductive learning algorithms and representations for text categorization / S.T. Heckerman, M. Sahami // Proceedings of CIKM-98: 7th ACM International Conference on Information and Knowledge Management. – Kansas City, 1998.

Naïve (Bayes) at Forty: The Independence Assumption in Information Retrieval. Training algorithms for linear text classifiers / D.D. Schapire, J.P. Papka // Proceedings of SIGIR-96, 19th ACM International Conference on Research and Development in Information Retrieval. – Zurich,1996. Joachims T.

Text categorization with support vector machines: learning with many relevant features. In Proceedings of ECML-98, 10th European Conference on Machine Learning. Lewis D.D., Schapire R.

Введение В Информационный Поиск Pdf

E., Callan J.P., Papka R. Training algorithms for linear text classifiers // In Proceedings of SIGIR-96, 19th ACM International Conference on Research and Development in Information Retrieval. Apte C., Weiss S.M.

Data Mining with Decision Trees and Decision Rules. D., Pedersen J. O., Weigend A. A neural network approach to topic spotting // Proceedings of SDAIR-95, 4th Annual Symposium on Document Analysis and Information Retrieval. Кириченко К. Обзор методов кластеризации текстовой информации / К.

Кириченко, М. Киселев М. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики / М. Пивоваров, М. Пескова О.

Методы автоматической классификации электронных текстовых документов без обучения кластеризация текстов // Научно-техническая информация. Data Clustering: A Review / A. Flynn // ACM Computing Surveys. Zamir O. Clustering Web Documents: A Phrase-Based Method for Grouping Search Engine Results. MacQueen J. Some Methods for classification and Analysis of Multivariate Observations // Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability.

– Berkeley, 1967. Self organization of a massive document collection / T. Salojärvi, J. Saarela // IEEE Transactions on neural networks. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise / M. Ester, H.-P.Kriegel, J.

Xu // Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining (KDD-96). – Portland, 1996. Zheng Xiao-Shen Algorithm of documents clustering based on minimum spanning tree / Zheng Xiao-Shen, He Pi-Lian, Tian Mei, Yuan Fu-Yong // International Conference on Machine Learning and Cybernetics. – Xi-an, 2003. Maulik U., Bandyopadhyay S. Performance Evaluation of Some Clustering Algorithms and Validity Indices // IEEE Transactions On Pattern Analysis And Machine Intelligence.

Mendes M.E.S., Sacks L. Dynamic Knowledge Representation for e-Learning Applications // Proc. Of the 2001 BISC International Workshop on Fuzzy Logic and the Internet, FLINT'2001.

Преобразовать В Pdf

– Berkeley, 2001. Kanade P.M., Hall L.

Fuzzy Ants as a Clustering Concept // 22nd international conference of the North American fuzzy information processing society NAFIPS. – Chicago, 2003.

Data exploration using self-organizing maps // Acta Polytechnica Scandinavica, Mathematics, Computing and Management in Engineering Series. Dittenbach M. Uncovering hierarchical structure in data using the growing hierarchical self-organizing map / M. Dittenbach, A. Merkl // Neurocomputing.

goodrurussian

Введение В Информационный Поиск Pdf

Печать В Pdf

Из Pdf В Word

Введение В Информационный Поиск Pdf

Преобразовать В Pdf

Архив