UFJF - Universidade Federal de Juiz de Fora

Recuperação de Informação

Você está em: Ensino > Material > Recuperação de Informação

Ementa:

Recuperação Inteligente da Informação (RII). Modelos de Recuperação da Informação. Operações com Texto. Indexação e Recuperação. Recuperação Inteligente de Informação na Web e Bibliotecas Digitais.

 

Programa da disciplina:

O que são sistemas de recuperação de informação; modelos clássicos de recuperação de informação (booleano, vetorial e probabilístico); criação do vocabulário; avaliação de sistemas de recuperação de informação; indexação e busca; compressão do índice; feedback de relevância; algoritmo aho-corasick; skip lists; recuperação de dados da web; aplicações (uso do Apache Lucene e do Hadoop); tópicos atuais em recuperação da informação (big data, web semântica, etc); introdução ao processamento de linguagem natural.

 

Avaliação:

 

Trabalhos

Os trabalhos estão disponíveis aqui.

 

Livro-texto

Modern Information Retrieval: http://www.mir2ed.org/

Introduction to Information Retrieval: http://nlp.stanford.edu/IR-book/

Alguns códigos da disciplina implementados pelo Bruno Almeida Martins e André Martins.

 

Roteiro de aulas

Aula 01 Introdução slides_chap01.pdf
Aula 02 Comportamento do usuário e Interfaces slides_chap02.pdf
Aula 03 Criação do vocabulário e modelo booleano slides_chap03.pdf
Aula 04 Term weighting (1/2) e modelo vetorial slides_chap03.pdf
Aula 05 Indexação

indexação invertida.pdf

Um resumo sobre construção

slides_chap09.pdf 

Aula 06 Modelo probabilístico slides_chap03.pdf
Aula 07  Term weighting (2/2)

Outras técnicas

Exemplo de MapReduce para construção de índice invertido (Java)

Aula 08 Avaliação de sistemas de IR 

slides_chap04.pdf

Vídeo: ROC e AUC[1] e [2]

Aula 09 Web Semântica Web Semântica
Aula 10 Web Crawling  slides_chap11.pdf
Aula 11 Link analysis

slides_chap12.pdf

Notas sobre PageRank

Aula 12 Relevance feedback  slides_chap05.pdf
Aula 13  Clusterização

 slides_chap08.pdf

 Exemplo k-means

 Algoritmos populares de clustering

 Aula 14  Classificação

  slides_chap08.pdf

  Scikit-learn

 Aula 15 Language Model   
 Aula 16  Spelling Correction  
 Aula 17  Classification w/ Naive Bayes  
 Aula 18  Automatic Speech Recognition  
 Aula 19 Question Answering   
 Aula 20  Word Embedding  
     

 

 

Micro-apresentações (sujeitas a alteração ao longo do período)

Assunto  Material 
 Criação do lexicon

1) Apresentar o Porter Stemmer e rodar o algoritmo para um arquivo texto em inglês.

1.1) Snowball

1.2) PorterStemmer

2) Idem ao acima para português: Alvares, Reinaldo Viana, Ana Cristina Bicharra Garcia, and Inhaúma Ferraz. “STEMBR: a stemming algorithm for the Brazilian Portuguese language.” Portuguese Conference on Artificial Intelligence. Springer, Berlin, Heidelberg, 2005.

 Curiosidades sobre a Lei de Zipf

1) Processe um livro grande (bíblia, Ulysses do Joyce, O Tempo e O Vento, etc) e verifique se a Lei de Zipf se aplica. Fazer um gráfico loglog para mostrar a curva gerada.

2) Apresente algumas outras observações sobre a Lei de Zipf:

2.1) Adamic, Lada A., and Bernardo A. Huberman. “Zipf’s law and the Internet.” Glottometrics 3.1 (2002): 143-150.

2.2) Zipf’s Law of the Internet: Explaining Online Behavior

2.3) Rana, M. S. “Content analysis and application of Zipf’s Law in Computer Science literature.” Emerging Trends and Technologies in Libraries and Information Services (ETTLIS), 2015 4th International Symposium on. IEEE, 2015.

2.4) Xu, Yingfan, and Mingliang Shi. “Research on Zipf’s Law of Hot Events in Search Engines.” (2018).

 Indexação e processamento do índice invertido

1) Baeza-Yates, Ricardo, and Alejandro Salinger. “Experimental analysis of a fast intersection algorithm for sorted sequences.” International Symposium on String Processing and Information Retrieval. Springer, Berlin, Heidelberg, 2005.

2)  Aho-Corasick

3) Como acessar o léxico? e Minimum perfect hashing

3.1) Páginas 156 a 164

3.2) Compressão

Obs: 2 alunos para compressão (itens 3.1 e 3.2) + 1 aluno para MPH (3.1)

 Sistemas para IR

1) Apache Tika

2) Apache Lucene

3) Apache Solr

4) Elastic Search

 Avaliação

1) Crowdsourcing for Information Retrieval: Principles, Methods, and Applications

 Web Semântica

1) Apresentar um exemplo (simples) de construção de ontologia com OWL

2) SKOS

3) RDF-a (mostrar também essa ferramenta)

4) JSON-LD

5) Schema.org (mostrar também essa ferramenta)

6) Open Graph Protocol

Para os dois últimos, consultar também aqui.

 Web Retrieval & Crawling

1) Why Is the Shape of the Web a Bowtie?

2) OXPATH: A language for scalable data extraction, automation, and crawling on the deep web

3) Apache Nutch e Scrapy (código desse último no site)

Text classification

1) Apresentar o uso do Weka para text clustering

2) Apresentar o uso do Weka para text classification

Language Model

Apresentar  experimentos com o SRILM. Usar esse tutorial.

   
   
   
   
Outros   

Apresentar sobre lexical parsing e dependency parsing

 Apresentar sobre vector semantics e word2vec

 Apresentar sobre automatic semantic annotation

 Apresentar sobre emotion lexicons e semantic analysis

   
   
   
   
   
   
   
   
   
   

 

Fontes

Os materiais dessa disciplina são um compilado de livros, slides e outros recursos coletados de:

 

Outros artigos