Google

From Mesdoc

[edit] Indexation

Introduction to Text Indexing with Apache Jakarta Lucene

http://www.onjava.com/pub/a/onjava/2003/01/15/lucene.html

Apache Lucene

http://lucene.apache.org/java/docs/index.html

Nutch

http://lucene.apache.org/nutch/

[edit] Forums

Google n'utilise pas une base de donnée au sens SGBDR du terme ( mySql, PotsgreSQL, Oracle, etc... ).

Il utilise un inverted index. Pour faire très simple et très schématique, il dispose d'un index qui est un peu l'équivalent des index que tu trouves à la fin d'un livre. Il distribue son index sur un système de fichier distribué que l'on nomme GFS ( Google File System ) à l'aide d'un algo : map-reduce.

Doug Dutting essaye de faire une implémentation Open Source d'une solution de recherche qui pourrait être comparable à Google. Se projet est porté par la fondation Apache sous le nom Lucene. Se projet se décompose aujourd'hui en trois sous-partie : - Lucene : l'indexeur - Nutch : un crawler qui intégre Lucène comme indexeur - Depuis peu Hadoop : qui est un portage Open Source de l'algo map-reduce

Si tu veux en savoir plus sur la structure d'in index Lucene : http://www-igm.univ-mlv.fr/~dr/XPOSE2003/lucene/

[edit] Sites

http://labs.google.com/papers/mapreduce.html

GOOGLE RESEARCH PAPERS

http://labs.google.com/papers/

http://labs.google.com/papers.html

[edit] Moteurs et Indexation

Lucene est une api java permettant à des développeurs de personnaliser et de déployer leur propre moteur d'indexation et de recherche. Doug Cutting, un des architectes du moteur Excite après être passé du Xerox PARC puis Apple, est à l'origine de ce projet. Lucene initialement hébergé par Sourceforge, a rejoint la famille Jakarta en septembre 2001.

Format d'indexation http://www-igm.univ-mlv.fr/~dr/XPOSE2003/lucene/node4.html

Google

From Mesdoc

Contents

[edit] Indexation

[edit] Forums

[edit] Sites

[edit] Moteurs et Indexation

Views

Personal tools

Navigation

Search

EditThis.info tools

Toolbox

Other sites