Google

From Mesdoc

Contents

[edit] Indexation

  • Introduction to Text Indexing with Apache Jakarta Lucene

http://www.onjava.com/pub/a/onjava/2003/01/15/lucene.html

  • Apache Lucene

http://lucene.apache.org/java/docs/index.html

  • Nutch

http://lucene.apache.org/nutch/


[edit] Forums

Google n'utilise pas une base de donnée au sens SGBDR du terme ( mySql, PotsgreSQL, Oracle, etc... ).

Il utilise un inverted index. Pour faire très simple et très schématique, il dispose d'un index qui est un peu l'équivalent des index que tu trouves à la fin d'un livre. Il distribue son index sur un système de fichier distribué que l'on nomme GFS ( Google File System ) à l'aide d'un algo : map-reduce.

Doug Dutting essaye de faire une implémentation Open Source d'une solution de recherche qui pourrait être comparable à Google. Se projet est porté par la fondation Apache sous le nom Lucene. Se projet se décompose aujourd'hui en trois sous-partie : - Lucene : l'indexeur - Nutch : un crawler qui intégre Lucène comme indexeur - Depuis peu Hadoop : qui est un portage Open Source de l'algo map-reduce

Si tu veux en savoir plus sur la structure d'in index Lucene : http://www-igm.univ-mlv.fr/~dr/XPOSE2003/lucene/


[edit] Sites

http://labs.google.com/papers/mapreduce.html

  • GOOGLE RESEARCH PAPERS

http://labs.google.com/papers/

http://labs.google.com/papers.html

[edit] Moteurs et Indexation

Lucene est une api java permettant à des développeurs de personnaliser et de déployer leur propre moteur d'indexation et de recherche. Doug Cutting, un des architectes du moteur Excite après être passé du Xerox PARC puis Apple, est à l'origine de ce projet. Lucene initialement hébergé par Sourceforge, a rejoint la famille Jakarta en septembre 2001.


Format d'indexation http://www-igm.univ-mlv.fr/~dr/XPOSE2003/lucene/node4.html

Personal tools