Alire
From Mesdoc
Line 1: | Line 1: | ||
+ | REGEX | ||
+ | |||
+ | http://www.amk.ca/python/howto/regex/regex.html#SECTION000730000000000000000 | ||
+ | |||
+ | |||
+ | |||
==nov 2007== | ==nov 2007== | ||
Line 51: | Line 57: | ||
* LIVRE | * LIVRE | ||
- | Building Search Applications With Lucene And Nutch ( | + | Building Search Applications With Lucene And Nutch (Broch���©) |
de Jon Shoberg | de Jon Shoberg | ||
http://www.amazon.fr/gp/product/1590596870/402-6807350-7208140?v=glance&n=52042011 | http://www.amazon.fr/gp/product/1590596870/402-6807350-7208140?v=glance&n=52042011 | ||
Line 57: | Line 63: | ||
- | Phase3 est le nom retenu pour le moteur de recherche Web qui a | + | Phase3 est le nom retenu pour le moteur de recherche Web qui a ���©t���© d���©velopp���©. Celui-ci s�¢ï¿½ï¿½appuie sur deux logiciels libres existant : le moteur de balayage Nutch et le moteur de recherche Lucene. Il permet, d���¨s �� pr���©sent, d�¢ï¿½ï¿½effectuer des recherches sur la quasi totalit���© de la documentation juridique francophone disponible en ligne. |
- | Toutefois, peu importe | + | Toutefois, peu importe l�¢ï¿½ï¿½interface ou la section du site �� l�¢ï¿½ï¿½origine d�¢ï¿½ï¿½une requ���ªte, l�¢ï¿½ï¿½affichage des r���©sultats est toujours compos���©s des m���ªmes ���©l���©ments. Le tri des r���©sultats y est d���©termin���© par Lucene. Chacun d�¢ï¿½ï¿½entre eux est repr���©sent���© par son titre, son URL, '''ainsi qu�¢ï¿½ï¿½un extrait du texte ayant contribu���© �� sa s���©lection'''. Ce court extrait, permet de pr���©ciser le contenu du document affich���©, ce qui qui facilite une pr���©s���©lection par l�¢ï¿½ï¿½usager sans m���ªme n���©cessiter une consultation. De plus, lorsque plusieurs r���©sultats de recherche diff���©rents proviennent d�¢ï¿½ï¿½une seule et m���ªme ressource, seuls les deux documents les plus pertinents s�¢ï¿½ï¿½affichent. Il est alors possible de consulter les autres documents de ce site en suivant l�¢ï¿½ï¿½hyperlien pr���©vu �� cet effet. Enfin, si le nombre de r���©sultats de recherche est sup���©rieur �� dix, ceux-ci sont d���©coup���©s sur plusieurs pages, dans le but de faciliter la navigation entre eux. Tous ces ���©l���©ments ont ���©t���© d���©velopp���©s dans l�¢ï¿½ï¿½objectif de fournir une interface graphique ressemblant le plus possible �� celle de Google, qui est sans aucun doute le moteur de recherche Web le plus connu et utilis���©. De cette fa���§on, la recherche sur le Web juridique francophone devrait s�¢ï¿½ï¿½en trouver facilit���©e. |
http://www.frlii.org/article.php3?id_article=168 | http://www.frlii.org/article.php3?id_article=168 |
Revision as of 12:20, 11 November 2007
REGEX
http://www.amk.ca/python/howto/regex/regex.html#SECTION000730000000000000000
Contents |
nov 2007
Generatin Gazeeters (Balie)
Verification of facts across document...
Language independant set expansion of named entities
Actes de la 14e conference sur le traitement automatique des langues
http://rali.iro.umontreal.ca/Technologies/Reacc.fr.html
SPARQL http://www.w3.org/TR/rdf-sparql-query/
YAGO http://www2007.org/papers/paper391.pdf
FOAF http://xmlns.com/foaf/spec/
RDFS http://www.w3.org/TR/rdf-schema/
27 aout 2006
http://www.codyx.org/snippet_extraction-chaine-caracteres-partir-occurence-separator_131.aspx
http://python.developpez.com/cours/yvesbailly/initiationpython/yb07/
http://www.ai.univ-paris8.fr/CSAR/sources/a1/C/index.html
Attente
- The Porter Stemming Algorithm
http://www.tartarus.org/martin/PorterStemmer/
http://nutch.sourceforge.net/blog/cutting.html
http://keithdevens.com/weblog/archive/2005/Aug/10/PyLucene
http://www-igm.univ-mlv.fr/~dr/XPOSE2003/lucene/node1.html
Lucene
http://books.slashdot.org/article.pl?sid=05/08/24/1645211&tid=185&tid=95&tid=6
http://www.theserverside.com/tt/articles/article.tss?l=ILoveLucene
- LIVRE
Building Search Applications With Lucene And Nutch (Broch���©) de Jon Shoberg http://www.amazon.fr/gp/product/1590596870/402-6807350-7208140?v=glance&n=52042011
Phase3 est le nom retenu pour le moteur de recherche Web qui a ���©t���© d���©velopp���©. Celui-ci s�¢ï¿½ï¿½appuie sur deux logiciels libres existant : le moteur de balayage Nutch et le moteur de recherche Lucene. Il permet, d���¨s �� pr���©sent, d�¢ï¿½ï¿½effectuer des recherches sur la quasi totalit���© de la documentation juridique francophone disponible en ligne.
Toutefois, peu importe l�¢ï¿½ï¿½interface ou la section du site �� l�¢ï¿½ï¿½origine d�¢ï¿½ï¿½une requ���ªte, l�¢ï¿½ï¿½affichage des r���©sultats est toujours compos���©s des m���ªmes ���©l���©ments. Le tri des r���©sultats y est d���©termin���© par Lucene. Chacun d�¢ï¿½ï¿½entre eux est repr���©sent���© par son titre, son URL, ainsi qu�¢ï¿½ï¿½un extrait du texte ayant contribu���© �� sa s���©lection. Ce court extrait, permet de pr���©ciser le contenu du document affich���©, ce qui qui facilite une pr���©s���©lection par l�¢ï¿½ï¿½usager sans m���ªme n���©cessiter une consultation. De plus, lorsque plusieurs r���©sultats de recherche diff���©rents proviennent d�¢ï¿½ï¿½une seule et m���ªme ressource, seuls les deux documents les plus pertinents s�¢ï¿½ï¿½affichent. Il est alors possible de consulter les autres documents de ce site en suivant l�¢ï¿½ï¿½hyperlien pr���©vu �� cet effet. Enfin, si le nombre de r���©sultats de recherche est sup���©rieur �� dix, ceux-ci sont d���©coup���©s sur plusieurs pages, dans le but de faciliter la navigation entre eux. Tous ces ���©l���©ments ont ���©t���© d���©velopp���©s dans l�¢ï¿½ï¿½objectif de fournir une interface graphique ressemblant le plus possible �� celle de Google, qui est sans aucun doute le moteur de recherche Web le plus connu et utilis���©. De cette fa���§on, la recherche sur le Web juridique francophone devrait s�¢ï¿½ï¿½en trouver facilit���©e.