Alire

From Mesdoc

(Difference between revisions)
 
(8 intermediate revisions not shown)
Line 1: Line 1:
 +
REGEX
 +
 +
http://www.amk.ca/python/howto/regex/regex.html#SECTION000730000000000000000
 +
 +
Zotero Format
 +
http://groups.google.com/group/zotero-dev/browse_thread/thread/1b387e6f339aea40/32f1a9107246a318
 +
 +
==nov 2007==
 +
 +
Generatin Gazeeters (Balie)
 +
 +
Verification of facts across document...
 +
 +
Language independant set expansion of named entities
 +
 +
Actes de la 14e conference sur le traitement automatique des langues
 +
 +
http://rali.iro.umontreal.ca/Technologies/Reacc.fr.html
 +
 +
SPARQL http://www.w3.org/TR/rdf-sparql-query/
 +
 +
YAGO http://www2007.org/papers/paper391.pdf
 +
 +
FOAF http://xmlns.com/foaf/spec/
 +
 +
RDFS http://www.w3.org/TR/rdf-schema/
 +
 +
 +
==27 aout 2006==
 +
 +
http://www.codyx.org/snippet_extraction-chaine-caracteres-partir-occurence-separator_131.aspx
 +
 +
http://python.developpez.com/cours/yvesbailly/initiationpython/yb07/
 +
 +
http://www.ai.univ-paris8.fr/CSAR/sources/a1/C/index.html
 +
 +
 +
==Attente==
 +
* The Porter Stemming Algorithm
* The Porter Stemming Algorithm
http://www.tartarus.org/martin/PorterStemmer/
http://www.tartarus.org/martin/PorterStemmer/
Line 16: Line 55:
http://www.theserverside.com/tt/articles/article.tss?l=ILoveLucene
http://www.theserverside.com/tt/articles/article.tss?l=ILoveLucene
 +
 +
* LIVRE
 +
 +
Building Search Applications With Lucene And Nutch (Broch������©)
 +
de Jon Shoberg
 +
http://www.amazon.fr/gp/product/1590596870/402-6807350-7208140?v=glance&n=52042011
 +
 +
 +
 +
Phase3 est le nom retenu pour le moteur de recherche Web qui a Ã���Ã��Ã�©tÃ���Ã��Ã�© dÃ���Ã��Ã�©veloppÃ���Ã��Ã�©. Celui-ci sÃ��Ã�¢Ã�¯Ã�¿Ã�½Ã�¯Ã�¿Ã�½appuie sur deux logiciels libres existant : le moteur de balayage Nutch et le moteur de recherche Lucene. Il permet, dÃ���Ã��Ã�¨s Ã���  prÃ���Ã��Ã�©sent, dÃ��Ã�¢Ã�¯Ã�¿Ã�½Ã�¯Ã�¿Ã�½effectuer des recherches sur la quasi totalitÃ���Ã��Ã�© de la documentation juridique francophone disponible en ligne.
 +
 +
 +
Toutefois, peu importe lÃ��Ã�¢Ã�¯Ã�¿Ã�½Ã�¯Ã�¿Ã�½interface ou la section du site Ã���  lÃ��Ã�¢Ã�¯Ã�¿Ã�½Ã�¯Ã�¿Ã�½origine dÃ��Ã�¢Ã�¯Ã�¿Ã�½Ã�¯Ã�¿Ã�½une requÃ���Ã��Ã�ªte, lÃ��Ã�¢Ã�¯Ã�¿Ã�½Ã�¯Ã�¿Ã�½affichage des rÃ���Ã��Ã�©sultats est toujours composÃ���Ã��Ã�©s des mÃ���Ã��Ã�ªmes Ã���Ã��Ã�©lÃ���Ã��Ã�©ments. Le tri des rÃ���Ã��Ã�©sultats y est dÃ���Ã��Ã�©terminÃ���Ã��Ã�© par Lucene. Chacun dÃ��Ã�¢Ã�¯Ã�¿Ã�½Ã�¯Ã�¿Ã�½entre eux est reprÃ���Ã��Ã�©sentÃ���Ã��Ã�© par son titre, son URL, '''ainsi quÃ��Ã�¢Ã�¯Ã�¿Ã�½Ã�¯Ã�¿Ã�½un extrait du texte ayant contribuÃ���Ã��Ã�© Ã���  sa sÃ���Ã��Ã�©lection'''. Ce court extrait, permet de prÃ���Ã��Ã�©ciser le contenu du document affichÃ���Ã��Ã�©, ce qui qui facilite une prÃ���Ã��Ã�©sÃ���Ã��Ã�©lection par lÃ��Ã�¢Ã�¯Ã�¿Ã�½Ã�¯Ã�¿Ã�½usager sans mÃ���Ã��Ã�ªme nÃ���Ã��Ã�©cessiter une consultation. De plus, lorsque plusieurs rÃ���Ã��Ã�©sultats de recherche diffÃ���Ã��Ã�©rents proviennent dÃ��Ã�¢Ã�¯Ã�¿Ã�½Ã�¯Ã�¿Ã�½une seule et mÃ���Ã��Ã�ªme ressource, seuls les deux documents les plus pertinents sÃ��Ã�¢Ã�¯Ã�¿Ã�½Ã�¯Ã�¿Ã�½affichent. Il est alors possible de consulter les autres documents de ce site en suivant lÃ��Ã�¢Ã�¯Ã�¿Ã�½Ã�¯Ã�¿Ã�½hyperlien prÃ���Ã��Ã�©vu Ã���  cet effet. Enfin, si le nombre de rÃ���Ã��Ã�©sultats de recherche est supÃ���Ã��Ã�©rieur Ã���  dix, ceux-ci sont dÃ���Ã��Ã�©coupÃ���Ã��Ã�©s sur plusieurs pages, dans le but de faciliter la navigation entre eux. Tous ces Ã���Ã��Ã�©lÃ���Ã��Ã�©ments ont Ã���Ã��Ã�©tÃ���Ã��Ã�© dÃ���Ã��Ã�©veloppÃ���Ã��Ã�©s dans lÃ��Ã�¢Ã�¯Ã�¿Ã�½Ã�¯Ã�¿Ã�½objectif de fournir une interface graphique ressemblant le plus possible Ã���  celle de Google, qui est sans aucun doute le moteur de recherche Web le plus connu et utilisÃ���Ã��Ã�©. De cette faÃ���Ã��Ã�§on, la recherche sur le Web juridique francophone devrait sÃ��Ã�¢Ã�¯Ã�¿Ã�½Ã�¯Ã�¿Ã�½en trouver facilitÃ���Ã��Ã�©e.
 +
 +
http://www.frlii.org/article.php3?id_article=168

Current revision as of 13:59, 12 November 2007

REGEX

http://www.amk.ca/python/howto/regex/regex.html#SECTION000730000000000000000

Zotero Format http://groups.google.com/group/zotero-dev/browse_thread/thread/1b387e6f339aea40/32f1a9107246a318

Contents

[edit] nov 2007

Generatin Gazeeters (Balie)

Verification of facts across document...

Language independant set expansion of named entities

Actes de la 14e conference sur le traitement automatique des langues

http://rali.iro.umontreal.ca/Technologies/Reacc.fr.html

SPARQL http://www.w3.org/TR/rdf-sparql-query/

YAGO http://www2007.org/papers/paper391.pdf

FOAF http://xmlns.com/foaf/spec/

RDFS http://www.w3.org/TR/rdf-schema/


[edit] 27 aout 2006

http://www.codyx.org/snippet_extraction-chaine-caracteres-partir-occurence-separator_131.aspx

http://python.developpez.com/cours/yvesbailly/initiationpython/yb07/

http://www.ai.univ-paris8.fr/CSAR/sources/a1/C/index.html


[edit] Attente

  • The Porter Stemming Algorithm

http://www.tartarus.org/martin/PorterStemmer/


http://nutch.sourceforge.net/blog/cutting.html


http://keithdevens.com/weblog/archive/2005/Aug/10/PyLucene


http://www-igm.univ-mlv.fr/~dr/XPOSE2003/lucene/node1.html

[edit] Lucene

http://books.slashdot.org/article.pl?sid=05/08/24/1645211&tid=185&tid=95&tid=6

http://www.theserverside.com/tt/articles/article.tss?l=ILoveLucene

  • LIVRE

Building Search Applications With Lucene And Nutch (Broch������©) de Jon Shoberg http://www.amazon.fr/gp/product/1590596870/402-6807350-7208140?v=glance&n=52042011


Phase3 est le nom retenu pour le moteur de recherche Web qui a Ã���Ã��Ã�©tÃ���Ã��Ã�© dÃ���Ã��Ã�©veloppÃ���Ã��Ã�©. Celui-ci sÃ��Ã�¢Ã�¯Ã�¿Ã�½Ã�¯Ã�¿Ã�½appuie sur deux logiciels libres existant : le moteur de balayage Nutch et le moteur de recherche Lucene. Il permet, dÃ���Ã��Ã�¨s Ã��� prÃ���Ã��Ã�©sent, dÃ��Ã�¢Ã�¯Ã�¿Ã�½Ã�¯Ã�¿Ã�½effectuer des recherches sur la quasi totalitÃ���Ã��Ã�© de la documentation juridique francophone disponible en ligne.


Toutefois, peu importe l���¢�¯�¿�½�¯�¿�½interface ou la section du site ��� l���¢�¯�¿�½�¯�¿�½origine d���¢�¯�¿�½�¯�¿�½une requ������ªte, l���¢�¯�¿�½�¯�¿�½affichage des r������©sultats est toujours compos������©s des m������ªmes ������©l������©ments. Le tri des r������©sultats y est d������©termin������© par Lucene. Chacun d���¢�¯�¿�½�¯�¿�½entre eux est repr������©sent������© par son titre, son URL, ainsi qu���¢�¯�¿�½�¯�¿�½un extrait du texte ayant contribu������© ��� sa s������©lection. Ce court extrait, permet de pr������©ciser le contenu du document affich������©, ce qui qui facilite une pr������©s������©lection par l���¢�¯�¿�½�¯�¿�½usager sans m������ªme n������©cessiter une consultation. De plus, lorsque plusieurs r������©sultats de recherche diff������©rents proviennent d���¢�¯�¿�½�¯�¿�½une seule et m������ªme ressource, seuls les deux documents les plus pertinents s���¢�¯�¿�½�¯�¿�½affichent. Il est alors possible de consulter les autres documents de ce site en suivant l���¢�¯�¿�½�¯�¿�½hyperlien pr������©vu ��� cet effet. Enfin, si le nombre de r������©sultats de recherche est sup������©rieur ��� dix, ceux-ci sont d������©coup������©s sur plusieurs pages, dans le but de faciliter la navigation entre eux. Tous ces ������©l������©ments ont ������©t������© d������©velopp������©s dans l���¢�¯�¿�½�¯�¿�½objectif de fournir une interface graphique ressemblant le plus possible ��� celle de Google, qui est sans aucun doute le moteur de recherche Web le plus connu et utilis������©. De cette fa������§on, la recherche sur le Web juridique francophone devrait s���¢�¯�¿�½�¯�¿�½en trouver facilit������©e.

http://www.frlii.org/article.php3?id_article=168

Personal tools