2009-07-29 8 views
8

Che tipo di lavoro è stato svolto per determinare se una stringa specifica appartiene a una posizione geografica? Per esempio:Identificazione delle posizioni geografiche nel testo

'troy, ny' 
'austin, texas' 
'hotels in las vegas, nv' 

Credo che quello che sto tipo di attesa è un approccio statistico che dà un grado di fiducia che i primi due sono posizioni. L'ultimo probabilmente richiederebbe un'euristica che cattura "% s,% s" e quindi usa la stessa tecnica. Sono specificamente alla ricerca di approcci che non si basano troppo sulla proposizione "in", visto che non è un indicatore di posizione completamente non ambiguo o costantemente disponibile.

Qualcuno può indicarmi approcci, documenti o utilità esistenti? Grazie!

risposta

7

Il problema che si descrive è spesso chiamato analisi di query geografiche o più in generale recupero di informazioni geografiche.

C'è stato un compito recente al CLEF 2007 (http://www.uni-hildesheim.de/geoclef/2007/Query-Parsing.htm). Il team vincente ha usato una grammatica basata su regole, che è simile a quello che probabilmente non vuoi. Un altro documento su www2009 parla di GeoParser: http://www2009.eprints.org/239/.

ci sono anche alcune carte sul Geographic Information Retrieval presso CIKM 2007: http://www.geo.unizh.ch/~rsp/gir07/accepted.html

Non so di alcun software open source che fa questo, ma può essere impacchettato in un motore di ricerca come Lemur.

4

C'è un approccio molto interessante preso da Everyblock.com che si concentra su come le posizioni sono espresse in inglese - fondamentalmente usano alcune espressioni regolari sofisticate ed estese che sono ora open source. La loro applicazione è progettata per scansionare articoli di notizie, recensioni e vari feed di dati pubblici e metterli in relazione con luoghi specifici, e funziona bene. Espressioni come "Un incendio nell'edificio nell'angolo nord-est del 20 ° e Valencia St. a San Francisco" sono molto accuratamente geocodificate. Puoi studiare la fonte here. La parte che probabilmente desideri è ebpub/ebpub/geocoder/base.py, che si trova nel download ebpub e tutto ciò che lo circonda, ad esempio a partire dalla classe SmartGeocoder e funziona all'indietro.

0

Sto costruendo una geoparser gratuito geocode.xyz

(attualmente supporta circa 50 paesi europei, che presto offrire una copertura globale)

Un'applicazione campione di geoparsing può essere trovato sulla OpenWikiMap

Problemi correlati