2012-06-29 10 views
20

Desidero utilizzare Google 2 grammi per il mio progetto; ma la dimensione dei dati rende la ricerca costosa sia in termini di velocità che di spazio di archiviazione.
Esiste una API Web disponibile per questo scopo (in qualsiasi lingua)? Il sito web http://books.google.com/ngrams/graph esegue il rendering di un'immagine, posso ottenere i valori dei dati?API Web N-Gram Google

risposta

13

Bene, ho avuto un giro su come farlo, usando Google BigQuery
In questo caso, i trigram sono disponibili in pubblico dominio. Usare Command line access ha fatto il lavoro per me.

+0

Come hai raggiunto i dati di ngram? Non riuscivo a vederlo in Sample Dataset! – metdos

+12

apri https://bigquery.cloud.google.com/?pli=1, (e accetta i termini e le condizioni e tutto ciò che non è ancora fatto e apri di nuovo il link), quindi nel riquadro di sinistra, seleziona "trigrams" "sotto" publicdata: samples " – Five

+1

Un'altra alternativa è un servizio web chiamato [PhraseFinder] (http://phrasefinder.io) –

8

ho trovato una valida alternativa: Microsoft Web N-Gram

Può essere interrogato in modi diversi, tra cui una chiamata GET straighforward attraverso il REST interface. Per esempio, chiamando l'URL:

http://weblm.research.microsoft.com/weblm/rest.svc/bing-body/apr10/1/jp?u={YOUR_TOKEN}&p=red+panda 

rendimenti

-9.005 

che è la probabilità registro della frase red panda.

Inoltre, è più pratico di Google N-Grams, poiché per una determinata frase non emette semplicemente la sua frequenza assoluta, ma può emettere la sua probabilità congiunta, probabilità condizionale e anche le parole più probabili che seguono.

Disclaimer: Non sono un dipendente Microsoft, penso semplicemente di aver appena trovato un servizio eccezionale.

+0

Ho appena richiesto una chiave API da MS. L'unico meccanismo offerto per la registrazione è inviando un'e-mail. Mi sembra che non ci sia una registrazione automatica per il servizio Microsoft. – knb

+0

È vero. Ho anche trovato una scelta strana. – Alphaaa

+0

Hmmm. web-ngram.research.microsoft.com ha impiegato troppo tempo per rispondere. –