Sto cercando un modo per determinare automaticamente il linguaggio naturale utilizzato da una pagina del sito web, dato il suo URL.Determina automaticamente il linguaggio naturale di una pagina di un sito Web dato il suo URL
In Python, una funzione del tipo:
def LanguageUsed (url):
#stuff
che restituisce un identificatore di lingua (ad esempio 'it' per l'inglese, 'jp' per il giapponese, ecc ...)
Sintesi dei risultati: Ho una soluzione ragionevole che funziona in Python usando code from the PyPi for oice.langdet. Fa un lavoro decente nel discriminare l'inglese rispetto al non inglese, che è tutto ciò di cui ho bisogno al momento. Nota che devi recuperare il codice html usando urllib Python. Inoltre, oice.langdet è una licenza GPL.
Per una soluzione più generale che utilizza Trigram in Python come altri hanno suggerito, vedere questo Python Cookbook Recipe from ActiveState.
L'API di Google Natural Language Detection funziona molto bene (se non il migliore che ho visto). Tuttavia, è Javascript e il loro TOS vieta di automatizzare il suo utilizzo.
geolocalizzazione è assolutamente inutile. Il mondo ha molti luoghi in cui coesistono più lingue. E i siti Web possono anche presentare più lingue –
Tutto ciò che ho detto è che è meglio di TLD, che alcune persone suggeriscono, e ho affrontato il problema di più lingue. – tghw