2012-07-03 12 views
6

Sto sviluppando un'applicazione in rotaie che richiede di verificare se il sito web inserito ha URL di motori di ricerca generati o meno. Una soluzione che ho in mente sta usando nokogiri per analizzare l'HTML del sito e guarda nel tag link per trovare gli URL e vedere se sono adatti ai motori di ricerca. C'è un altro modo in cui questo può essere fatto? Qualsiasi aiuto sarebbe davvero grandioso.Codice rubino per verificare se un sito web ha URL ottimizzati per i motori di ricerca

+0

se si vuole veramente guardare tutti i collegamenti nella pagina, nokogiri è la strada da percorrere. come pensi di distinguere un URL SEO-friendly da uno non-SEO-friendly? –

+0

Non ho idea di come lo farei. Analizzerò prima Anemone come suggerito da @Casper. Hai un altro modo che potrebbe funzionare per questo caso? Grazie –

+0

Sfortunatamente no, ero solo curioso; -) –

risposta

5

Hai due problemi qui:

  1. Come si formalmente (programmazione) definiscono ciò che un "search engine URL frienldy è". Suppongo che tu abbia già un modo per farlo. Quindi lascia ...

  2. Come controllare tutti i collegamenti su un sito web.

Quindi per (2) Vorrei guardare qualcosa come Anemone che renderà più facile per voi a strisciare siti web completi:

Anemone è una libreria Ruby che lo rende rapido e indolore per scrivere programmi che ragno un sito web. Fornisce un semplice DSL per eseguire azioni su ogni pagina di un sito, ignorare determinati URL e calcolare il percorso più breve per una determinata pagina su un sito.

Il design multi-thread rende Anemone veloce. L'API lo rende semplice. E l'espressività di Ruby lo rende potente.

Per la ricerca per indicizzazione semplice, Anemone ti fornirà anche una serie di tutti i collegamenti su una pagina, quindi non avrai nemmeno bisogno di Nokogiri. Per cose più complesse forse vuoi combinare Anemone con qualcosa come Mechanize e Nokogiri. Questo dipende dalle tue esigenze.

+0

Grazie per aver condiviso le informazioni su Anemone Gem, sarebbe molto utile per me. Inoltre non ho davvero trovato un modo per il (1) problema, quindi se hai aiuto su questo poi per favore condividi anche questo. –

+0

Anemone è fantastico, risolve il mio scopo qui, Grazie –

+0

@JimmyThakkar - Grazie per i vostri commenti. Purtroppo no non ho buone idee per i link SEO. Non è un problema facile da risolvere. Quello che vorrei fare è innanzitutto scrivere sulla carta che cos'è un buon collegamento SEO. Cioè per prima cosa crea una definizione sulla carta! Dopo di ciò puoi provare e formulare un algoritmo per questo. Ma prima devi avere le regole chiare. Forse cercare parole chiave corrispondenti sulla pagina, ecc. Tuttavia, gli esseri umani possono vedere rapidamente se un collegamento è SEO o meno. Quindi, solo implementando (2) puoi già elencare i collegamenti e scansionare rapidamente più di 100 link in pochi secondi semplicemente guardandoli. – Casper

Problemi correlati