2012-01-22 6 views
6

In un progetto esiste un modulo che accetta un URL e determina se si tratta del sito Web "E-commerce" o "NON-E-commerce".Come scoprire se un URL è un sito di e-commerce o non e-commerce, programmaticamente?

ho provato seguenti approcci:

  1. usando Apache mahout, Classificazione: URL ---> Prendete discarica html ---> processo di pre discarica HTML a) la rimozione di tutti i tag HTML

    b) rimozione di parole di arresto (dette anche parole comuni) come CDATA, href, valore e, di, tra ecc.

    c) modello di addestramento e quindi testarlo.

seguito params ho usato per l'addestramento

bin/mahout trainclassifier \ -i formazione-dati \ -o Bayes-modello \> tipo Bayes -ng 1

test:

/bin/mahout testclassifier \ 
    -d test-data \ 
    -m bayes-model \ 
    -type bayes -source hdfs -ng 1 -method sequential 

Precisione sto ottenendo il 73% e con cbayes algoritmo di ottenere il 52%.

Sto pensando di migliorare la fase di pre-elaborazione estraendo informazioni che si trovano nel sito di e-commerce come "Pulsante di pagamento", "pay pal link", "Prezzi/simbolo del dollaro", testo come "Pagamento alla consegna", "30 day gurantee "ecc.

Qualche suggerimento su come estrarre queste informazioni o altri modi per prevedere un sito come E-commerce o Non-E-commerce?

+2

Si prega di formattare la domanda la prossima volta un po 'più attentamente. E nonostante l'accuratezza del 70% è abbastanza buona per l'inizio. –

risposta

1

Sono molto sbalordito dal fatto che si ottenga una così buona precisione con un'estrazione html semplice e un classificatore bayes.

Ma ti sembra di essere sulla strada giusta con le caratteristiche come un pulsante di pagamento e prezzi.

Ecco un articolo che ho trovato ieri durante la lettura su Yandex:

"To find out or to buy? Product review vs. Web shop classifier"

E 'su come distinti questi due siti e alcune tecniche hanno usato. Hanno anche usato SVM invece di bayes naive.

+0

Grazie Thomas. La carta si rivolge al caso d'uso simile al nostro. – geek

Problemi correlati