In un progetto esiste un modulo che accetta un URL e determina se si tratta del sito Web "E-commerce" o "NON-E-commerce".Come scoprire se un URL è un sito di e-commerce o non e-commerce, programmaticamente?
ho provato seguenti approcci:
usando Apache mahout, Classificazione: URL ---> Prendete discarica html ---> processo di pre discarica HTML a) la rimozione di tutti i tag HTML
b) rimozione di parole di arresto (dette anche parole comuni) come CDATA, href, valore e, di, tra ecc.
c) modello di addestramento e quindi testarlo.
seguito params ho usato per l'addestramento
bin/mahout trainclassifier \ -i formazione-dati \ -o Bayes-modello \> tipo Bayes -ng 1
test:
/bin/mahout testclassifier \
-d test-data \
-m bayes-model \
-type bayes -source hdfs -ng 1 -method sequential
Precisione sto ottenendo il 73% e con cbayes algoritmo di ottenere il 52%.
Sto pensando di migliorare la fase di pre-elaborazione estraendo informazioni che si trovano nel sito di e-commerce come "Pulsante di pagamento", "pay pal link", "Prezzi/simbolo del dollaro", testo come "Pagamento alla consegna", "30 day gurantee "ecc.
Qualche suggerimento su come estrarre queste informazioni o altri modi per prevedere un sito come E-commerce o Non-E-commerce?
Si prega di formattare la domanda la prossima volta un po 'più attentamente. E nonostante l'accuratezza del 70% è abbastanza buona per l'inizio. –