Sto cercando di analizzare titoli di prodotti non strutturati come "Canon D1000 4MP Camera 2X Zoom LCD" in dati strutturati come {brand: canon, model number: d1000, lens: 4MP zoom: 2X, display type: LCD}
.Come analizzare titoli di prodotto (non strutturati) in dati strutturati?
Finora ho:
- stopwords rimosso e pulito fino (rimuovere i caratteri come
-
;
:
/
) - creazione di token lunghe stringhe in parole.
Qualsiasi tecnica/libreria/metodo/algoritmo sarebbe molto apprezzata!
MODIFICA: non esiste euristica per i titoli dei prodotti. Un venditore può inserire qualsiasi cosa come come titolo. Ad esempio: 'Canon D1000' può essere solo il titolo. Inoltre, questo esercizio non è solo per i set di dati della fotocamera, il titolo può essere di qualsiasi prodotto.
Avete dati di allenamento? Dire specifiche del prodotto per 1000 prodotti? – Jirka
Ho molti dati di allenamento. Devo eseguire questo per 100 milioni di articoli, ma in questo momento sto cercando di costruire un prototipo con ~ 10.000 prodotti relativi alle videocamere. – stealthspy
Sto cercando di risolvere lo stesso problema. Ho ~ 50K prodotti, tutti non strutturati, nessun dato di allenamento. Il primo passo per me è trovare i dati per la formazione, ovvero prodotti con attributi definiti: marca, modello, ecc. I prodotti appartengono all'elettronica (telefoni, laptop, fotocamere). Qualche suggerimento dove trovare prodotti con attributi? – dzeno