Se non si tratta di una parola davvero unica, suggerirei il prossimo approccio.
Immaginiamo che la nostra parola chiave sia Java. Poi ci sono almeno 2 categorie: sulla programmazione e sul turismo in Indonesia. Siamo interessati al primo.
Consente di prendere un piccolo testo su Java (forse da libri o da Wikipedia). Quindi, assumiamo alcune soglie (ad esempio, 0,7). Quindi confrontiamo il nostro testo con pagine diverse (uno dei modi più veloci è usare l'algoritmo Classic Vector Space Model, puoi implementarlo tu stesso o trovarne l'implementazione in google). Quindi confronta i risultati con la soglia e filtra i risultati deboli.
Chi utilizza l'algoritmo di Bayes: non è male approccio imo. Ma dovresti "insegnare" il tuo algoritmo con molta attenzione perché diversi input negativi possono guastare l'intero lavoro.
Lasciatemi spiegare. L'input per l'algoritmo di Bayes è testo con la tua parola di marca. L'output è probabilità [0 .. 1] che il tuo testo riguarda il tuo marchio ma non di qualcos'altro. In pratica questo algoritmo ti dà molto spesso risultati vicini a 0 o vicino a 1 e rari valori di ritorno tra 0,2 e 0,8. Significa che l'algoritmo è molto sensibile alle piccole variazioni e 1 o 2 parole nel testo di 100 parole possono influire seriamente sul risultato.
Ancora non vedo come VSM sia meglio di Bayes. Convinci, per favore? –
In realtà, è un buon motivo per alcuni esperimenti. Ho già implementato entrambi gli algoritmi e non è affatto difficile (puoi anche scaricare alcune implementazioni esistenti). Preparare i dati di input di test (ma non dovrebbe essere piccolo) e verificare quale algoritmo soddisfa meglio le vostre esigenze. – Roman