Mi trovo a dover imparare cose nuove tutto il tempo. Ho cercato di pensare a modi in cui avrei potuto accelerare il processo di apprendimento di nuove materie. Ho pensato che sarebbe stato bello scrivere un programma per analizzare un articolo di Wikipedia e rimuovere tutto tranne le informazioni più preziose.Riassumere un articolo di Wikipedia
Ho iniziato prendendo l'articolo di Wikipedia su PDFs ed estraendo le prime 100 frasi. Ho dato a ciascuna frase un punteggio basato sul valore che ritenevo fosse. Ho finito per creare un file seguendo questo formato:
<sentence>
<value>
<sentence>
<value>
etc.
Ho poi analizzati questo file e cercato di trovare varie funzioni che avrebbero correlare ogni frase con il valore che avevo dato. Ho appena iniziato a conoscere l'apprendimento automatico e le statistiche e quant'altro, quindi sto facendo un sacco di problemi qui intorno. Questo è il mio ultimo tentativo: https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py.
Ho provato un po 'di roba che non sembra produrre molto di alcuna correlazione - lunghezza media delle parole, posizione nell'articolo, ecc. Praticamente l'unica cosa che ha prodotto una qualche relazione utile è stata la lunghezza della stringa (in particolare, il conteggio del numero di lettere minuscole "e" sembra funzionare meglio). Ma sembra un po 'schifoso, perché sembra ovvio che frasi più lunghe potrebbero più facilmente contenere informazioni utili.
A un certo punto ho pensato di aver trovato alcune funzioni interessanti, ma poi quando ho provato a rimuovere i valori anomali (con il solo conteggio dei quartili interni), si è scoperto per produrre risultati peggiori, semplicemente restituendo 0 per ogni frase. Questo mi ha fatto pensare a quante altre cose potrei sbagliare ... Mi sto anche chiedendo se questo sia anche un buon modo per affrontare questo problema.
Pensi che sia sulla strada giusta? O è solo una commissione da scemo? Ci sono delle vistose carenze nel codice collegato? Qualcuno sa di un modo migliore per affrontare il problema di riassumere un articolo di Wikipedia? Preferirei avere una soluzione rapida e sporca rispetto a qualcosa di perfetto che richiede molto tempo per essere assemblato. Qualsiasi consiglio generale sarebbe anche il benvenuto.
Successivamente, vorrai che usiamo newspeak per rendere l'articolo scansionato ancora più breve;) – tylerthemiler
Sei chiaramente troppo vecchio. Lascia questo tipo di cose ai 16 anni http://www.wired.com/gadgetlab/2011/12/summly-app-summarization/ – ColinE
:) Summly sembra interessante. Non riesco a eseguirlo sul mio ipod, ma posso leggere le recensioni. Erano piuttosto misti. Ho avuto l'impressione che non funzioni così bene. –