Sto provando a rimuovere tutto il codice html/javascript usando bs4, tuttavia, non si sbarazza di javascript. Lo vedo ancora lì con il testo. Come posso aggirare questo?BeatifulSoup4 get_text ha ancora javascript
Ho provato a utilizzare nltk
che funziona correttamente tuttavia, clean_html
e clean_url
verranno rimossi in avanti. C'è un modo per usare le minestre get_text
e ottenere lo stesso risultato?
ho provato guardando queste altre pagine:
BeautifulSoup get_text does not strip all tags and JavaScript
Attualmente sto usando le funzioni deprecate del NLTK.
EDIT
Ecco un esempio:
import urllib
from bs4 import BeautifulSoup
url = "http://www.cnn.com"
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
print soup.get_text()
ho ancora vedere il seguente per la CNN:
$j(function() {
"use strict";
if (window.hasOwnProperty('safaripushLib') && window.safaripushLib.checkEnv()) {
var pushLib = window.safaripushLib,
current = pushLib.currentPermissions();
if (current === "default") {
pushLib.checkPermissions("helloClient", function() {});
}
}
});
/*globals MainLocalObj*/
$j(window).load(function() {
'use strict';
MainLocalObj.init();
});
Come posso togliere i js?
Solo altre opzioni che ho trovato sono:
https://github.com/aaronsw/html2text
Il problema con html2text
è che è veramente veramente lento, a volte, e crea ritardo notevole, che è una cosa NLTK era sempre molto buono con .
Sarebbe di grande aiuto se potessimo vedere (una sezione del) html compresi javascript –
Aggiunto un esempio. – KVISH