Supponiamo di avere alcune frasi di testo che voglio raggruppare usando kmea.Come posso convertire nuovi dati nei componenti PCA dei miei dati di allenamento?
sentences = [
"fix grammatical or spelling errors",
"clarify meaning without changing it",
"correct minor mistakes",
"add related resources or links",
"always respect the original author"
]
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cluster import KMeans
vectorizer = CountVectorizer(min_df=1)
X = vectorizer.fit_transform(sentences)
num_clusters = 2
km = KMeans(n_clusters=num_clusters, init='random', n_init=1,verbose=1)
km.fit(X)
Ora potevo prevedere quale delle classi un nuovo testo cadrebbe in,
new_text = "hello world"
vec = vectorizer.transform([new_text])
print km.predict(vec)[0]
Tuttavia, dicono applico PCA di ridurre di 10.000 funzioni per 50.
from sklearn.decomposition import RandomizedPCA
pca = RandomizedPCA(n_components=50,whiten=True)
X2 = pca.fit_transform(X)
km.fit(X2)
I non posso più fare la stessa cosa per predire il cluster per un nuovo testo perché i risultati del vectorizer non sono più rilevanti
new_text = "hello world"
vec = vectorizer.transform([new_text]) ##
print km.predict(vec)[0]
ValueError: Incorrect number of features. Got 10000 features, expected 50
Quindi, come posso trasformare il mio nuovo testo nello spazio di funzionalità della dimensione inferiore?