2013-02-05 11 views
10

Operiamo in un URL shortener, durante l'ultima settimana o così abbiamo cominciato a vedere un sacco di richieste strane per {normal url}/no_facebook_preview_picture.jpg da IP Facebook di proprietà e l'user agent facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php)richieste di Facebook per {url} /no_facebook_preview_picture.jpg su 404 collegamenti

Se pubblico un normale link al nostro sito sul mio muro (impostato come Only Me in modo da poter testare) ottengo la seguente voce nel nostro registro di accesso

66.220.152.6 - - [05/Feb/2013:16:31:36 +0000] "GET /44_U HTTP/1.1" 200 1314 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-" 

Tuttavia, se vi posto un link che restituisce 404 o 410 (link spam rimosso dopo la creazione) Prendo questo

69.171.237.15 - - [05/Feb/2013:16:49:16 +0000] "GET /notexistURL HTTP/1.1" 404 1319 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-" 

poi nel giro di un'ora o giù di lì

173.252.110.113 - - [05/Feb/2013:17:15:15 +0000] "GET /notexistURL/no_facebook_preview_picture.jpg HTTP/1.1" 404 0 "-" "facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php)" "-" 

Un WhoIs di quel IP riporta

NetName FACEBOOK-INC 
NetHandle NET-173-252-64-0-1 

quindi sono sicuramente Facebook IP.

Stiamo ricevendo circa 10-20 richieste come questa al giorno, tutte identiche. Possiamo recuperare solo 7 giorni di file di log, ma queste richieste stavano accadendo 7 giorni fa.

Ho testato collegamenti unici, quindi non c'è altro modo per trovare quel collegamento. Io personalmente non uso più tanto Facebook, e tutti tranne i miei link di prova sono stati creati/pubblicati da altri utenti ma riconosco tutte le applicazioni collegate al mio account Facebook e non c'è nulla di insolito quindi non penso che questa sia una terza parte App (i in grado di fornire un elenco, se necessario, ma sono tutte le grandi applicazioni nome)

Durante il mio esame dei file di registro, Facebook non sembra nemmeno di essere la creazione queste richieste in modo intelligente, è solo attaccare alla cieca la stringa /no_facebook_preview_picture.jpg alla fine degli URL, anche con stringhe di query. Per esempio;

69.171.228.114 - - [05/Feb/2013:17:19:13 +0000] "GET /iAmNotARealURL1234777?ref=fb&cows_go=moo HTTP/1.1" 404 1118 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-" 
69.171.228.114 - - [05/Feb/2013:17:19:13 +0000] "GET /iamnotarealurl1234777 HTTP/1.1" 404 1118 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-" 
173.252.103.4 - - [05/Feb/2013:17:44:41 +0000] "GET /iAmNotARealURL1234777?ref=fb&cows_go=moo/no_facebook_preview_picture.jpg HTTP/1.1" 404 1118 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-" 

Google sembra per visualizzare un sacco di risultati casuali, per lo più da creatori di collegamento, ma non sono riuscito a trovare alcuna informazione su ciò che queste richieste siano.

Quali sono queste richieste? Per cosa serve Facebook? Si tratta di un errore nella nostra applicazione o queste richieste possono essere tranquillamente ignorate?

Aggiornamento:

Alcuni giorni abbiamo ora stiamo ottenendo 2-3 centinaio di colpi per questi URL

[[email protected] nginx]$ for DAYLOG in `find ./ | grep "dftbashort.log-"`; do COUNT=`cat $DAYLOG | grep no_facebook_preview_picture | wc -l`; echo "${DAYLOG} has ${COUNT} occurences"; done 
./dftbashort.log-20130201 has 0 occurences 
./dftbashort.log-20130130 has 2 occurences 
./dftbashort.log-20130129 has 2 occurences 
./dftbashort.log-20130128 has 2 occurences 
./dftbashort.log-20130202 has 378 occurences 
./dftbashort.log-20130207 has 222 occurences 
./dftbashort.log-20130205 has 257 occurences 
./dftbashort.log-20130209 has 178 occurences 
./dftbashort.log-20130131 has 2 occurences 
./dftbashort.log-20130203 has 266 occurences 
./dftbashort.log-20130206 has 667 occurences 
./dftbashort.log-20130204 has 12 occurences 
./dftbashort.log-20130127 has 4 occurences 
./dftbashort.log-20130208 has 260 occurences 

Noi non fornisce alcuna open graph meta tag, e la pagina ha nessun contenuto diverso da un reindirizzamento meta/javascript.

risposta

2

Sono abbastanza sicuro che questa è la quota di raschietto cercando di costruire l'anteprima del tuo URL, eseguire l'URL attraverso Facebook's Debug Tool e vedrete che cosa vede Facebook/è alla ricerca di

io non sono sicuro di quello che le richieste di /notexistURL/no_facebook_preview_picture.jpg sono, assumendo che non si abbia nulla nel codice che punta a tale URL; Se dovessi indovinare direi che era una sorta di default o fallback usato quando non ci sono meta tag; probabilmente un bug - Sono abbastanza fiducioso se includi i metatag corretti per Facebook che li afferra e non facciano richieste non valide, con l'ulteriore vantaggio che le condivisioni dei tuoi URL sembrano migliori su Facebook.com e altri siti che supportano gli stessi tag

+0

Sì, comprendo il crawler di Facebook, va bene e otteniamo molti risultati da esso per espandere gli URL che abbiamo abbreviato. Da quando ho creato questo post, riceviamo centinaia di richieste al giorno per questi URL 'no_facebook_preview_picture' = (https://gist.github.com/samarudge/0c4a040c389c5b339278 – Smudge

0

Mi sono imbattuto nella stessa cosa stamattina e ho fatto qualche ricerca. È possibile utilizzare le informazioni allo this site per guidare l'utente nella giusta direzione. Sembra aver aiutato il mio sito a essere ucciso da questi errori.

+0

La tua" risposta "è composta essenzialmente da un collegamento esterno. Per favore [vedi qui] (http://meta.stackexchange.com/questions/8231/are-answers-that-just-contain-links-elsewhere-really-good-answers) per alcune discussioni relative a questi tipi di risposte. .. – Lix

+0

Salve, il proprietario del sito qui può assicurare che AgentPhoenix e io non siamo la stessa persona Il mio post sul blog è specificamente correlato ai siti pubblici di SharePoint, ma alcuni degli screenshot possono essere utili alle persone. upvoted) - usa lo strumento di debug di Facebook e ti dirà cosa sta cercando. Avere buoni metadati per il tuo sito pubblico è positivo per tutti i motori di ricerca, gli agenti di ricerca e Facebook. –

Problemi correlati