2009-08-20 13 views
6

Ho appena messo le mani su StackOverflow data dump e sono deluso nel vedere che il campo Corpo dei post è in HTML anziché Markdown. Sospetto che ci sia Markdown nel database originale perché è quello che vedo se provo a modificare una risposta.Qual è il modo più semplice per convertire un dump di dati SO da HTML a Markdown?

Desidero recuperare Markdown da un ampio set di risposte. Elaborerò centinaia di voci in modalità batch, utilizzando sia strumenti da riga di comando o una sorta di libreria Lua o C, quindi uno strumento interattivo come lo wmd Markdown editor non è adatto. La gente può dire quali strumenti sono disponibili per aiutarmi a recuperare Markdown da un dump di dati StackOverflow?


(domanda correlati, non un duplicato:. Convert HTML back to Markdown within wmd)

risposta

5

Markdownify converte HTML Markdown.

vedi anche: MetaSO/Can Markdown be recovered from the SO data dump?

+0

Norman dovrebbe sapere, ha chiesto che la domanda troppo! :) –

+0

Quando si tratta di usare PHP sulla riga di comando, sono un troglodita. Non riesco a capire dal manuale se c'è una funzione di libreria per leggere l'intero contenuto di un file. Dio_read (STDIN) è sulla strada giusta? –

+0

Se si desidera leggere il contenuto di un file, ci sono molti modi: una semplice funzione che lo è 'file_get_contents();' – Sampson

Problemi correlati