23

Domandaoccorrenze Conte di dato carattere per cella

Per esempio se volessi contare il numero di N s in una colonna di stringhe come posso fare questo in Google Spreadsheets in una base per cella (vale a dire un formula che punta a una cella alla volta che posso trascinare verso il basso)?

String/Count table

Sfondo

Sto avendo decidere una soglia -min-overlap <integer> per un programma chiamato TOMTOM ** che si confronta somiglianza tra PWM *** di piccoli motivi di DNA ****, N è un'espressione regolare per qualsiasi combinazione lineare delle lettere A, C, G e T. Sarebbe bello se potessi avere un'idea della distribuzione di lunghezze non N dei miei motivi DNA per aiutarmi a informarmi di un valore corretto -min-overlap <integer> per TOMTOM.

e qui ci sono alcuni esempi reali:

enter image description here

** TOMTOM è uno strumento per il confronto di un motivo di DNA ad un database di motivi noti. Vedi here per maggiori informazioni.

*** PWM sta per montaggio Peso Matrix:

  • According to Wiki: Una matrice peso posizione (PWM), noto anche come matrice posizione specifica peso (PSWM) o matrice di punteggio posizione specifica (PSSM), è una rappresentazione comunemente usata di motivi (modelli) in sequenze biologiche.
  • According to this paper, potrebbe essere definito come:

matrice peso montaggio (PWM) o sono ampiamente utilizzati per modelli PWM simili rappresentano opzioni del DNA-legame di proteine ​​(Stormo, 2000). In questi modelli , una matrice viene utilizzata per rappresentare il sito TF-binding (TFBS), con ogni elemento che rappresenta il contributo all'affinità complessiva da un nucleotide nella posizione corrispondente. Un'assunzione inerente allo standard dei modelli PWM tradizionali è l'indipendenza dalla posizione; che è, si suppone che il contributo di diverse posizioni di nucleotidi all'interno di un TFBS all'affinità di legame generale sia additivo. Sebbene questa approssimazione sia ampiamente valida, tuttavia, non contiene per diverse proteine ​​(Man & Stormo, 2001; Bulyk et al, 2002). Per migliorare la modellazione quantitativa, modelli PWM sono state estese a includere ulteriori parametri, quali le caratteristiche k-mer, per tenere conto dipendenze posizione all'interno TFBSs (Zhao et al, 2012; Mathelier & Wasserman, 2013; Mordelet et al, 2013; Weirauch et al, 2013; Riley et al, 2015). Le interdipendenze tra le posizioni dei nucleotidi hanno un'origine strutturale . Ad esempio, le interazioni di impilamento tra coppie di basi adiacenti formano la struttura del DNA tridimensionale locale. Le TF hanno le preferenze per la conformazione del DNA dipendente dalla sequenza, che viene chiamata lettura del DNA (Rohs et al, 2009, 2010).

O, più contemporaneamente:

Sulla base di questa logica, un approccio alternativo per aumentare modelli tradizionali PWM è l'inserimento di DNA caratteristiche strutturali. I modelli di specificità del legante TF-DNA che incorporano queste caratteristiche di forma del DNA hanno raggiunto livelli di prestazioni paragonabili ai modelli che incorporano le caratteristiche k-mer di ordine superiore, mentre richiedono un numero minore di parametri minore (Zhou et al, 2015). Precedentemente ha rivelato l'importanza della lettura della forma del DNA per i membri delle famiglie di base helix-loop-helix (bHLH) e homeodomain TF (Dror et al, 2014; Yang et al, 2014; Zhou et al, 2015). Siamo anche stati in grado, per Hox TFs, di identificare quali regioni nei TFBS usavano la lettura del DNA, dimostrando la potenza dell'approccio a rivelare intuizioni meccanicistiche nel riconoscimento TF-DNA (Abe et al, 2015). Questa capacità era ampiamente dimostrata per solo due famiglie di proteine, a causa della mancanza di dati di legame TF-DNA di alta qualità su grande scala . Con la recente abbondanza di misurazioni ad alto rendimento del legame proteina-DNA, , è ora possibile analizzare il ruolo della lettura della forma del DNA per molte famiglie TF .

**** motivo DNA: wiki: In genetica, un motivo sequenza è un nucleotide o un modello di sequenza amino-acido che è diffusa e ha, o è ipotizzato di avere, un significato biologico. Per le proteine, un motivo di sequenza si distingue da un motivo strutturale, un motivo formato dalla disposizione tridimensionale di amminoacidi, che potrebbe non essere adiacente.

+2

Condividere la vostra ricerca aiuta tutti. Dicci cosa hai provato e perché non ha soddisfatto le tue esigenze. Questo dimostra che ti sei preso del tempo per cercare di aiutare te stesso, ci salva dal ribadire risposte ovvie e soprattutto ti aiuta a ottenere una risposta più specifica e pertinente! Vedi anche [come chiedere] (http://stackoverflow.com/help/how-to-ask) –

+0

@ Okuma.Scott aggiornato :) –

+1

@pnuts hmm sto provando a decidere in realtà ... perché sia ​​il tuo sia Le opere di JPV, penso che lo otterrete dal momento che il vostro ha un senso più intuitivo –

risposta

29

Un'alternativa per una cella alla volta (formula da copiare verso il basso):

=len(A2)-len(SUBSTITUTE(A2,"N","")) 
+3

Funziona anche in Arrayformula: = ArrayFormula (len (A2: A7) -len (SOSTITUTO (A2: A7, "N", ""))) – JPV

+1

@JPV TQ!Questo è il momento in cui mi sento obbligato a confessare che inizialmente ho interpretato erroneamente il tuo "output N count per l'intera gamma" (o non avrei offerto A né menzionato "SUM (...)"!) - ma è un alternativa che funziona senza matrice in Excel, quindi potrebbe interessare qualcuno un giorno. – pnuts

+2

nessun problema :-). – JPV

9

Non so se questo è di aiuto andando Ma diciamo che avete quelle stringhe in serie A2: A6 e si entra

=ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", ""))) 

in B2, che dovrebbe uscita contare il N per l'intera gamma.

+1

Questo funziona, ma non so perché .. ma sembra interessante .. +1 –

+1

Ohh .. Utilizza l'espressione regolare per sostituire i caratteri non N con vuoto! –

+1

@AfrizaNArief: ;-) – JPV

Problemi correlati