Results 1 - 10
of
13
Метрики на основе оптимального выравнивания биомолекулярных последовательностей * 1 Введение
"... 1 ФГБОУ ВО Тульский государственный университет, Россия, г. Тула, пр. Ленина, д. 92 2 ФИЦ Информатика и управление РАН, Россия, г. Москва, ул. Вавилова, д. 44/2 Для биомолекулярных последовательностей наиболее адекватным является так на-зываемый беспризнаковый подход, основанный на сравнении послед ..."
Abstract
- Add to MetaCart
(Show Context)
1 ФГБОУ ВО Тульский государственный университет, Россия, г. Тула, пр. Ленина, д. 92 2 ФИЦ Информатика и управление РАН, Россия, г. Москва, ул. Вавилова, д. 44/2 Для биомолекулярных последовательностей наиболее адекватным является так на-зываемый беспризнаковый подход, основанный на сравнении последовательностей (из-мерении их сходства или несходства), минуя явное вычисление векторов их признаков. С точки зрения передовых методов анализа данных наиболее предпочтительным являет-ся использование в качестве способа сравнения меры несходства, обладающей свойства-ми метрики. С другой стороны, с точки зрения молекулярной биологии важно, чтобы способ сравнения учитывал биологические особенности объектов сравнения. Кроме то-го, в условиях обработки больших объемов данных важно, чтобы способ сравнения был эффективен с вычислительной точки зрения и позволял в дальнейшем применять удоб-ные и эффективные методы анализа данных, такие как метод опорных векторов (SVM support vector machine). Известно множество способов сравнения биомолекулярных по-следовательностей, однако ни один из них не обладает всеми требуемыми свойствами. В данной работе предлагается достаточно простой способ построения метрик на множе-стве биомолекулярных последовательностей. Предлагаемый метод, как и традиционные общепринятые способы сравнения биомолекулярных последовательностей (такие, как ал-горитм Нидлмана-Вунша и Смита-Ватермана), основывается на поиске их оптимального парного выравнивания и механизме мутационных замен аминокислот в ходе эволюции, но отличается от них используемым критерием оптимальности, типом оптимизации и спо-собом сравнения элементов последовательностей. Приводится доказательство того, что предложенные меры несходства обладают свойствами метрики. Это позволяет использо-вать их в передовых методах анализа данных, сохраняющих вычислительные достоинства SVM, но не требующих введения признаков последовательностей и(или) скалярного про-изведения. Результаты экспериментов подтверждают адекватность предложенных метрик прикладным задачам на примере классификации мембранных гликопротеинов. Ключевые слова: метрики; сравнение последовательностей; оптимальное парное вы-равнивание; биомолекулярные последовательности; беспризнаковый подход DOI: 10.21469/22233792.2.3.03 Введение Биомолекулярные последовательности, к которым относят нуклеотидные и амино-кислотные последовательности, образующие полимерные молекулы белка, являются ти-повыми объектами анализа данных. Основной целью их анализа является определение заключающейся в них генетической информации и функций, которые они выполняют в организме. Результаты анализа биомолекулярных последовательностей крайне важны и находят применение в медицине, фармакологии, косметологии, биотехнологии, сельском * Работа выполнена при финансовой поддержке РФФИ, проект №15-07-08967. Машинное обучение и анализ данных, 2016. Том 2, № 3.
COMPUTATIONAL MODELS OF FUNCTION AND EVOLUTION OF CIS-REGULATORY SEQUENCES BY
"... Gene expression is controlled by regulatory DNA sequences, often called cis-regulatory modules or CRMs in higher organisms. Even though complete genomes are available in many species, a catalog of CRMs is far from complete. Meanwhile, how basic building blocks of CRMs, called transcription factor bi ..."
Abstract
- Add to MetaCart
(Show Context)
Gene expression is controlled by regulatory DNA sequences, often called cis-regulatory modules or CRMs in higher organisms. Even though complete genomes are available in many species, a catalog of CRMs is far from complete. Meanwhile, how basic building blocks of CRMs, called transcription factor binding sites (TFBSs), coordinate to drive gene expression is unclear. My thesis is focused on predicting the location of CRMs in genomes and understanding their function and evolution through computational methods. The first part of my thesis developed a comparative genomic method of CRM prediction. This method is based on a probabilistic model of CRM evolution, capturing the constraint as well as turnover of TFBSs during evolution. Through a statistical approach that marginal-izes hidden variables, the method is able to deal with the uncertainty of sequence alignment and prediction of individual TFBSs, two primary technical hurdles of existing methods. In a related work, I collaborated with a graduate colleague to study the empirical evolutionary pattern of TFBSs, taking advantage of the recently available 12 Drosophila genomes. We found, among other things, that the evolution of binding sites is constrained by the affinities
A Probabilistic Alignment
, 2009
"... a. Assume the TKF91 model of sequence evolution with nucleotide substitution described by the Jukes-Cantor single parameter model. Let parameters be st = 0.2, µt = 0.1, and λt = 0.09. What is the likelihood of observing homologous sequences s1 = AG and s2 = G? At first sight it may appear that we ar ..."
Abstract
- Add to MetaCart
(Show Context)
a. Assume the TKF91 model of sequence evolution with nucleotide substitution described by the Jukes-Cantor single parameter model. Let parameters be st = 0.2, µt = 0.1, and λt = 0.09. What is the likelihood of observing homologous sequences s1 = AG and s2 = G? At first sight it may appear that we are missing information if we are to apply the equations in [1] (observe there is a typo in the expression for β(t) as the t in the denominator should be part of the exponent – this is correct in the lecture overheads), as we do not have values of λ and µ separated from t. And e.g. β(t) will vary with a reciprocal rescaling of birth/death parameters vs. time as λ and µ appear in the denominator without being multiplied by t. So simultaneously increasing λ and µ by a factor of x while decreasing t with the same factor will not change λt and µt, but will decrease β(t) by a factor of x. However, whenever we use β(t) in the equations it is multiplied by either λ or µ, cancelling out this effect. Moreover, the only other places where λ and µ occur unmultiplied by t are as multiplicands of β(t). Hence, the end result is independent of a reciprocal rescaling. This shouldn’t surprise as you should be used to inseparability of time and rates by now. There are five possible alignments postulating s2 as a descendant of s1:
Si,j =
, 2011
"... Define a similarity score w on the four nucleotides such that ⎪ ⎨ 10 if X = Y w(X,Y) = 2 if X ̸ = Y but X can be changed to Y by a transition 0 otherwise Furthermore, let an indel have a dissimilarity of g = 10. To find the maximum ‘similarity ’ between two sequences, s1 = CTAGGA and s2 = TTGTG, (t ..."
Abstract
- Add to MetaCart
Define a similarity score w on the four nucleotides such that ⎪ ⎨ 10 if X = Y w(X,Y) = 2 if X ̸ = Y but X can be changed to Y by a transition 0 otherwise Furthermore, let an indel have a dissimilarity of g = 10. To find the maximum ‘similarity ’ between two sequences, s1 = CTAGGA and s2 = TTGTG, (taken over all possible alignments) you should use the recursion Si,j = max{Si−1,j−1 +w(s1[i],s2[j]),Si,j−1 −g,Si−1,j −g} With initial conditions
A Score Based Alignment
, 2008
"... Define a similarity score w on the four nucleotides such that ⎪ ⎨ 10 if X = Y w(X,Y) = 2 if X ̸ = Y but X can be changed to Y by a transition 0 otherwise Furthermore, let an indel have a dissimilarity of g = 10. To find the maximum ‘similarity ’ between two sequences, s1 = CTAGGA and s2 = TTGTG, (t ..."
Abstract
- Add to MetaCart
(Show Context)
Define a similarity score w on the four nucleotides such that ⎪ ⎨ 10 if X = Y w(X,Y) = 2 if X ̸ = Y but X can be changed to Y by a transition 0 otherwise Furthermore, let an indel have a dissimilarity of g = 10. To find the maximum ‘similarity ’ between two sequences, s1 = CTAGGA and s2 = TTGTG, (taken over all possible alignments) you should use the recursion Si,j = max {Si−1,j−1 + w(s1[i],s2[j]),Si,j−1 − g,Si−1,j − g} With initial conditions Si,j = 0 if i = j = 0 − ∞ if i < 0 or j < 0 a. Fill out the following table according to the recursion G T
TABLE OF CONTENT
"... Institutt for informasjons- og medievitenskap Schema evolution with homonymy conflict resolution ..."
Abstract
- Add to MetaCart
(Show Context)
Institutt for informasjons- og medievitenskap Schema evolution with homonymy conflict resolution
Keyword: Evolution models Substitution Limited insertion
, 2013
"... it a r t i c l e i n f o Article history: ..."
(Show Context)
in Bacterial Genomes
"... Abstract We introduce here a gene evolution model which is an extension of the time-continuous stochastic IDIS model (Lèbre and Michel in J. Comput. Biol. Chem. 34:259–267, 2010) to sequence length. This new IDISL (Insertion Deletion Indepen-dent of Substitution based on sequence Length) model gives ..."
Abstract
- Add to MetaCart
(Show Context)
Abstract We introduce here a gene evolution model which is an extension of the time-continuous stochastic IDIS model (Lèbre and Michel in J. Comput. Biol. Chem. 34:259–267, 2010) to sequence length. This new IDISL (Insertion Deletion Indepen-dent of Substitution based on sequence Length) model gives an analytical expression of the residue occurrence probability p(l) at sequence length l depending on stochas-tically independent processes of substitution, insertion, and deletion. Furthermore, in contrast to all mathematical models in this research field, the substitution, inser-tion, and deletion parameters of the IDISL model are independent of each other. For any diagonalizable substitution matrix M, the residue occurrence probability p(l) is given as a function of the eigenvalues of M, the eigenvector matrix of M, a vector r of the residue insertion rates, a deletion rate d (unlike our previous IDIS model), and a vector of the initial residue occurrence probability p(l0) at sequence length l0. As another difference with the classical evolution approaches which mainly focus on sequence alignment, the IDIS class of models allows a mathematical analysis of the behavior of the residue occurrence probability according to either evolution time