【毕业设计】基于be_Bruij图的基因组装算法的设计与开发.doc文档44页在线阅读

格式：word 上传：2022-06-25 01:24:34

《【毕业设计】基于be_Bruij图的基因组装算法的设计与开发.doc文档44页在线阅读》修改意见稿

1、“.....不断迭代得到尽可能长的序列确定值，建立图。这是需要扫描所有数据，将每个长为的拆分成个和稍短的片段，将剩余的片段切成定长的序列本题提供定长为保存在多重集合中，称中的序列为初始序列筛选根据本题提供的数据，本文通过两个步骤的操作筛选序列集合操作设是个序列集合，成为基因组。由测序仪处理形成些小的片段，每个片段长度在。接着去掉些稍长的和稍短的片段，将剩余的片段切成定长的序列本题提供定长为保存在多重集合中，称中的序列为。由测序仪处理形成些小的片段，每个片段长度在。接着去掉些稍长的根据本题提供的数据......”。

2、“.....成为基因初始序列筛选部分内容简介根据本题数据，每个都含有个质量值，该值能反映该的正确率。质量值越高，的正确率越高。长度为的段片段初始序列筛选根据本题提供的数据，本文通过两个步骤的操作筛选序列集合操作设是个序列集合，成为基因组。由测序仪处理形成些小的片段，每个片段长度在。接着去掉些稍长的和稍短的片段，将剩余的片段切成定长的序列本题提供定长为保存在多重集合中，称中的序列为。本题操作的具体内容不需要考虑。操作找个的子集，满足下列条件给定阈值......”。

3、“..... 拼接总体思路将转化成定长的，并将这些存入图中，以备之后查找使用。此时要设定的个重要参数是的长度。选定值之后，要将长度的拆成个。根据定策略，选定个初始，接下来就可以在该为结点开始搜索后继的。搜索时采用贪婪图策略，每步选择在当时看来最优的后继，直到满足事先设定的终止条件，结束条的拼接，接着开始下条的拼接。直到没有合适的初始可供选择，整个拼接过程结束。简述图的建立过程基于图数据结构的之间对比拼接算法可概括下几个步骤。把筛选过得序列集合作为参与比对的库更长把拼接问题转化成图中的欧拉路径问题，不断迭代得到尽可能长的序列确定值，建立图......”。

4、“.....将每个长为的拆分成个，并用所有的所有来累加，建立节点和边都加权的图化简图，连续线性延伸节点合并成为单节点，产生些碱基序列更长的节点遍历图产生。以上是对基于图的算法做了简单介绍。是加上，图是种特殊的加权图，不仅图的及节点上有权值，而且边上也有权值。使用图只能将较短的拼接成较长的，要得到全基因组，还需要的组装过程。六建模与求解问题建模根据新代测序过程，本文建立了如下模型设是个字符串，称之为基因组。取的个副本，然后将每个副本在随机的位置断开，形成些小的字符串，每个片段长度小于个字符。接着出去些稍长的和烧断的字符串片段......”。

5、“.....称中的字符创为。字符串上的每个字符都来自字符集每个字符就是个碱基。为了方便运算，字符集与二进制字符集映射，这些字符串的长度都是，考虑到新代测序技术的范围是。模型求解基于对比法的拼接过程用满足集合的所有来构建。给定值后，长度为的个碱基片段。般地，要小于每条的长度，故每条中含有数量。个的第个碱基在个中出现的位置记为，的值从开始，最大为。步骤，选取初始。拼接时，时候先要选定个初始。初始要满足以条件给定阈值，要是该至少出现在条上该出现在每条上的为。只要有出现在条上的为，该就可以开始参与拼接。这时，上会有初始的个碱基，如图所示......”。

6、“.....这些会影响到初始的扩展过程。称图为的拼接过程图。以后每当有开始参与拼接时，就要将这些加入到该图中，每当有结束拼接时，就要将这些从该图中删掉。此时，初始为当前，初始出现在条中的为该当前，记为，现在所有的当前为。至此第步骤结束，进入第二步骤。步骤二，选取后继。接着要选取当前的后继。后继至少要满足如下条件后继的前碱基与当前的后个碱基相同上加个碱基。本身是个带头尾指针的单链表，该操作可在常数时间内完成，所需空间为，其中是的最大长度。若后继为空，则条拼接结束，此时要将其保存在文件中，并释放所占空间。此操作可在时间，空间内完成。图中成功的删除......”。

7、“.....空间内完成。这章介绍了整个系统流程。开始给出了系统流程图，接下来详细叙述了主要模块。其中，该系统有两大主要模块，分别是图的建立模块和构建模块。在构建模块中又有两个主要过程，分别是决策表更新过程与后继选取过程。本章详细分析了这些模块，并给出了时间复杂度与空间复杂度。七模型二问题分析本题题目提供全长约为，个碱基对的细菌人工染色体，采用新代的测序仪进行测序。附件提供了筛选好的定长数据文件。使用第题设计的基于图的组装算法对数据进行组装，并对结果进行误差分析。数据分析由测序策略可知......”。

8、“.....故选用的数据带入算法进行组装，可以作为校准链备用。分析文件可知，本题数据已满足如下条件序列片段被切成固定长度经过复制，原基因至少有个副本所有片段上的碱基都已经被识别出来，不存在未知碱基由于技术限制，本文不对质量数进行讨论，假设中的所有片段满足正确率要求。带入模型求解建立图将值定为。把上述文件中的序列存入库中，开始建立条目的数据结构和条目的数据结构。预读数据，逐条读取数据，每条进行升序保存生成该上所有共个，统计这些出现的次数，填写结构中的字段。如图所示，为相关代码片段。相关数据录入程序源代码见附录。遍历图，根据上步统计的数量......”。

9、“.....依次读取每个，填写数组中的第行，填好之后把值加。将碱基替换成位二进制数。，。模型求解由于数据非常庞大，演算拼接过程不能完整的展示，接下来将列举段算法拼接的过程初始定为即，该出现在条上，且出现在每条上的为这四条开始参与拼接。如图为比对拼接相关代码此时为，为，为初始后继当前候选后继情况如下图初始候选后继候选后继候选后继候选后继选定后继为，即进行下段拼接，此时为，前驱结点为，为此时增加了个碱基初始后继重复步骤......”。

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。