1、“.....不断迭代得到尽可能长的序列 确定值,建立图。这是需要扫描所有数据,将每个长为 的拆分成个和稍短的片段,将剩余的片段切成定 长的序列本题提供定长为保存在多重集合中,称中的序列为 初始序列筛选 根据本题提供的数据,本文通过两个步骤的操作筛选序列集合 操作 设是个序列集合,成为基因组。由测序仪处理形成些小的片段, 每个片段长度在。接着去掉些稍长的和稍短的片段,将剩余的片段切成定 长的序列本题提供定长为保存在多重集合中,称中的序列为。由测序仪处理形成些小的片段, 每个片段长度在。接着去掉些稍长的根据本题提供的数据......”。
2、“.....成为基因 初始序列筛选 部分内容简介 根据本题数据,每个都含有个质量值,该值能反映该的正确率。质量值越高,的正确率越高。 长度为的段片段 初始序列筛选 根据本题提供的数据,本文通过两个步骤的操作筛选序列集合 操作 设是个序列集合,成为基因组。由测序仪处理形成些小的片段, 每个片段长度在。接着去掉些稍长的和稍短的片段,将剩余的片段切成定 长的序列本题提供定长为保存在多重集合中,称中的序列为。本题 操作的具体内容不需要考虑。 操作 找个的子集,满足下列条件 给定阈值......”。
3、“..... 拼接总体思路 将转化成定长的,并将这些存入图中,以备之后查 找使用。此时要设定的个重要参数是的长度。选定值之后,要将长度的 拆成个。 根据定策略,选定个初始,接下来就可以在该为结点开始搜索后 继的。搜索时采用贪婪图策略,每步选择在当时看来最优的后继,直到 满足事先设定的终止条件,结束条的拼接,接着开始下条的拼接。 直到没有合适的初始可供选择,整个拼接过程结束。 简述图的建立过程 基于图数据结构的之间对比拼接算法可概括下几个步骤。 把筛选过得序列集合作为参与比对的库 更 长 把拼接问题转化成图中的欧拉 路径问题,不断迭代得到尽可能长的序列 确定值,建立图......”。
4、“.....将每个长为 的拆分成个,并用所有的所有来累加,建立节点和边都 加权的图 化简图,连续线性延伸节点合并成为单节点,产生些碱基序 列更长的节点 遍历图产生。 以上是对基于图的算法做了简单介绍。是加上,图是种特 殊的加权图,不仅图的及节点上有权值,而且边上也有权值。使用图只能将 较短的拼接成较长的,要得到全基因组,还需要的组装过程。 六建模与求解 问题建模 根据新代测序过程,本文建立了如下模型设是个字符串,称之为基因组。 取的个副本,然后将每个副本在随机的位置断开,形成些小的字符串,每 个片段长度小于个字符。接着出去些稍长的和烧断的字符串片段......”。
5、“.....称中的字符创为。字符串上的每 个字符都来自字符集每个字符就是个碱基。为了方便运算,字符集与二进 制字符集映射,这些字符串的长度都是,考虑到新代测序技术的范围是 。 模型求解 基于对比法的拼接过程 用满足集合的所有来构建。给定值后,长度为的个碱基片段 。般地,要小于每条的长度,故每条中含有数量。 个的第个碱基在个中出现的位置记为,的值从开始,最大 为。 步骤,选取初始。 拼接时,时候先要选定个初始。初始要满足以条件 给定阈值,要是该至少出现在条上 该出现在每条上的为。 只要有出现在条上的为,该就可以开始参与拼接。这时, 上会有初始的个碱基,如图所示......”。
6、“.....这些会影响到初始的扩展过程。 称图为的拼接过程图。以后每当有开始参与拼接时,就要将这些 加入到该图中,每当有结束拼接时,就要将这些从该图中删掉。此时,初始 为当前,初始出现在条中的为该当前,记为, 现在所有的当前为。至此第步骤结束,进入第二步骤。 步骤二,选取后继。 接着要选取当前的后继。后继至少要满足如下条件 后继的前碱基与当前的后个碱基相同 上加个碱基。本身是 个带头尾指针的单链表,该操作可在常数时间内完成,所需空间为,其中 是的最大长度。若后继为空,则条拼接结束,此时要将其保存 在文件中,并释放所占空间。此操作可在时间,空间内完成。 图中成功的删除......”。
7、“.....空间内完成。 这章介绍了整个系统流程。开始给出了系统流程图,接下来详细叙述了主要模 块。其中,该系统有两大主要模块,分别是图的建立模块和构建模 块。在构建模块中又有两个主要过程,分别是决策表更新过程与后继选 取过程。本章详细分析了这些模块,并给出了时间复杂度与空间复杂度。 七模型二 问题分析 本题题目提供全长约为,个碱基对的细菌人工染色体,采用新代的 测序仪进行测序。附件提供了筛选好的定长数据文件。使用第题设 计的基于图的组装算法对数据进行组装,并对结果进行误差分析。 数据分析 由测序策略可知......”。
8、“.....故选用的数据带入 算法进行组装,可以作为校准链备用。分析文件可知,本题数据已满足如 下条件 序列片段被切成固定长度 经过复制,原基因至少有个副本 所有片段上的碱基都已经被识别出来,不存在未知碱基 由于技术限制,本文不对质量数进行讨论,假设中的所有片段满足正 确率要求。 带入模型求解 建立图 将值定为。把上述文件中的序列存入库中,开始建立条目的 数据结构和条目的数据结构。预读数据,逐条读取数据,每条进行 升序保存生成该上所有共个,统计这些出现的次数, 填写结构中的字段。如图所示,为相关代码片段。相关数据录入程序源代码 见附录。 遍历图,根据上步统计的数量......”。
9、“.....依次读取每个,填写数组中的第行,填好之后把 值加。 将碱基替换成位二进制数。,。 模型求解 由于数据非常庞大,演算拼接过程不能完整的展示,接下来将列举段算法拼接的 过程 初始定为即,该出现在条上,且 出现在每条上的为这四条开始参与拼接。如图为比对拼接相 关代码 此时为,为,为 初始 后继 当前候选后继情况如下图 初始 候选后继 候选后继 候选后继 候选后继 选定后继为,即进行下段拼接,此时为,前 驱结点为,为此时增加了个碱基 初始 后继 重复步骤......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。