一、作用
现在基因测序越来越火,但还是得提醒一下:认清形势,务必注意高科技骗子。
基因与疾病密切相关,但大多数病是多基因病,只有很少一部分病是直接能够被基因决定性影响的。在关注自身健康的同时,基因检测是必须的,但是更重要的还在于自己的生活习惯,好的生活习惯加上比较健康的基因状态是身体长期健康的前提。
当然,必须的承认,癌症越来越多的威胁着人类健康。而且基因状态对于癌症的发生关系密切,但是,需要提出的是,诱因很大一个程度来自于环境。如果患了癌症,监控基因状态,进行基因治疗是一个非常好的思路;然而预防癌症,更要关注环境和生活习惯,资金充足的可以间隔一段时间进行基因体检,这也是比较好的选择。
因为基因在某种程度上参与这各种疾病,因此人类基因组测序必须完成,很高兴的是,已经结束了。但是,仍然有很多物种的基因组测序尚待完成。为了理解进化,理解物种多样性和理解基因的性格,我们需要检测各种物种的基因组,这也是生物多样性所要求的。
二、测序方法学
1、技术。从技术发展上来讲,如果明知技术发展有限,而且后续技术肯定有跨越式发展时,请不要做太多傻事。可能你很辛苦的做了大量工作,最后,技术改进了,发现你的结果都不能用的时候,你能坐在那里哭吗?生物技术,向来都是后来者居上,谁有最先进的技术,谁就走在最前沿,没有永恒的前沿。
2、测序方法:
链终止法测序——非常精妙而不利于大型操作的技术。
化学降解法测序——同上,剧毒物比较多。
自动化测序——加荧光标记,人类更轻松,仪器更繁忙,时间的问题。
非常规DNA测序
3、测序策略:
随机测序——鸟枪法。测序小片段,依重叠区域重建序列。
限制测序——水稻基因组测序所选策略。先进行各个BAC克隆的随机测序,再进行序列组装。
指导测序——构建基因组质粒文库,利用分子标记将大片段排成重叠的克隆群(Contig), 分别小片段测序后拼装.
重要区域优先测序,EST测序(mRNA-cDNA文库测序)等。
三、对序列的认识:
1、重复性。有单一序列,也有中度重复序列和高度重复序列,如何分析其重复的价值有待分别考量。
2、内含子与外显子。EST测序可以检测表达的基因序列,而内含子序列的测定及其价值的考量也是问题。
对于基因:
1、相似基因。功能相同或可以相互替代时,成为基因家族(一群具有一致的或相似顺序的基因,有的还担负类似的生物学功能, 可以相互补偿)。分析此类基因,需要将序列变为矩阵。功能丧失或者完全改变时,称为假基因,可能因为某些核苷酸或片段重复、某些修饰或残缺而导致。
2、重叠基因。两个基因有重叠区域或者重叠序列。可以一个基因包含另一个,也可以交叉部分序列,即重叠部分有两个蛋白的信息。
四:序列问题
1、序列拼接问题。
全基因族鸟枪法测序带来的问题:数据量极大,大量重复序列造成拼接途径的不确定。
对新算法、软件的需求:
能充分利用正反向测序的配对信息, 避免重复序列造成的错误拼接。
能处理数以百万甚至千万计的数据:程序并行化,高效率比对,能逐步拼接。
数学问题:
消除测序错误。
识别重复序列——覆盖深度模型。
识别重叠区域以及拼接——图论等。
2、序列诠释问题。
1)基因识别——寻找基因。
(1)根据开放读码框预测基因:ORF预测软件
起始密码子ATG
Kozak规则:第一个ATG侧翼序列的碱基分布所满足的统计规律。
定义:A 1,T2,G3.
则: 第4位的偏好碱基为G;ATG的5’端约15bp范围的侧翼序列内不含碱基T;在-3,-6和-9位置,G是偏好碱基;除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。
可以进行信号肽分析:
首先证实含完整mRNA 5’端的Contig翻译为蛋白序列;
然后用SignalP软件对前50个氨基酸序列(从第一个ATG对应的甲硫氨酸Met开始)进行评估,如果SignalP分析给出正面结果,则测试序列有可能为信号肽; 假如在该测试序列的第一个Met 5’端存在终止密码子,该序列为信号肽的可能性更大。
终止密码子TAA TAG TGA
GC% = 50% 终止密码子每 64 bp出现一次;
GC% > 50% 终止密码子每100-200 bp 出现一次;
多数基因 ORF 均多于50个密码子,因此最可能的选择应该是 ORF 不少于100 个密码子。
3’端确认
主要根据Poly(A)尾序列。若测试Contig不含Poly(A)序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。
外显子-内含子边界
内含子的5‘端或称供体位(donor site)常见的顺序为 5’-AG↓GTTAAGT-3’;
3’端又称受体位(acceptor site), 多为5‘PyPyPyPyPyPyCAG-3’(“Py”嘧啶核苷酸,T或C);
上游控制顺序
几乎所有基因(或操纵子)上游都有调控序列,它们可与DNA结合蛋白作用,控制基因表达。CpG岛。
(2)mRNA的5’端即转录起始位点区
通过同源性比较来预测mRNA的5’端,最常用的与转录起始位点相关的数据库是真核启动子数据库(The TRADAT Project , Eukaryotic Promoter Database, EPD. www.epd.unil.ch/ )。
(3)同源查询
通过已存入数据库中的基因顺序与待查的基因组序列进行比较,从中查找可与之匹配的碱基顺序及其比例,用于界定基因的方法称为同源查询。
A DNA序列某些片段完全相同;
B 开放读码框(ORF)排列类似,如有长外显子;
C 开放读码框翻译成氨基酸序列的相似性;
D 模拟多肽高级结构相似
2)上游控制序列识别——序列比对。
没有评论:
发表评论