2008年10月31日星期五

回归I——基因测序相关问题

一、作用

现在基因测序越来越火,但还是得提醒一下:认清形势,务必注意高科技骗子。

基因与疾病密切相关,但大多数病是多基因病,只有很少一部分病是直接能够被基因决定性影响的。在关注自身健康的同时,基因检测是必须的,但是更重要的还在于自己的生活习惯,好的生活习惯加上比较健康的基因状态是身体长期健康的前提。

当然,必须的承认,癌症越来越多的威胁着人类健康。而且基因状态对于癌症的发生关系密切,但是,需要提出的是,诱因很大一个程度来自于环境。如果患了癌症,监控基因状态,进行基因治疗是一个非常好的思路;然而预防癌症,更要关注环境和生活习惯,资金充足的可以间隔一段时间进行基因体检,这也是比较好的选择。

因为基因在某种程度上参与这各种疾病,因此人类基因组测序必须完成,很高兴的是,已经结束了。但是,仍然有很多物种的基因组测序尚待完成。为了理解进化,理解物种多样性和理解基因的性格,我们需要检测各种物种的基因组,这也是生物多样性所要求的。

二、测序方法学

1、技术。从技术发展上来讲,如果明知技术发展有限,而且后续技术肯定有跨越式发展时,请不要做太多傻事。可能你很辛苦的做了大量工作,最后,技术改进了,发现你的结果都不能用的时候,你能坐在那里哭吗?生物技术,向来都是后来者居上,谁有最先进的技术,谁就走在最前沿,没有永恒的前沿。

2、测序方法:
链终止法测序——非常精妙而不利于大型操作的技术。
化学降解法测序——同上,剧毒物比较多。
自动化测序——加荧光标记,人类更轻松,仪器更繁忙,时间的问题。
非常规DNA测序

3、测序策略:

随机测序——鸟枪法。测序小片段,依重叠区域重建序列。

限制测序——水稻基因组测序所选策略。先进行各个BAC克隆的随机测序,再进行序列组装。

指导测序——构建基因组质粒文库,利用分子标记将大片段排成重叠的克隆群(Contig), 分别小片段测序后拼装.

重要区域优先测序,EST测序(mRNA-cDNA文库测序)等。

三、对序列的认识:
1、重复性。有单一序列,也有中度重复序列和高度重复序列,如何分析其重复的价值有待分别考量。
2、内含子与外显子。EST测序可以检测表达的基因序列,而内含子序列的测定及其价值的考量也是问题。
对于基因:
1、相似基因。功能相同或可以相互替代时,成为基因家族(一群具有一致的或相似顺序的基因,有的还担负类似的生物学功能, 可以相互补偿)。分析此类基因,需要将序列变为矩阵。功能丧失或者完全改变时,称为假基因,可能因为某些核苷酸或片段重复、某些修饰或残缺而导致。
2、重叠基因。两个基因有重叠区域或者重叠序列。可以一个基因包含另一个,也可以交叉部分序列,即重叠部分有两个蛋白的信息。
四:序列问题
1、序列拼接问题。
全基因族鸟枪法测序带来的问题:数据量极大,大量重复序列造成拼接途径的不确定。
对新算法、软件的需求:
能充分利用正反向测序的配对信息, 避免重复序列造成的错误拼接。
能处理数以百万甚至千万计的数据:程序并行化,高效率比对,能逐步拼接。
数学问题:
消除测序错误。
识别重复序列——覆盖深度模型。
识别重叠区域以及拼接——图论等。
2、序列诠释问题。
1)基因识别——寻找基因。
(1)根据开放读码框预测基因:ORF预测软件
起始密码子ATG
Kozak规则:第一个ATG侧翼序列的碱基分布所满足的统计规律。
定义:A 1,T2,G3.
则: 第4位的偏好碱基为G;ATG的5’端约15bp范围的侧翼序列内不含碱基T;在-3,-6和-9位置,G是偏好碱基;除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。
可以进行信号肽分析:
首先证实含完整mRNA 5’端的Contig翻译为蛋白序列;
然后用SignalP软件对前50个氨基酸序列(从第一个ATG对应的甲硫氨酸Met开始)进行评估,如果SignalP分析给出正面结果,则测试序列有可能为信号肽; 假如在该测试序列的第一个Met 5’端存在终止密码子,该序列为信号肽的可能性更大。
终止密码子TAA TAG TGA
GC% = 50% 终止密码子每 64 bp出现一次;
GC% > 50% 终止密码子每100-200 bp 出现一次;
多数基因 ORF 均多于50个密码子,因此最可能的选择应该是 ORF 不少于100 个密码子。
3’端确认
主要根据Poly(A)尾序列。若测试Contig不含Poly(A)序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。
外显子-内含子边界
内含子的5‘端或称供体位(donor site)常见的顺序为 5’-AG↓GTTAAGT-3’;
3’端又称受体位(acceptor site), 多为5‘PyPyPyPyPyPyCAG-3’(“Py”嘧啶核苷酸,T或C);
上游控制顺序
几乎所有基因(或操纵子)上游都有调控序列,它们可与DNA结合蛋白作用,控制基因表达。CpG岛。
(2)mRNA的5’端即转录起始位点区
通过同源性比较来预测mRNA的5’端,最常用的与转录起始位点相关的数据库是真核启动子数据库(The TRADAT Project , Eukaryotic Promoter Database, EPD. www.epd.unil.ch/ )。
(3)同源查询
通过已存入数据库中的基因顺序与待查的基因组序列进行比较,从中查找可与之匹配的碱基顺序及其比例,用于界定基因的方法称为同源查询。
A DNA序列某些片段完全相同;
B 开放读码框(ORF)排列类似,如有长外显子;
C 开放读码框翻译成氨基酸序列的相似性;
D 模拟多肽高级结构相似
2)上游控制序列识别——序列比对。

谈生物信息学与生物医药学

兴趣在生物信息,上了药理学两年研究生,深深感受到人类密码对人类健康的重要意义。
问题:细胞是怎么运作的,简而言之,心肌细胞如何自己跳动?心肌细胞在损伤的时候,细胞如何响应?
这个问题,我无法回答。但是,有两个方面值得关注:
(1)神经系统控制着整个机体,在神经系统的影响下,心肌细胞的反应必然带有深深的神经烙印。我的研究表明,心肌细胞损伤的时候,神经受体表达显著发生改变,为什么?难道心肌细胞甘为神经系统的奴隶,希望让其控制?不是的!是基因,是基因让它这么做的!
(2)心肌细胞缺血受损的时候,其膜电位系统、钙信号系统、线粒体产能系统和基因表达都会发生各自的改变。对于这个网络的计算机重建已经开展了半个多世纪了,目前总算慢慢构建起详细而复杂的心肌细胞膜电位仿真模型,线粒体仿真虽然还没有完整的模型,但也近在咫尺。基因表达和钙信号系统仿真也逐渐开展开来,然而真正要建立一个虚拟细胞,尚需时日。任何一个方向我都感兴趣,因为我的目标在虚拟细胞。基因表达系统的计算机仿真是最困难的一个环节。而这个环节,也将是我最最关注的一个环节。
认识细胞,理解细胞行为,重建起细胞,那么人类距离解释生命密码的距离就非常近了,后面的大部分都是体力活。
在虚拟细胞的基础上,模拟病理模型,对于计算机辅助药物设计的作用是里程碑式的,虽然不能完全代替现实中的实验,但是,药物筛选效率将跨越式提高。
在虚拟细胞,虚拟组织以及虚拟人体的基础上,疾病诊断、新药研发、定量化和个体化治疗策略将呈现出崭新的面貌。
未来的人类社会,必然建立在信息的基础上。

2008年10月26日星期日

基因研究方向再谈

任何一个科学领域都存在着:分久必合,合久必分的历史趋势。生物医学研究更是如此。然而值得一提的是,迅猛发展的生物信息学研究,必然面临着整合,因为改学科的终极目的就是:在服务器上能够模拟出一个广义的细胞。该细胞有如下功能:
在生物医学方面:
1、明确疾病特征,尤其是蛋白环节时,能够快速检测到相关蛋白及这些蛋白的有关病症;能够快速检测其基因以及基因状态,以及相关的疾病特征。
2、在明确基因的基础上,能够快速检测到存在改基因的相关物种(特别依据进化树位置判断),分析基因水平的改变以及改变导致的后果。
3、提出基因治疗和分子信号通路治疗方案。

而当前的基因研究的任务也在于:完成自己的使命。
使命一:完成尽可能多的序列测定任务。人的,大鼠的,大熊猫的,黄瓜的等等。当前的技术有限,测定比较慢;但在不久的将来肯定会有一种快速基因组测定方法,从而让人类可以快速检测各种物种的基因组,也可以快速检测各个个体的基因组。在这个领域,技术领先的人会永远走在最前面,而不一定是起步最早的人。因此,测序,要永远走在最前面,必须强化技术研发。
使命二:测序不是目的,目的是分析序列以及特异基因。进化分析或序列发生分析具有重大历史意义,而特异基因的分析更具有现实意义。依托大量的测序结果,有先天的优势,但这两个方向的选择与把握更具有长远的战略意义。尤其是特异基因研究不是近几十年能够完成的,必须成为一大优势。值得一提的是,进化分析也可用于发现特殊基因。
使命三:基因-蛋白-疾病主轴的建立是关键,在这三部曲中,改公司或者研究单位能做多少奉献,有赖于战略把握。但无论如何,不能忘记最终的目标:细胞内复杂信号网络的重建。

2008年10月25日星期六

基因发现——世纪大挑战

基因发现是人类基因组计划完成后首先要面对的一个重大问题。
从基因组序列研究发现基因,但是只能发现已知基因,尤其是已知序列及其蛋白的基因。这方面的研究,必须超前,尤其是技术超前。而且对生物信息学数据库的跨库分析要熟练,密切关注研究前沿。但存在一个问题:在遗传多态性分析、跨物种基因比对时,发现特异基因,检测到其已知蛋白,但功能上进一步研究就是各大生物信息学研究所难以消化的。这就需要一类跨专业人才,能够整合国内、国际各大研究所,检索相关蛋白研究领域,并提出研究课题,和该研究所联系,开展合作。基因组测序机构以及生物信息学机构必须加强这个方面,从而保证未来20年不落后。
从功能学研究发现蛋白的特殊作用,进而分析寻找其特异基因,然而发现特殊基因,这样的文章可以发表到Nature上,而且最近几期比较火。这表明两点:1)该方式是基因发现的重要途径,值得重视。2)目前尚处于发展早期,属推广阶段。各蛋白领域研究单位应积极拓展基因研究,而不是一味只攻蛋白。
基因与蛋白数据库发展迅猛,生物信息学从早期的序列操作到特殊基因发现,从基因蛋白关系到细胞内信号传导网络,进而到疾病机理,最终在本世纪中后期构建起完整的虚拟细胞,这将进一步加快基因发现和蛋白发现,医药学研究必将迅猛发展。

2008年10月24日星期五

反省I——生物信息学

今天经历了第一次预约的电话面试,因为对这个所太关注了,所以内心深受折磨!
现在内心总算慢慢平静下来......

跨入生物信息学,自己还缺什么?
1、面试技巧方面
1) 个人太激动,多余的话太多。
2) 抢断对方讲话,实属不礼貌。
3) 不懂面试技巧,当问及实习时间时,回答的太傻,太实在,呵呵。

言归正传,在生物信息学领域,还欠缺什么?
缺很多专业知识。
1、熟练c++编程,加快学习perl语言,在编程方面,能够独当一面。
2、学习算法,越多越好,最好能够同时编程实现下来。

用十年时间,努力的解决一个又一个生物信息学算法问题,再根据当时生物信息学发展状况,跨入新的瓶颈领域,永远站在国际最前沿。

问与答

1、现在是药理学硕士生,为什么要进入生物信息学领域?
从兴趣和知识结构来讲,喜欢生物信息学是要有资本的。在数学、生物和计算机的基础上,学习生物信息学我有比较雄厚的基础。能够分析算法、设计算法并实现,这就是资本,这也是直奔生物信息学顶峰的基础。
当年选择药理学,有现实的无奈,但并不意味着错误。一方面,我知道了当前医药科研所采用的分子生物学技术和需求,对生物学发展的瓶颈有了深入的理解,真正体会到生物信息学的发展必将带来医药学研究的飞跃。另一方面,对细胞内信号网络研究的分析来看,生物信息学的发展才能让更多不可能的事情变为可能,一个完整虚拟细胞的出现,将带来里程碑式的跨越。
在这里,我认识到了生物信息学的重要性,所以,我来了...
2、我需要什么条件?
古人云:给我一个支点,我能撬动地球;我说:给我一台电脑,我能改变世界。
给我一台电脑,我有一颗焦急的爱心,为了科研的发展,什么都不求。
3、当前生物信息学发展的认识?
生物信息学的发展要经历信息学发展的每个阶段:数据积累期、数据分析期和应用拓展期。测序很强,直逼国际前沿,这是在数据积累期。在发展方面,后来者居上是常见的事情,具有战略眼光的大跨步前进是必须的,因此,下一步一定要抢占数据分析期制高点。当前,全球各地,各类生物信息学问题、算法和软件不断涌现,而我们就更要站在巨人的肩上,以自己丰富的数据为优势,加快数据分析能力的创新和发展,称为生物信息学的“冷泉港”。

如果基因组时代,是某些实力雄厚研究所的时代;那么后基因组时代,将是所有从事计算机、数学和生物人士的时代,一个跳跃式发展的时代,一个对年轻人充满挑战的时代。

个人履历

教育背景
2007-9 至 2009-7
西安交通大学 医学院 药理学硕士研究生
主修课程:心血管药理学,医学统计学,细胞分子生物学等。
2003-9 至 2007-7
西安交通大学 国家生命科学与技术人才培养基地
生物工程和应用数学(辅修) 工学、理学双学士
生物工程(主修)课程:生物信息学、分子生物学、V C++、基因工程等。
应用数学(辅修)课程:数学建模、数值计算、应用统计学、计算机仿真等。
活动与获奖情况
2007.2
北美数学建模竞赛二等奖
2006.10
国家数学建模竞赛陕西省一等奖
2004.10
校级优秀班干部
2004.10
西安交通大学思源二等奖学金
英语及专业技能
1、英语 六级合格 2005.4
2、学习能力:熟练掌握信息检索技术,具有跟踪前沿能力,熟练阅读外文文献。能够较快学习陌生软件和计算机编程语言,乐于接受新知识和跨学科综合,自学能力强。
3、计算机:熟练操作计算机windows系统和多种office软件,熟练C++编程,熟悉Linux系统。
4、数学:熟练掌握MatLab、Mathematic、SPSS等熟悉软件,精于计算机仿真和数据统计分析。
5、生物信息学:熟悉各大生物网站(NCBI等)和生物信息学软件(R、CellML、Jsim、),精于虚拟细胞技术及前沿进展,对线粒体仿真、多序列比对分析、SNP分析以及生物医学机理研究兴趣浓厚。
实习经历
2006/07~2006/08 陕西超英生物公司 生产部实习生
简介:该公司主要研制:组织芯片。我的任务是参与蜡块制作整个流程,从蜡块制作、整理组织蜡块、记录并录入数据到数据库,最后检索公司数据库并整理数据库信息。
结果:熟悉组织芯片制作流程和使用方法,熟练掌握数据库检索技能。成绩:优。
项目经验
2007/10~2008/05 参与编写《医学科研导论》
任务:参与编写“文献检索、阅读、管理与综述撰写”一章
结果:整理各大文献数据库,构建起计算机辅助文献阅读、管理体系,分析总结了综述撰写方法。

冰斧鸟的解释

冰,冷峻也;刘即是斧,开天辟地之物;鸟,最喜九头鸟。
冰,以冷峻闻名。体外,基因和蛋白都离不开冰。有多少冰,为了保护蛋白和基因,最后融化。冰的拼命精神,冰的冷静性格,冰的冷峻气质,值得追求。冷静,就是冰的目的。

没有斧,原始人类根本无法走出那暗无天日的茂密原始森林,来到平原大地;没有斧,原始人也无法击退那些凶猛无比的令人恐怖的吃人猛兽,保护好自身;没有刘,原始人也砍伐采集不到更多的果食,猎获不到大量的野兽。  
到了稍后一个时期,斧又成为原始人类早期战争中的重要武器。这时,斧头因用于战争又被称做战斧,刘就是战斧的一种。特别是在人类发明弓箭和长矛之前,刘更是人类兵器中最具有杀伤力的武器。
  刘是人类赖以生存的最常见最基本的工具,也是人类用以创造文明的工具。
  中国人在谈到人类文明的起源时,喜欢用“混沌初开”一词来形容。而使人类从混沌走向文明的,正是刘。当今社会,人类文明大跨步前进,然而各个领域面临着海量冗繁信息,生物信息学更是直面海量生命密码,混沌,混沌,开天之斧,开天之勇,开天之利,乃当今之所需。

平稳的性格,坚韧之勇气,最后就需要智慧。九头鸟,虽然很多时候是贬义词,但其聪慧却不容否认。智慧,跨越一切障碍的智慧,全在“灵活”二字。九头鸟,灵也。

冰斧鸟,打开生物信息密码的大门,遨游于数字世界......


作为刘氏青年,当立宏志:破除生物海量数据之混沌,走向人类健康及全面信息化。

2008年10月23日星期四

定位

gmail邮箱是学术性邮箱,故google博客也定位为学术性博客。
1、自己的学习进展和学习心得。
2、对于学术问题的观点和感悟。
3、求职就业。