• 科研服务

    遗传病科研

  • 遗传病科研

    Genetic Disease Research

    “自主问答式”基因数据科研聚类分析平台

     

    如何挖掘基因大数据的科研价值?如何发现新的致病基因?科研之路困难重重,非生物信息专业的医生或者研究者聊到这个话题都会感到扎心。他们一般是委托第三方公司进行基因测序,公司提交测序分析结果和一堆原始数据,但结果往往并不令人满意,问题在于:

     

    大多数基因测序公司只是擅长做基础测序和基本的分子生物学注释,对疾病、遗传机制领域并不在行,他们的分析未必满足需求,结果未必靠谱;医生或研究者可以同这类公司沟通分析需求,但多有“鸡同鸭讲”的感觉,不在一个频道上。好不容易说定一个分析思路去分析,但拿到的结果未必称心,而且科研本来就不可能是一个思路下去就能见成效的,往往需要不断变换思路去尝试。但如果医生或研究者改变分析思路要求公司重新分析,公司大多会提出新的费用要求(毕竟人工费用产生了嘛)。假如每一次定制分析都增加费用,这钱实在烧不起!

     

    有人会说,原始数据不是在医生或者研究者手里吗,自己不能分析吗?还真不能!隔行如隔山,对于非生信专业的人而言,原始测序数据几乎毫无实际意义。

     

    科研分析,为啥就不能像敲计算器一样,用户自己把算式敲进去,一键就得到结果呢?

     

    说得更清楚点就是,能不能有这样一个“自主问答式”的数据分析平台,这个平台已经嵌入了常用科研思路所涉及的各种分析算法,用户只需要选择设定数据分析的思路,电脑系统平台就会在后台自动运算并给出分析运行结果。一旦用户要换个思路分析,只需要重新设定新思路,让系统再次运算即可。让用户自由把握分析思路,让系统直接回答用户,让用户再不用遭这个“鸡同鸭讲”的罪!

     

    那么这个梦想已经不再仅仅是梦想了,终于一不小心成真了。对于客户交付给平台的数据,或者是交付做基因测序而产生的数据,客户就可以在平台上,像敲计算器一样,设定需要聚类分析的条件,平台即可在0~n分钟内运算生成聚类分析的表格化结果。客户可下载结果的表格,进一步线下分析。

     

    这个自主问答式基因大数据聚类平台目前已开放了遗传病研究模块,可以设定的条件指标有:样本范围、数据质量、变异的生物学危害性级别、遗传方式、家系携带方式、基因群、基因表达组织等。

     

    基因大数据聚类分析平台将有助于科研用户实现以下功能:

    • 统计某种疾病的致病基因相关性;
    • 发现新的致病变异、致病基因;
    • 发现疾病相关性变异、统计热点致病突变;
    • 通过多样本大数据解读变异的致病性。

    比如用户希望在智障表型的患者中(通过表型筛选样本),挑选LOF变异(选择生物学危害性级别为一级),且是支持AD遗传模式的denovo变异(选择遗传方式和家系携带方式),且变异的reads数大于10(数据质量设定),且产生变异的基因是在脑部表达的(选择表达组织),根据这些条件来看看在这些样本数据中是否有发现新致病基因的可能。那么就按括号中所述进行操作,一键运行,分分钟就会有表格化结果生成,显示符合条件的变异是在哪些样本中产生,及相关的诸多重要注释信息。

     

    这个平台实质上是把从科研思路到需求整理,从需求整理到生信分析,再从生信分析到结果提交这一过程的所有中间环节悉数越过,实现了从科研思路到分析结果的直达,从而大大提升了科研分析的效率。有了这个利器,研究者发现新的致病基因会更加便捷。欢迎广大用户提出更多的需求,并将根据需求改进系统,让用户使用更贴心更方便。

  • 发现新致病基因,不再遥不可及

     

    遗传病的地理大发现——正当其时

     

    人类目前已鉴定出有功能的基因总共有约2万个,而其中只有不到4千个(约20%)与已知的疾病相关。

    人类目前已发现的疾病有1万多种,而其中只有4千多种(不到30%)找到了致病基因。

     

    这就意味着:

    绝大部分基因尚未找到对应的疾病;

    绝大部分疾病尚未找到致病基因。

     

    15世纪,欧洲人开启了大航海,向传说中的印度、中国出发去寻宝,意外地发现了地球是圆的,发现了美洲新大陆,进而通过殖民所获得的财富甚至远远超过本土的财富,成就了近代的西方殖民列强。这一重要时期被称为“地理大发现”。

     

    如今,寻找疾病的致病基因,甚至定位新的疾病,就犹如15世纪的地理大发现。未知的领域比已知的领域要广阔得多。发现新疾病、新致病基因的研究大有可为!

    broken image

    发现新致病基因的那点事——多样本全外显子聚类分析

     

    那么该如何做,才能发现新的致病基因呢? 其实方法并没有那么玄乎,无非就是干这三件事:

     

    第一件事,想明白要做哪种疾病的研究;

     

    第二件事,收集这种疾病的患者样本;

     

    最好是家系样本,包含患者父母,如果能再多点其他家系成员的患者和本家系正常人(对照样本)就更好。总之是家系越多越好,一个家系里面的样本越多越好。

     

    第三件事,把样本送到康欣赛尔进行检测分析;

     

    测序好说,买台机器谁都能测,关键是测序之后的数据分析。利用康欣赛尔的临床级基因数据分析平台,和聚类分析平台,可以对患者的数据进行大海捞针般的聚类分析,轻松找到基因和疾病之间的关联,说白了就是发现潜在的致病基因。

     

    做完这三件事,万里长征已经走完大部分了,也就是找到了只有患者才有的突变基因。如果想发更高分的文章,可以进一步做基因功能确证性的研究,包括体外细胞实验、动物模型等等。

    为什么选择全外显子聚类分析?而不是全基因组或Panel策略?

     

    Panel策略不能优先考虑,这个道理很简单,因为它只能检测有限的基因,往往是前人已经研究过的基因,这种策略不适用于科研新发现。

     

    那为什么不是全基因组测序策略呢?全基因组测序的测序成本已经降到1千美元,已经相对便宜了呀?原因有三:

     

    1. 1千美元的全基因组测序,那只是测序成本,没包含数据分析成本。全基因组数据量近百G,而全外显子组不到10G,仅从数据量来看,数据分析成本要远高于全外显子组。
    2. 全基因组的测序范围远远超过全外显子组,但干货没有实际增加多少。全外显子组所测的是致病概率较高的区域——外显子区域,外显子是编码mRNA,最终构成蛋白氨基酸结构的区域。全基因组比全外显子组多测的范围是非编码区,主要是内含子等,总长度是外显子区域的近百倍,这些区域的变异绝大部分是不导致疾病的,即便导致疾病,在数据分析上也很难鉴别,大多数情况下是根本无从鉴别,说简单点就是测了也几乎是白测,得不到有意义的分析结果。
    3. 如果我们只关注在致病突变富集的外显子区域,全基因组策略的数据质量还不如全外显子组!最新的国外文献的研究结论表明,1千美元的全基因组测序,得到近百G的数据,也就对应30X的测序深度,而全外显子组测序可以得到100X的测序深度,在外显子区域,无论是测序深度、覆盖度和检出率,全外显子组都优于全基因组。