Olga TROYANSKAYA:
这是一个非常成熟的时机,可以有这样的计算生物学的发展,但是实际上对于计算医学也是一个非常棒的领域,这就是说并不是所有的问题都是可以因为大数据而得到解决,但是这样一个时代,基本上每一个单独的问题都有一些大数据的搜集都是相关的,而且更加关键的是在生物医学中某种程度上和我们思考的问题不一样,比如说包括自动驾驶等等的问题。我们有一个非常的有趣的问题,所有的生物知识掌握在生物学家那里的时候,这很关键,很多的数据从来没有被人发现过的数据集所带来的信息,实际上单独来看是显著的,但是我们知道没有任何一个非常聪明的生物学家发现实际上已经有了这么好的数据在那里,但是当我们去看的时候,不同的数据及当中一起会合的时候才能够发现它的强大的力量,我们实际上也经常问这样的问题,我也认为,这是非常关键的,对于任何一个我们的研究,我们都会去看新的数据,而且不仅仅是看我们一个小时所获得的数据,比如说正在做研究中的本身的数据,而是在这个数据中内涵的信息。也就是说它不仅仅是在数据当中的内容,也包括了他的背景知识,有一些是被发现的,有一些是没有被发现的知识和背景,生物学中AI,人工智能是可以得到应用的,按照他们之前的方式来做,也可以获得一些挑战,比如说如何更好的学习我们不会有太多数据的挑战,有一些如何获得原生数据,我们有一个挑战是非常有限的黄金准则,而且如何用这些黄金准则,和不同质量的黄金准则,我们也有很多的方式要对这些做法和技能进行调整,从而在生物学上得到应用。
将来如果我们能够学习更多的话,就能够更多的了解信号,我们相信我们有一个预测性的医疗,基于我们的模型可以进行很多的创新,并不是说明天就能够实现,但是我们可以有很多的创新,更好好的研究模型,有一个闭环。通过这些学习和数据分析,以及生物医学的集成,这样的话我们会形成一个非常好的闭环的研究,能够给我们带来非常好的一个模型。但是现在,我们还不能说我们已经了解到了生物学的边界,任重而道远。也就是说现在这个生物学家。
问:还有更多的要做,是吗?
Olga TROYANSKAYA:
可以说现在我讲的一些内容,数据也是很重要的,我自己做的一些项目,可以说把生物科学家都邀请进来进行了很多的研究,我们也做过。
问:下面我的第二个问题是有什么样的误区,谈到了生物信息和数据分析的话,我们要小心的。
Olga TROYANSKAYA:
我想我们建议可以想象在全球信息共享,我非常同意共享信息,这没有问题,我们还需要更好的共享现有的知识来,共享一些简单的论文或者是测试的方法等等。
第三点是我想所有的机器学习,生物信息形成一个很好的闭环,我们能够很好的共享我们的资源。我想不光是电子的表格,百度现在也做了很好的工作,也给终端用户提供很好的资讯,让人们最终能够去很快的获取一些核心的信息。最终生物学家来很好的研究一些测试的模型,最终,能够更好的使终端用户获益。
Olga TROYANSKAYA:
我同意刚才的见解,我想非常需要做的,促成的是通过精准研究来推进医疗,我们需要考虑到不同类型的数据,来进行推理,推进我们信息的共享,结果的共享,整个的共享,必须有一个基于数据的竞争形式。我们在基础科学中经常谈数据共享。对于医学也好,科学也好,都是非常重要的。如果我们看到整个的基因组的话,我们需要,无论从社会角度来说,结果角度来说,我想共享都是好处的,我们需要有更好的框架,它可以是一个社会型的,并不一定是计算型的框架。像药剂师,科学家,诊所,工作医生和其他领域的人一起来打造一个框架。
Olga TROYANSKAYA:
我们从科学的角度来说,我觉得有非常大的挑战,现在我们讨论到,把大数据应用到竞争性的生物学之中,大家现在注意到我们讨论到分子,我希望这些方面在我们的实际中能够在很多的信号层面进行讨论,比如说我们有更多的药物进行研发。还有药物靶向方面进行更好的研究。不仅是由体内的卫士进行吸收。所有的这些问题,现在还不明确,我们还没有找到答案。我想在未来十年,这些都成为非常重要的研究课题和挑战。像分子生物学是一个非常重要的领域,我们应该不断的研究分子生物学。
问:我们需要统一的数据集吗?在未来,这样是不是一千万,所谓的生理分子的层面的因素能够了解得很清楚呢。
Olga TROYANSKAYA:
但是我觉得可能不是这样,因为如果现实来讲的话,有很多我所相信的事情精准也非常关键,真正能回应你的那一点,就是这样的假设不仅仅是对假设直接进行检测,还包括我们有没有什么缺失的,比如说数据推动的一种试验,我相信有很多的这些会更有这种吞吐量,更多的渗透力,而且包括了一些具体的基因也有可能会对于某一些免疫的疾病有所影响,或者是说我们去思考有哪些在生理上的现象的信息会带来一些更多的数据集,会专门针对那些基因和相应的效果来给我们一些解答。我相信如果我们这样拥有你刚才所说的那些事情的话会更加的精妙,但是没有那么大的可能性。
我们也看到了,最近数据上有非常多的无限数量的细胞,可能会帮助我们解答其他的疾病或者是组织的问题,虽然现在我们在看这些患者的例子,没有进行治疗,但是他们依然可以告诉我们到底这些患者是不是会在一些疗法下有所应答,这是非常好的一些数据的生成,就是说不能去全面的恢复,我们也可以通过机器学习来填充空白。这确实是非常棒的一种数据的功能。
问:而实际上从一个世纪的角度来提一个问题,因为我们都是一些在计算生物学方面的专家,可能我们知道什么时候会需要一种合作者,这时候我觉得是最需要我们一起去合作的,您觉得您会寻找什么样的合作者。
Olga TROYANSKAYA:
因为我们合作的事情包括了这种网络一直在提升,但是我们说到细节的时候,我们都必须要有非常紧密的合作伙伴,因为现在有非常多的变量,非常多的容易去发现的一些事情,甚至是很多的分析,并不是我们以为所发现的,因为有很多的事情是相关的。我们要去说一说什么是最容易被发现的。你不应该对同样的事情重复的发现,所以信息会告诉我们,某种疾病也是这样的,很可能对于炎症疾病的发现,其他的地方也会发现,这对某一种肿瘤是相关的,我们要发现,虽然我们要小心一点,就是在做实施的时候,要很仔细避免这样的问题,但是我们要非常紧密的合作,有很多的合作伙伴都是在很早的时候就开始合作的了,而且我们可能也会去有一个通用的方法来应对这样的问题。但是我们也会与他们一起合作,确保对他们的问题和疾病以及在生物体系上带来帮助,所以在整个过程中非常紧密的进行合作。
问:您觉得呢?
Olga TROYANSKAYA:
我们发现很多的时候,很多科学家解决我们数学上的问题,同时还有一些像网络的例子,我们有很多的方式是大家可以利用这个网络的,但是他们是不是可以去找一些基因,这些基因跟两个假设是非常相关的,比如说刚刚说的阿兹海默症等等的细胞型和其他的路径等等,我们发现多个试验会找到我们说我们有这样的系统,包括我们会有这样的15个基因等等,你会看到他们的网络,大家会共同说我们有五百多个基因,能不能告诉我们,为什么你要看五百多个基因的情况,结果有很多人真正希望能够看这些情况,希望通过这个解释他们的试验,然后他们会进行筛选,找到非常重要的一些基因,比如说对他们的生殖或者是老年化非常相关的基因,他们会看是不是有一些会有更高的可能性,或者是说降低生殖能力,随着时间变化有影响,他们会知道对于基因的总体的状况,他们有五百多个基因,但是没有一个非常连贯性的基因的关系,刚才我们的网络之后,就能够看到有一个子网络的出现,这是一个实在的例子,会告诉我们这有非常大的意义,这些基因会有自己的标的我们说好,我们的系统允许我们把五百多个基因放进去,这会引起我们的开发,这是竞争上的问题,如何才能够对五百个基因进行可视化,而且真正是有意义的,而不是刚刚大家看到的球,看起来不是非常的令人惊讶,但是目前来说没有什么意义,所以我们需要去看一下,那些正在用基因做这样的事情的人。但是我并不是说抱歉,这是非常必要的。
问:是的,生物学家来看这五百多个基因的时候,并没有一个起点,没有切入点,他们希望你可以去接触的,然后让这五百个基因都能够得到很好的管理和调解。我认为生物学家看到这一点的时候,也会说我可以帮助你检验这样的假设,或者是说很明显的,他们可能一点儿都不想接触你的假设。从我自己的经验来看,最令人激动的一个,我所接触的项目是在这个实验中我们开发了一些想法。是一起做出来的,一起将这个想法进行了启动,您有没有这样的感受。
Olga TROYANSKAYA:
您刚刚讲的深度学习模型非常有趣,有一点是怎么样运作的,我们并不是真正会去做他的机制的了解,而是用单独的基因组,当然了,并不是说任何的一个所做的测量的基因组,因为这些实际上有不同的。谁知道谁是谁的序列呢?但是,如果是,我们要这样去讲,学习的话,怎么样去预测,他真正学习的时候透过一个合理的基因组来做的,可能是有上千的一个非常大的数据库,那么在这样的一个基础之上,如果你们进行学习的话,那么它也包含了监督和非监督的方法,因为如果是非监督的话,就是突变的一些数据,但是如果得到了监督的话,在基因组当中,他主要是希望能够找到无论什么时候,我们看到突变,或者是说这样的一个标记物的时候,我们通常就会去跟A或者是T相关性,或者是说跟J有关系,这全部都是我自己编的,大家不用记下来,只是说这个道理。这样的话还有一些其他转路,左边又有一百多个点,这些跟他的序列变化相关,这些的话不仅仅是非常具体的碱基,而这些碱基和生物标记相关,还有他们之间有什么样的关系,所以要看到这个基因组之间的不同的关系。另外是我们实际上并不一定需要去说,因为它是自动的机器学习的过程。
问:如果你说的是非监督的话又是怎么样去讲呢?比如说有一些教训的学习,也可能有一些相关联性,或者是说让这些结构进入一些纸质性的发现。但是大部分的深度学习的方法,实际上都是被监督的,才能够让它去有效。所以我所关注的是这种非监督的学习和他的结构和关系,比如说相关的功能。
Olga TROYANSKAYA:
所以对于非监督的话,实际上并没有看到任何的突变的数据,这还是要分情况来看,比如说我们之前讨论过对于关键的部分,可能没有这些突变的数据,所以在学习的时候,大家看在单一的基因组之间的关系,我们看其他的基因组了,这是我们所做的事情,我们可以让他看基因组下面的内容,实际上可以让我们更好的去预测具体的疾病,而这个实际上之前所没有看到过的。当然现在我们这些数据也没有获得,但是我们实际上还是可以去预测的,因为我们也在学习,完全是跟基因组之间的关系来了解到的,以及不同的生物标志物之间的关系所带来的信息。但是关键的一点是不能够只是看这些突变的数据,因为你自己没有看到你所关注的基因突变。就是说有上千的人群,那最具有吸引力的,依然还是我们可以去预测的部分,这是正确方式。
问:我提给Olga TROYANSKAYA的问题,您如何去看这些以组织委关键的方式呢?因为您刚刚提到了不同的知识,实际上通常都是在脑科学当中,这是不是意味着现在没有一些书面的记载,这些不同的知识又是怎么样收集的呢,而且这样的知识和深度学习的基础上,我们离肿瘤治疗还有多远,能够治愈有多远,包括人工智能对战的这样一种方向有多大的作用,或者是说能够帮助我们发现什么。
Olga TROYANSKAYA:
这是非常好的问题,第一个问题是关于组织的网络,这是得到监督的,所以我们做的事情,首先我们会用知识作为一个基础,比如说会有一个碱基分类,他所做的是通过分类可以知道哪些数据是相关的,比如说和大脑的网络相关,所以我们对于每一个组织都要赋职,看他的准确度,我们会预测50%都是可有网络的,但是我们现在没有足够的数据去获得碱基的数据。但是基本上大部分的都可以用数据来解决。所以如果说你的数据特别多的,就能够在各方面的表现更好,我们理想的情况是比如说我们需要一些例子,包括了他在生物学上的,在组织上的关系,这其中一个比如说有一种蛋白质,实际上具体的会进入到他的一个表达的开启,实际上这是一个神经元,这个数据非常小。所以我们所做的是我们觉得这是下一个最好的事情,因此这些路径到底总体上怎么样?所以如果你有一个生物学方面的书打开的话你会看到它有不同的流程和工艺来做,它还不是非常的完美,而实际上在一些不同的细胞类型下都是有相关的做法,只能说知道平均的状态,所以把数据拿过来以后会有一些生物学方面的文献,然后我们也会有这样的知识了,这个实际上通常都是生物学家和博士后读这些论文,然后把这个放在机器学习中,很多公司光做这个也能赚钱,并且卖系统给生物学家,所以实际上有一些是非常明显的了。
所以我们不能够直接做这样的预测,除非我们每年有25000多块钱才能够获得这样的数据,这个数据本来应该是在理论上,公共领域中。但是他们的赚钱也好,我们实际上如果有这样的一个系统的话,也会有非常大的飞跃,比如说这些数据是非常好的,总体来说我们也希望知道哪一些,这也是有所表达的,所以这是会用某种方式来交叉的,也许我们觉得这个可能是在大脑当中发生的情况,目前来说非常有限及这只是一些例子,但是我们可以用这些例子找到哪些数据,告诉我们一些关于大脑的准确信息,然后我们可以做一些推断,看他的准确性,以及和其他的相关性的影响,这是其他人还没有基于这些数据所做出的一些结论和分析的。所以我们会让所有的可能的都去做一些工作。
问:您是不是说在构建这个网络的时候也这样做。
Olga TROYANSKAYA:
实际上我们这个方法是有概率性的,就是怎么样将这些不同的细胞类型进行整合,并且看它的表达,以及怎么样能够在机器学习中有一个黄金准则,总体来说非常敏感,举一个例子,给你一个感觉,2013年的项目中的时候,我当时说的是比较要讲,这是你要做的事情。这是一个创投,三年之后我会建立这样一个对于人类的网络,实际上两年之前还再说这样的事情,实际上他有的是数据,但是很多的时候,还是怎么样让他真正行之有效如何确保你所发现的是真正的生物学,而不是变化出来明显的数据的结果,所以我们花很多的时间,我们在网络中应该有哪些,是不是可以预测一些疾病,确保我们的学习是符合显示的,这是我们做了很多的工作的方面,也是目前正在发生的。
还有多远,这是一个很好的问题,到底还有多远,我们对于肿瘤的研究还有很长的路要走,现在我们谈论的是,研究的是我们的免疫的系统,还有人工的抗体,以及大家可能听到的免疫疗法。还有一些像B细胞,血癌等等所有这些都是非常重要的。以及位于这个肺癌的研究都是非常具有意义的。可以说对于很多的方面必须有计算的方法,这是非常重要的,然后我们才能谈到靶向的问题,我们可以来进行非常好的联合的疗法的研究。我们对于这个细胞的研究是非常具有启发性的。那么,免疫的疗法,现在的美国已经批准了,已经在中国开始使用了。对于有些疗法可能已经用了,在美国用了十年,比如说乳腺癌,他们说在美国,可以进行诊断,比较准确。这是非常重要的一个进步。现在在很多的场所都可以很好的诊断乳腺癌。我觉得当然这个不是说一两年就能够迅速的找到一个更好的方法的,需要我们投入到大量的科研去进行研究。我们需要不断的来研究这个问题,我们实际上也看到过很多的疗法方面的例子,有些是非常具有革命性意义的。不好意思,我没有一个简单的答案,所以我讲得比较多。
问:我觉得时间已经到了,不罗嗦了,谢谢大家的听讲。