近日,加州大学圣地亚哥分校(UCSD)研究人员在《自然》杂志上发表研究,介绍其使用人工智能技术发现了新的DNA启动码“下游核心启动子区”(downstream core promoter region-DPR),有望在生物技术和生物医学应用领域用来控制基因启动。
据研究人员介绍,DNA接收到A、C、G、T这4种碱基的编码指导后发出精确指令,人类基因收到指令后被激活采取行动。目前已知,近25%的基因都是由TATAAA类似序列(即“TATA框”)进行转录的,但由于DNA碱基序列可能性非常多,剩下75%的基因是如何启动的一直是个谜。
研究人员对50万个随机DNA序列的DPR活动进行了评估,筛选出其中20万个序列生成了一种能够精确预测人体DNA中DPR活动的机器学习模型,此外还制作了一个能够识别TATA框序列的类似机器学习模型。研究人员使用新模型对数千个已知TATA框和DPR活动情况的测试样本进行评估后发现,其预测能力“非常棒”。研究结果显示,人类基因中确实存在DPR活动,且其发生率与TATA框相当。据研究作者、UCSD生物科学系特聘教授角川介绍称,DPR能够启动约1/4至1/3的基因。此外,研究人员还发现,DPR和TATA框之间存在一种奇妙的二元性,TATA框序列启动的基因缺少DPR序列,反之亦然。
角川表示,DPR此前之所以未被发现是因为其不具备显而易见的序列模式,隐藏在DNA序列中的加密信息使之具备DPR属性,人类无法破译这一信息,但机器学习模型可以。使用人工智能对DNA序列模式进行分析应该可以提升研究人员对人体细胞中基因启动的理解和控制。
免责声明:本网转载自其它媒体的文章,目的在于弘扬科技创新精神,传递更多科技创新信息,并不代表本网赞同其观点和对其真实性负责,在此我们谨向原作者和原媒体致以崇高敬意。如果您认为本站文章侵犯了您的版权,请与我们联系,我们将第一时间删除。