Welcome!

This community is for professionals and enthusiasts of our products and services. Share and discuss the best content and new marketing ideas, build your professional profile and become a better marketer together.

0

Geneious中应该使用哪种最大似然树生成器?

提供于
Johnson
18-5-20 上午9:28 6,361 浏览次数
这个问题已经包含在 官方文档.

0

Johnson

--Johnson--
北京沫之东生物技术有限公司
http://www.coreab.cn
2582
| 3 1 2
中国
--Johnson--
Johnson
18-5-20 上午9:29
  • 以下基于机器学习翻译,仅供参考。 

  • Geneious包含用于最大似然树建立器PHYML,Garli,RAxML,PAUP *和FastTree的插件。在这篇文章中,我们将简要回顾哪些数据集最适合哪种数据集,哪种数据集最快,以及每种数据集都有哪些选项。有关每个程序使用的算法的详细信息,请参阅该程序的网站。

    如果您从这些插件发布您的结果,请记得引用您使用的程序的原作者。引用信息可以在各自的插件页面上找到

    每个程序的背景

    1. PHYML

    PHYML由 法国蒙彼利埃大学LIRMMStephane Guindon和他的同事撰写  它于2003年首次发布,Geneious插件使用本文中描述的3.2版本    PHYML是其最简单,准确和速度最好的最大似然程序之一。

    2. RAxML

    RaxML来自  亚历山德罗Stamatakis '  Exelixis公司实验室  在海德堡研究所的理论研究,德国。它的开发目的是处理较大的数据集,其相对较低的内存消耗,先进的搜索算法和使用加速的可能性。  

    Geneious插件当前使用RAxML版本8.2.7,因此下表中列出的功能适用于该版本。

    3. GARLI

    Garli由 当前在堪萨斯大学的Derrick Zwickl撰写和维护  它基于GAML程序(Lewis,1998)。该程序的文档可以在这里找到

    4. PAUP *

    PAUP *是Dave Swofford编写的一个流行的系统发育程序,可用于构建最大简约性,距离和最大似然树。本文中有关PAUP *的信息只涉及最大似然树。PAUP * 4.0b10曾经可以从Sinnauer Associates购买,但目前正在进行重大更新。目前免费“测试”版本都可以从这里。  

    请注意,Geneious PAUP *插件不包含程序本身,它仅提供运行您自己的PAUP *副本的界面。您必须下载自己的PAUP *副本,并在Geneious第一次运行插件时将路径设置为可执行文件。该插件目前兼容旧4.0b10版本,新的测试alpha版本(4.0a149及以上版本)

    4. FastTree

    FastTree由Morgan N. Price  在   Lawrence Berkeley国家实验室的Adam Arkin小组开发  它针对多达一百万个序列的极大比对进行了优化,并使用相邻连接,最小演化和最大似然的组合来推断近似最大似然树。这里给出了它如何工作的详细描述  ,但总的来说,FastTree使用邻居连接来获得近似的起始树,然后使用最小的演化方法来减少树的长度,然后最大似然地进一步改进树。Generate实现FastTree 2.1.5。

    你可以用这些程序做什么?

    所有程序都将从DNA和蛋白质比对中构建树木,但是每种方法的选择都有一些差异,总结在下表中。请注意,PAUP *将为蛋白质比对构建最大简约性和距离树,但不会构建最大似然树。

    Screen_Shot_2017-07-27_at_2.52.05_PM.png ** 由于Garli设置的方式,Geneious插件中目前只实现了GTR + G + I模型的默认选项并且没有引导。但是,如果您需要其他选项(如引导或分区),请与支持人员联系,也可以根据Garli文档自行编辑Garli配置文件(位于插件文件夹中)  

    PHYML和PAUP *为您提供最广泛的模型选择,并且可以输入Modeltest比较DNA数据的大部分模型。但是,请记住,大多数这些模型都嵌套在其他程序中实施的通用时间可逆(GTR)模型中。PAUP *包含模型测试,因此您可以选择将其作为树构建过程的一部分来运行。对于PHYML和其他程序,您需要在Geneious之外运行jModeltest,然后在Geneious中手动配置适当的模型选项。 

    PHYML也为您提供了多种计算支持值的方法,但它对分类群数量有内在的限制。我不知道Garli,PAUP *和RAxML有相似的数据集大小约束(虽然正如您在下面看到的,这些程序都是由FastTree为超大型数据集执行的)。

    例如,如果您想估计不同密码子位置或基因的不同比率,RAxML和PAUP *允许您划分数据。在PAUP *中,这是通过编辑自定义命令块完成的 - 请参阅PAUP *命令行指南以获取可以用这种方式实现的完整选项列表。  

    关于这些程序如何在Geneious中运行的简要说明

    这些插件不能在Geneious Java运行时环境中运行,因此它们不使用分配给Geneious的RAM。相反,他们作为独立程序与Geneious提供接口。Geneious将您的文件导出到插件,运行插件程序,然后将结果导入Geneious。尽管树构建过程本身并不使用分配给Geneious的RAM,但您需要为Geneious分配足够的RAM才能处理文件的导出/导入 - 而对于大型文件,这可能需要大量数据。 

    哪个最快?

    这个问题的答案很大程度上取决于您所拥有的数据集类型。作为一个非常普遍的规则,速度如下所示:FastTree >> RAxML> PHYML> Garli >> PAUP *。  

    FastTree是迄今为止拥有大量分类群的大树最快的算法。FastTree可以在几分钟内生成一个支持值为10,000的分类树,而由RAxML或Garli构建的同一棵树可能需要几天才能运行。PHYML甚至不会运行在这样大的路线上,因为它具有4000个分类群的内置截止点。然而,由FastTree生成的树是“近似最大似然”树,而对于类群之间的关系不那么明确的数据集,它们可能不如其他方法生成的树更精确地搜索树拓扑结构(请参阅  FastTree网站  ,以获得关于FastTree与PHYML与RAxML的速度和准确性的更全面讨论)。  

    如果您的序列非常长,但只有少数分类群(例如,如果您要从少量细菌基因组中构建树),那么RAxML和PHYML将执行FastTree。一个长度为400万个碱基(计算时没有支持值)的5个序列的树在FastTree中花了大约14分钟,而在RaxML和PHYML中花了大约1分钟。Garli不能很好地处理长序列,最好用于较短的比对。 

    在全部最大似然树建造者中,RAxML似乎对于来自DNA数据的大型树木来说效率最高。对于较小的数据集,PHYML是一个不错的选择,因为根据PHYML手册,PhyML的“舒适区”通常位于100-200个序列中,少于2,000个字符长。该  PHYML网站  已采用了一系列数据集的PHYML和RAxML之间的一些广泛的比较。  

    PAUP *是最大似然树构建器中最慢的,特别是在使用默认选项运行时。PAUP *默认​​情况下使用树分叉和重新连接(TBR)进行拓扑搜索,该算法比PHYML(NNI,最近邻居立交)或RAxML(快速爬山)中的默认拓扑搜索选项评估更多的树。要将PAUP *配置为使用NNI而不是PBR,请打开自定义命令块并将SWAP = NNI添加到HSEARCH行。这将大大加快速度,但速度仍然不接近PHYML或RAxML。 

    我怎样才能让我的树跑得更快?

    简短的答案是获得一台更快的电脑。为你的treebuilder提供更多的内存不一定会加速它,但是可能意味着你可以在不耗尽内存的情况下构建更大的树。速度主要取决于处理器的速度,目前这里提到的所有树建设者都只使用一个处理器,并且无法将其配置为跨多个核心运行。

    那么,哪棵树最好?

    这个问题没有一个答案,因为它完全取决于数据集的性质,以及所选模型适合您的数据的程度。考虑到您选择的数据和模型,最大似然树建造者返回最高可能性正确的树,但由于算法的差异,每个程序产生的似然值不能直接进行比较。使用多种建树方法来评估树形拓扑的稳健性是一种很好的做法。


随时了解最新的技术快讯

关于这个技术问答社区

Geneious最新版生物信息学软件相关的技术文档、技术手册、技术教程、技术资料分享和问答 阅读指南

问题工具

1 关注者

统计数据

问: 18-5-20 上午9:28
看到: 6361 时间
最后更新: 18-5-20 上午9:29