随着生物技术的不断发展,高通量测序技术得到快速发展,基因组测序的成本相对降低幅度很大,生物数据规模也在随之增大,生物信息学也迎来了大数据时代。云计算技术可以给生物信息学在数据分析方面提供计算资源,从而生物信息大数据借助大数据的生物信息云迎接更多的新挑战,挖掘数据中隐藏的资源。通过本项目的研究,也可为以后云计算在其他生物信息学问题中运用的研究做出基础工作。介绍基于云平台的机器学习发展历程,包括Hadoop MapReduce、HDFS、Mahout、Spark及Yarn的主要研究现状和意义,同时介绍生物信息