首页 热点资讯 义务教育 高等教育 出国留学 考研考公
您的当前位置:首页正文

一种处理大数据平台Spark数据分配不均衡的方法[发明专利]

2021-01-08 来源:华拓网
专利内容由知识产权出版社提供

专利名称:一种处理大数据平台Spark数据分配不均衡的方法专利类型:发明专利发明人:不公告发明人申请号:CN201710456187.X申请日:20170616公开号:CN109144707A公开日:20190104

摘要:本发明实施例公开了一种处理大数据平台Spark数据分配不均衡的方法,涉及集群资源调度、负载均衡领域。本发明针对Spark各Stage中任务出现的数据倾斜问题,提出了MRFair的解决方法,所述方法包括步骤:(1)将Spark各Stage上一些任务设置为活动任务;(2)根据活动任务的元数据估计任务的剩余运行时间;(3)根据任务的剩余运行时间降序排列活动任务,将剩余运行时间最大的任务的可用数据块重新分配给剩余运行时间最小的任务;(4)更新任务的剩余运行时间,重复步骤(3)直到无可用的数据块被调度或者重新分配后任务的剩余运行时间少于其他任务的最大剩余运行时间。本发明能有效减少Spark作业的总完工时间,提升Spark作业的服务质量。

申请人:田文洪,黄超杰,刘弘一,任小芹,何马均,叶宇飞

地址:610000 四川省成都市成华区建设北路二段四号电子科技大学

国籍:CN

更多信息请下载全文后查看

因篇幅问题不能全部显示,请点此查看更多更全内容