专利名称:一种处理大数据平台Spark数据分配不均衡的方法专利类型:发明专利发明人:不公告发明人申请号:CN201710456187.X申请日:20170616公开号:CN109144707A公开日:20190104
摘要:本发明实施例公开了一种处理大数据平台Spark数据分配不均衡的方法,涉及集群资源调度、负载均衡领域。本发明针对Spark各Stage中任务出现的数据倾斜问题,提出了MRFair的解决方法,所述方法包括步骤:(1)将Spark各Stage上一些任务设置为活动任务;(2)根据活动任务的元数据估计任务的剩余运行时间;(3)根据任务的剩余运行时间降序排列活动任务,将剩余运行时间最大的任务的可用数据块重新分配给剩余运行时间最小的任务;(4)更新任务的剩余运行时间,重复步骤(3)直到无可用的数据块被调度或者重新分配后任务的剩余运行时间少于其他任务的最大剩余运行时间。本发明能有效减少Spark作业的总完工时间,提升Spark作业的服务质量。
申请人:田文洪,黄超杰,刘弘一,任小芹,何马均,叶宇飞
地址:610000 四川省成都市成华区建设北路二段四号电子科技大学
国籍:CN
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容