欢迎来到优发表网,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

购物车(0)

基于ISE算法的分布式ETL任务调度策略研究

作者:王卓昊; 杨冬菊; 徐晨阳 中国科学技术信息研究所; 北京100038; 大规模流数据集成与分析技术北京市重点实验室; 北京100144; 北方工业大学数据工程研究院; 北京100144

摘要:随着数据仓库的规模不断扩大,数据集成下的ETL(Extraction-Transformation-Loading)任务也随之增多,单机调度显然已经不能满足当下繁多复杂的ETL任务调度。针对ETL任务调度如何提高效率、缩短关键任务等待时间、提升资源利用率等问题,构建了一套分布式ETL任务调度框架,该框架由调度器和若干执行器组成,通过任务预处理、任务调度分配、任务执行3个阶段来完成ETL任务调度。在任务预处理阶段,对ETL任务建立权重模型,并根据权重确定调度优先级。在任务调度分配阶段,调度器根据各个执行器节点的性能及负载情况来约束执行器节点的选择,并设计贪心平衡(Greedy Balance,GB)算法来进行ETL任务执行请求的分发,使执行器节点的负载相对均衡。在任务执行阶段,通过高响应比优先(Highest Response Ratio Next,HRRN)算法确定执行器节点队列下任务的执行优先级。实验结果表明,分布式ETL任务调度框架及相应的一体化调度执行(Integrated Scheduling Execution,ISE)算法能够有效提高集群资源的利用率,缩短任务调度的执行时间。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机科学

北大期刊 下单

国际刊号:1002-137X

国内刊号:50-1075/TP

杂志详情
相关热门期刊

服务介绍LITERATURE

正规发表流程 全程指导

多年专注期刊服务,熟悉发表政策,投稿全程指导。因为专注所以专业。

保障正刊 双刊号

推荐期刊保障正刊,评职认可,企业资质合规可查。

用户信息严格保密

诚信服务,签订协议,严格保密用户信息,提供正规票据。

不成功可退款

如果发表不成功可退款或转刊。资金受第三方支付宝监管,安全放心。