数据清理中同体不同源数据的数化算法研究
作者:夏骄雄; 徐俊; 吴耿锋 上海大学计算机工程与科学学院; 上海200072
摘要:在数据仓库构建的数据清理过程中,同体不同源数据的发现一直是清理过程的难点。在现实情况下,存在的单一实体在不同的数据源中以不同的方式进行存储或者表达的同体不同源数据,传统数据清理技术对其发现、修正需要花费大量的时间和系统资源进行比较,实际效果并不理想。该文提出一种新型的、利用数据数字化存储特点来查找同体不同源数据的算法,能够有效减少数据间的比较次数,并确保数据清理结果的质量。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社