category
在本文中,我们将了解数据验证(verification )和数据验证(validation)之间的区别,这两个术语在我们谈论数据质量时经常互换使用。然而,这两个术语是不同的。
作者:高级分析实践负责人Aditya Aggarwal和Abzooba首席科学官Arnab Bose
当我们谈论数据质量时,我们经常交替使用数据验证和数据验证。然而,这两个术语是不同的。在这篇文章中,我们将了解4种不同背景下的差异:
- 验证和确认的字典含义
- 数据验证和一般数据验证之间的差异
- 从软件开发的角度看验证和确认的区别
- 从机器学习的角度看数据验证和数据验证的区别
1.验证和确认的字典含义
表1通过几个例子解释了单词验证和确认的字典含义。
表1:验证和确认的字典含义(able 1: Dictionary meaning of verification and validation)
总之,验证是关于真实性和准确性,而验证是关于支持一个观点的强度或声明的正确性。验证检查方法的正确性,而验证检查结果的准确性。
2.数据验证与数据确认的一般区别
既然我们已经理解了这两个词的字面意思,那么让我们来探究“数据验证”和“数据确认”之间的区别。
- 数据验证(Data verification):确保数据的准确性。
- 数据验证(Data validation):确保数据正确无误。
让我们在表2中举例说明。
表2:“数据验证”和“数据确认”示例(Table 2: "Data verification" and "data validation" examples)
3.从软件开发的角度看验证(verification)和确认(validation)的区别
从软件开发的角度来看,
- 进行验证(Verification )是为了确保软件具有高质量、精心设计、健壮和无错误,而不影响其可用性。
- 进行验证(Validation )是为了确保软件的可用性和满足客户需求的能力。
Fig 1: Differences between Verification and Validation in software development (Source)
如图1所示,正确性证明、稳健性分析、单元测试、集成测试和其他都是验证步骤,其中任务旨在验证细节。根据所需输出验证软件输出。另一方面,模型检查、黑匣子测试、可用性测试都是验证步骤,任务的方向是了解软件是否满足要求和期望。
4.从机器学习的角度来看数据验证和数据验证的区别
数据验证(data verification)在机器学习管道中的作用是充当看门人。它可确保数据随时间的推移而准确更新。数据验证主要在新的数据采集阶段进行,即在ML管道的步骤8进行,如图2所示。此步骤的示例是识别重复记录并执行重复数据消除,以及清除地址或电话号码等字段中客户信息的不匹配。
另一方面,数据验证(data validation)(在ML流水线的步骤3)确保来自步骤8的添加到学习数据的增量数据具有良好的质量并且(从统计特性的角度来看)与现有的训练数据相似。例如,这包括发现数据异常或检测现有训练数据与要添加到训练数据的新数据之间的差异。否则,增量数据中的任何数据质量问题/统计差异都可能被遗漏,并且训练误差可能随着时间的推移而积累并恶化模型精度。因此,数据验证在早期阶段检测到增量训练数据的显著变化(如果有的话),这有助于进行根本原因分析。
Fig 2: Components of Machine Learning Pipeline
Aditya Aggarwal担任Abzooba股份有限公司的数据科学-实践主管。Aditya在通过数据驱动解决方案推动商业目标方面拥有超过12年的经验,专门从事预测分析、机器学习、商业智能和一系列行业的商业战略。
Arnab Bose博士是数据分析公司Abzooba的首席科学官,也是芝加哥大学的兼职教师。他在分析学硕士课程中教授机器学习和预测分析、机器学习操作、时间序列分析和预测以及健康分析。他是一位20年预测分析行业资深人士,喜欢使用非结构化和结构化数据来预测和影响医疗保健、零售、金融和运输领域的行为结果。他目前的重点领域包括使用机器学习的健康风险分层和慢性病管理,以及机器学习模型的生产部署和监测。
相关的
- MLOps – “Why is it required?” and “What it is”?
- My machine learning model does not learn. What should I do?
- Data Observability, Part II: How to Build Your Own Data Quality Monitors Using SQL
- Data Science, Statistics and Machine Learning Dictionary
- How to Update a Python Dictionary
- Data Validation in Machine Learning is Imperative, Not Optional
- Full cross-validation and generating learning curves for time-series models
- Unlocking Reliable Generations through Chain-of-Verification: A…
- Data Validation for PySpark Applications using Pandera
最新内容
- 3 days 8 hours ago
- 3 days 10 hours ago
- 3 days 10 hours ago
- 6 days 2 hours ago
- 6 days 9 hours ago
- 6 days 10 hours ago
- 6 days 10 hours ago
- 6 days 10 hours ago
- 1 week 3 days ago
- 1 week 3 days ago