超高频金融计量分析:数据处理问题与清洗方法

需积分: 10 3 下载量 133 浏览量 更新于2024-09-10 1 收藏 1.2MB PDF 举报
"这篇论文探讨了在金融超高频数据分析中所面临的数据处理问题,包括错误数据的纠正和异常值检测,以及数据聚合方法对经济计量分析的影响。文章以纽约证券交易所的数据为例,展示了如何通过标准过滤器去除交易和报价中的不良记录,并提出了一种异常值检测方法来移除不符合市场行为的数据。作者还建议了多种数据聚合策略,用于构建适用于经济计量分析的时间序列。以自回归条件持续时间模型(ARCD)对价格持续时间的估计为例,证明了未经适当清洗的数据可能会缩短价格变动之间的持续时间,改变系列的自相关特性,从而显著影响模型参数估计和诊断结果。" 这篇论文《金融超高频分析:数据处理问题》发表在《计算统计与数据分析》(Computational Statistics & Data Analysis) 2006年第51期,由C.T. Brownlees和G.M. Gallo共同撰写。论文指出,超高频金融数据的收集涉及到复杂数据库的管理,并且需要处理潜在的数据错误。论文选择纽约证券交易所的数据集作为研究对象,揭示了这些高频数据集可能存在的问题。 文章提出,应用标准过滤器可以有效地剔除交易和报价数据中的错误记录。同时,为了识别并移除不符合市场逻辑的异常值,作者提出了一种方法。这种方法对于保持数据的准确性和一致性至关重要,因为异常值可能会扭曲市场行为的分析结果。 作者进一步讨论了多种数据聚合技术,这些技术可以根据需求构造出适合进行经济计量分析的时间序列。他们以自回归条件持续时间模型的应用为例,该模型通常用于研究金融事件之间的间隔时间。如果未对数据进行充分的清洗,即未能去除“错误”的交易记录,那么模型估计的参数和整体诊断将受到显著影响,不同算法过滤后的系列间差异小于脏数据与干净数据间的差异。 这篇论文强调了在进行金融超高频数据的经济计量分析时,数据预处理的重要性。正确的数据清洗和异常值处理对于确保模型的可靠性和预测能力具有决定性作用。此外,选择合适的聚合方法构建时间序列也对分析结果有深远影响。