ey与elastic合作:利用生成式ai增强数据提取
摘要
随着结构化数据库、非结构化文本和多媒体数据日益普及,组织在从复杂数据中提取有意义的洞察时面临重大挑战。传统搜索和检索方法已无法应对当今数据复杂性及海量数据。本文探讨了生成式ai(gen ai)如何通过语言嵌入和来源定位增强检索策略,优化性能、速度和可扩展性,以有效应对这些挑战。研究聚焦金融服务业与环境、社会和治理(esg)的交叉领域,具体分析从银行排放报告和季度报告中提取数据,并构建数据库,展示高级数据检索在金融服务领域的实际应用和优势。
引言
数据提取始终充满挑战,尤其是处理非结构化、不一致且大量数据时。传统方法依赖外部数据提供商或自建提取管道,成本高且更新不及时。gen ai的出现改变了数据提取领域,可自动分析大量非结构化数据,显著提高准确性和速度。然而,gen ai实施也面临新挑战,如llm可能产生与上下文无关的虚假信息、成本和速度限制导致扩展性受限,以及现成llm和搜索引擎难以根据需求设置。
当前状态和主要挑战
数据激增使传统数据提取和分析方法过时。这些遗留系统依赖手动关键词搜索和静态查询,难以应对当今庞大、动态和多样化的数据流。主要挑战包括:
- 关键词依赖:仅限于精确关键词匹配,无法捕捉语言 nuances 和语义变化。
- 静态查询:预定义查询缺乏灵活性,难以适应新数据类型。
- 可扩展性挑战:数据量和复杂性增长超出传统工具能力,导致搜索响应变慢。
- 非结构化数据复杂性:非结构化数据需要更高级的分析技术。
- 速度和容量障碍:传统架构难以应对数据速度和容量的快速增长。
gen ai和检索策略
gen ai驱动的先进检索系统通过语言嵌入和来源定位等技术,实现高效的数据搜索、存储和分析。这些系统可实时处理结构化、非结构化文本、数值和地理空间信息,支持复杂领域查询。检索系统管道包括:
- 向量存储:存储多种数据类型,包括非结构化文本、结构化数据和密集向量。
- 嵌入模型:如elastic learned sparse encoder(elser),将自然语言转换为向量,强调上下文理解和用户意图。
- 排名模型:如reciprocal rank fusion(rrf),结合多种搜索策略提高结果相关性。
- 相似性搜索:使用k-nearest neighbors(knn)快速高效地查找相似文档。
用例实施评估
1. 从年度esg报告中提取esg变量
esg报告是公司透明度和问责制的重要组成部分,但报告格式不一致、数据质量参差不齐,导致提取关键数据(如scope 1、2、3排放)困难。ey尊龙凯时人生就博的解决方案利用elastic rag技术,通过语言嵌入和来源定位,实现高效、准确的esg数据提取。与naive rag相比:
- 弹性rag响应速度快3倍。
- 在上下文相关性和准确性方面均优于naive rag。
- 多种数据检索方法(如关键词过滤、混合检索)保持高准确性,证明系统鲁棒性和可扩展性。
2. 从财务报告中提取财务变量
从季度报告中提取40多个财务变量更具挑战性,因财务报告包含结构化表格数据,而llm擅长处理文本数据。ey尊龙凯时人生就博的解决方案结合搜索能力和表格摘要技术,采用链式思维和验证过程提高准确性。混合检索系统(向量搜索 bm25)显著提升数据提取可靠性。2023年q1财务报告测试显示,ey尊龙凯时人生就博的解决方案准确率提升近24%,优于传统rag方法。
结论
生成式ai通过整合先进搜索技术与ai,显著提升复杂数据提取的准确性、速度和可扩展性,为金融服务行业树立新标准。这些尊龙凯时人生就博的解决方案不仅解决当前数据分析挑战,还为未来创新奠定基础,强调采用ai驱动策略以充分利用数据,支持更明智的决策。