业务挑战
● 多元异构
本项目数据源为海量的招标文件资料,数据类型包括数据库数据、文档数据(word、Excel)等,存储于不同的业务系统与设备中,需要对上述海量、多数据源、异构的数据进行采集并实现统一管理。
● 数据解析
文档数据(Word、Excel)为非结构化数据,且招标内容格式不统一,需要对该数据进行数据解析,通过分词拆分提取文本数据中的有效信息,并结构化存储。
● 关联分析
将数据库数据、解析结果数据进行数据关联,为后续统计分析提供支撑。
ALEIYE解决方案
数据采集
从不同业务系统、不同设备中实现数据采集,根据数据类型的不同,数据采集方式主要有以下几种:
● 数据库接入
● 协议传输
● 采集代理
数据预处理
对采集的数据进行预处理工作,包括标准化、过滤、归并、信息补全等,使原始数据格式统一、分类明确,为后续关联分析、数据展现提供支撑。
数据清洗
依据该采购招标网数据清洗标准,对采集的数据进行清洗,通过分词拆分提取文本数据中的有效信息,并结构化存储。
数据分析
主要包括实时分析、离线分析以及挖掘分析三种分析。
● 实时分析
实时分析主要包括了招标数据的实时流式处理、数据实时检索以及异常数据的实时告警。
● 离线分析
离线分析针对海量招标历史数据,结合业务需求进行业务扩展以及建立业务模型。
● 挖掘分析
针对招标数据时间及招标业务特性,将分散在不同系统、设备的数据,有机的按事务发展结合起来,建立算法模型,挖掘价值。
数据可视化
在前端页面上,可以自由进行数据的设置,并对数据进行筛选、条数限制、数据公式等操作,最终生成可视化图表的过程。
● 检索命令快速实现图表展现
通过写检索命令来完成数据分析和数据挖掘,方便进行自主式探索分析。
● 多图表类型支持
包括饼状、折线图、堆栈型条形图、堆栈型柱状图、分组柱状图、分组条形图、比例柱状图、比例条形图、区域图、比例区域图、散点图、地图、气泡图、漏斗图等图表类型支持。
数据输出
支持下述数据输出形式:
● 数据原文形式(采集的原数据)
● JSON形式(原数据中抽取出的内容以“字段:字段值”的形式展现)
● 带标签的数据原文形式(采集的原数据,并对抽取的内容添加标签)
数据存储与管理
清洗后数据存储与管理模块有人工比对、人工修改及结果结构化存储等三项功能。
● 人工比对
用户查询清洗后的数据结果时,系统在展示清洗后数据结果的下方同时展示原数据,供用户查看比对。
● 人工修改
在用户发现清洗后的数据存在问题时,可以直接在查询结果页面选择错误数据内容,并进行调整、修改、保存等操作,保存后的数据将录入至清洗后的数据结果中,再次查询时,将显示修改后的内容。同时系统后台将记录用户调整、修改、保存的操作,协助开发人员提高数据清洗准确率。
● 结果结构化存储清洗后的数据将采用结构化的数据格式存储在数据库中。