主页 - Apache Gobblin

内容

Gobblin Logo

多年来,LinkedIn的数据基础设施团队为将各种数据实体导入我们的Hadoop生态系统构建了定制解决方案。曾经,我们运行了15种类型的数据导入管道,这导致了重大的数据质量、元数据管理、开发和运营挑战。

我们的经历和挑战激励我们构建了_Gobblin_。Gobblin是一个通用的数据摄取框架,用于从各种数据源(如数据库、rest API、FTP/SFTP服务器、文件服务器等)中提取、转换和加载大量数据到Hadoop。Gobblin处理所有数据摄取ETL所需的常见例行任务,包括作业/任务调度、任务分区、错误处理、状态管理、数据质量检查、数据发布等。Gobblin在同一执行框架中从不同数据源摄取数据,并在一个地方管理不同源的元数据。这与自动可伸缩性、容错性、数据质量保证、可扩展性以及处理数据模型演变能力等其他功能结合在一起,使Gobblin成为一个易于使用、自助式和高效的数据摄取框架。

您可以在我们的wiki页面中找到许多有用的资源,包括如何开始使用GobblinGobblin架构概述,以及Gobblin用户指南。我们还提供一个讨论组:Google Gobblin用户组。请随时发布任何问题或评论。

有关详细概述,请查看VLDB 2015 论文LinkedIn 的 Gobblin 博客文章

总结
LinkedIn的数据基础设施团队在处理多样化数据实体进入Hadoop生态系统方面建立了自定义解决方案。他们开发了Gobblin,这是一个通用的数据摄取框架,用于从各种数据源(如数据库、REST API、FTP/SFTP服务器等)中提取、转换和加载大量数据到Hadoop。Gobblin处理所有数据摄取ETL所需的常见例行任务,包括作业/任务调度、任务分区、错误处理、状态管理、数据质量检查、数据发布等。Gobblin在同一执行框架中从不同数据源摄取数据,并在一个地方管理不同源的元数据。Gobblin具有自动可伸缩性、容错性、数据质量保证、可扩展性以及处理数据模型演变的能力,使其成为易于使用、自助服务和高效的数据摄取框架。