Spring XD для загрузки данных

Spring XD — это мощный инструмент, представляющий собой устанавливаемый набор сервисов Spring Boot, которые работают либо автономно, либо над YARN, либо над EC2. Spring XD также включает веб-сайт интерфейса администратора и инструмент командной строки для управления заданиями и потоками. Spring XD — это мощный набор сервисов, которые работают с различными источниками данных.

Для идеального использования он должен работать внутри кластера Apache Spark или Hadoop. В первом разделе мы настроим запуск XD на машине Centos / RHEL с необходимыми службами данных. Они предназначены для инфраструктуры, необходимой для работы, а также для приема данных. Вы можете интегрировать существующие RDBMS, MongoDB, Kafka, Apache Spark, Hadoop, REST, RabbitMQ и другие сервисы.

Вы также можете установить XD на Mac, Windows и другие дистрибутивы Linux. Для базового использования на компьютере разработчика просто загрузите Spring XD с веб-сайта Spring.IO и запустите xd / xd / bin / xd-standalone, и этого будет достаточно для запуска загрузки данных.

1. Spring XD Setup

Во-первых, давайте установим Spring XD на ваш сервер Linux, отметив требования к запуску. Если у вас нет необходимых сервисов, загрузка XD включает их версию для запуска.

Ссылка:

Требования:

Apache Zookeeper 3.4.6
Redis
СУБД (MySQL, Postgresql, Apache Derby и т. Д.)

обогатителей:

GemFire (настоятельно рекомендуется для сетки данных в памяти)
GemFire XD (настоятельно рекомендуется для базы данных в памяти)
RabbitMQ (настоятельно рекомендуется)
Apache Yarn

Установка MySQL на Centos / RHEL / Fedora

Реляционная база данных необходима для хранения информации о вашей работе, в то время как может использоваться СУБД в памяти, для реального использования — СУБД. Если у вас есть СУБД, которая доступна из вашего кластера XD, вы можете использовать ее. Я предпочитаю использовать базу данных с открытым исходным кодом только для XD, для этого вы можете установить MySQL или Postgresql.

sudo yum install mysql-server

http://dev.mysql.com/downloads/repo/yum/

Установите Postgresql (не устанавливайте на тот же компьютер, что и GreenPlum)

sudo yum install postgresql-server

Установка Redis

http://redis.docs.pivotal.io/doc/2x/index.html#getting-started/src/install.html # topic_q3g_vzs_yn

(См. RabbitMQ)

ﾠwget -q -O – http://packages.pivotal.io/pub/rpm/rhel6/app-suite/app-suite-installer | sh
ﾠ ﾠ ﾠ ﾠ ﾠ ﾠsudo yum install pivotal-redis
ﾠ ﾠ ﾠ ﾠ ﾠ ﾠsudo service pivotal-redis-6379 start
ﾠ ﾠ ﾠ ﾠ ﾠ ﾠsudo chkconfig —level 35 pivotal-redis-6379 on

Установка RabbitMQ

Требуется RabbitMQ, даже если у вас есть другая очередь сообщений. Достаточно одного узла, но он необходим для связи. Я настоятельно рекомендую иметь реальный кластер RMQ, поскольку он соответствует большинству потоковых потребностей.

http://rabbitmq.docs.pivotal.io/doc/33/index.html#getstart/src/install-getstart.html # install-RHEL

ﾠ
sudo wget -q -O – packages.pivotal.io | sh
sudo wget -q -O – http://packages.pivotal.io/pub/rpm/rhel6/app-suite/app-suite-installer | sh 

В зависимости от разрешений вам, возможно, придется отправить это в файл, выполнить chmod 700 и запустить его с помощью sudo ./installer.sh

ﾠ
sudo yum search pivotal
         pivotal-rabbitmq-server.noarch: The RabbitMQ server
 
sudo yum install pivotal-rabbitmq-server
sudo rabbitmq-plugins enable rabbitmq_management ﾠ ﾠ

Это может привести к конфликту с портами, если вы выполняете другие операции на этом компьютере.

ﾠ
sudo /sbin/service rabbitmq-server start

Установить Spring-XD

Самый простой способ установки — использовать официальные выпуски Pivotal для RHEL, поскольку они сертифицированы. Вам не нужно быть клиентом, чтобы использовать их. Существует несколько других способов загрузки / установки XD, но это самый простой способ для RHEL, поскольку он настраивает их как службы.

sudo wget -q -O – http://packages.pivotal.io/pub/rpm/rhel6/app-suite/app-suite-installer sh 
 
sudo yum install spring-xd

Настройка вашей базы данных вакансий

Измените источник данных, выберите один из приведенных ниже вариантов для простоты настройки. В базе данных заданий хранятся информация и метаданные задания Spring XD. Это необходимо Это будет очень маленький объем данных.

/opt/pivotal/spring-xd/xd/config
ﾠ#spring:
# ﾠdatasource:
# ﾠ ﾠurl: jdbc:mysql://mysqlserver:3306/xdjobs
# ﾠ ﾠusername: xdjobsschema
# ﾠ ﾠpassword: xdsecurepassword
# ﾠ ﾠdriverClassName: com.mysql.jdbc.Driver
# ﾠ ﾠvalidationQuery: select 1
#Config for use with Postgres - uncomment and edit with relevant values for your environment
#spring:
# ﾠdatasource:
# ﾠ ﾠurl: jdbc:postgresql://postgresqlserver:5432/xdjobs
# ﾠ ﾠusername: xdjobsschema
# ﾠ ﾠpassword: xdsecurepassword
# ﾠ ﾠdriverClassName: org.postgresql.Driver
# ﾠ ﾠvalidationQuery: select 1

Проверьте, работает ли один узел Spring-XD:

cd /opt/pivotal/springxd/xd/bin
./xd-singlenode —hadoopDistro phd20

Если вы используете дистрибутив Hadoop, отличный от Pivotal HD 2.0, вы можете указать это здесь или оставить этот флаг выключенным.

Проверьте, работает ли Spring-XD Shell

cd /opt/pivotal/springxd/shell/bin
ﾠ ﾠ ./xd-shell—hadoopDistro phd20

В оболочке есть справка и ярлыки, просто начните печатать, а табуляция разрешит вам имена и параметры.

Установите переменную среды для Spring XD

export XD_HOME=/opt/pivotal/spring-xd/xd

Для доступа по умолчанию я использую:

/opt/pivotal/spring-xd/shell/bin/xd-shell —hadoopDistro phd20

Для тестирования контейнеров и серверов администрирования для распределенной Spring XD (DIRT)

sudo service spring-xd-admin start
sudo service spring-xd-container start

Для тестирования Spring XD

Некоторые команды Spring XD Shell для тестирования

had config fs —namenode hdfs://pivhdsne:8020
admin config server http://localhost:9393
runtime containers
runtime modules
 
hadoop fs ls /xd/
stream create ticktock —definition “time | log”
stream deploy ticktock
stream list

Проверьте веб-интерфейс

Http: // Localhost: 9393 / админ-UI / # / Струйные / определения

2. Spring XD Job и Stream с SQL

Предостережение: полные списки полей сокращены ради пространства, вы должны перечислить все поля, с которыми вы работаете.

Сначала мы создадим простое filejdbc Spring Job, которое загружает необработанный файл с разделителями тильды в HAWQ . Все эти поля входят как поля TEXT, что может быть хорошо для некоторых целей, но не для наших нужд. Мы также создаем поток XD с пользовательским приемником (см. XML, без кодирования), который запускает команду SQL для вставки из этой таблицы и преобразования в другие типы HAWQ (например, числа и время).

Мы запускаем вторичный поток через командную строку REST POST, но мы могли бы использовать синхронизированный триггер или многие другие способы (автоматический, сценарий или ручной), чтобы запустить его. Вы также можете просто создать пользовательское задание XD, которое выполняло приведение типов и некоторые манипуляции или делало это с помощью преобразования скрипта Groovy. Там много вариантов в XD .

jobload.xd

job create loadjob --definition "filejdbc --resources=file:/tmp/xd/input/files/*.* --names=time,userid,dataname,dataname2,
dateTimeField, lastName, firstName, city, state, address1, address2 --tableName=raw_data_tbl --initializeDatabase=true
--driverClassName=org.postgresql.Driver --delimiter=~ --dateFormat=yyyy-MM-dd-hh.mm.ss --numberFormat=%d 
--username=gpadmin --url=jdbc:postgresql:gpadmin" --deploy
stream create --name streamload --definition "http | hawq-store" --deploy
job launch jobload
clear
job list
stream list

Job загружает файл в таблицу Raw HAWQ со всеми текстовыми столбцами.
Поток запускается нажатием веб-страницы или вызовом командной строки

(нужен hawq-магазин). Это вставляет в реальную таблицу и усекает временную.

triggerrun.sh (скрипт оболочки BASH для тестирования)

curl -s -H "Content-Type: application/json" -X POST -d "{id:5}" http://localhost:9000

добавлен JAR-файл JDBC Spring-Integration в / opt / pivotal / spring-xd / xd / lib

hawq-store.xml (Spring Integration / XD Configuration)

/opt/pivotal/spring-xd/xd/modules/sink/hawq-store.xml
<?xml version="1.0" encoding="UTF-8"?>
<beans xmlns="http://www.springframework.org/schema/beans"
 xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:int="http://www.springframework.org/schema/integration"
 xmlns:int-jdbc="http://www.springframework.org/schema/integration/jdbc"
 xmlns:jdbc="http://www.springframework.org/schema/jdbc"
 xsi:schemaLocation="http://www.springframework.org/schema/beans
 http://www.springframework.org/schema/beans/spring-beans.xsd
 http://www.springframework.org/schema/integration
 http://www.springframework.org/schema/integration/spring-integration.xsd
 http://www.springframework.org/schema/integration/jdbc
 http://www.springframework.org/schema/integration/jdbc/spring-integration-jdbc.xsd">
<int:channel id="input" />
<int-jdbc:store-outbound-channel-adapter
 channel="input" query="insert into real_data_tbl(time, userid, firstname, ...) select cast(time as datetime), 
cast(userid as numeric), firstname, ... from dfpp_networkfillclicks" data-source="dataSource" />
<bean id="dataSource" class="org.springframework.jdbc.datasource.DriverManagerDataSource">
 <property name="driverClassName" value="org.postgresql.Driver"/>
 <property name="url" value="jdbc:postgresql:gpadmin"/>
 <property name="username" value="gpadmin"/>
 <property name="password" value=""/>
</bean>
</beans>

createtable.sql

CREATE TABLEﾠraw_data_tbl
 (
 time text,
 userid text ,
...
  somefieldﾠtext
 )
 WITH (APPENDONLY=true)
 DISTRIBUTED BY (time);

3. Spring XD Сценарии для оболочки

Мой сценарий общей настройки (я сохраняю его в файле setup.xd и загружаю его через скрипт – script –file setup.xd )

had config fs --namenode hdfs://localhost:8020
admin config server http://localhost:9393
hadoop fs ls /
stream list

Скрипт для загрузки файла в GemFireXD через Spring-XD

stream create --name fileload --definition "file --dir=/tmp/xd/input/load --outputType=text/plain | ﾠjdbc --tableName=APP.filetest --columns=id,name" --deploy

4. Конфигурация Spring XD для GemFire XD

Скопируйте драйвер JDBC GemFire XD в Spring-XD (может также потребоваться tools.jar)

cp /usr/lib/gphd/Pivotal_GemFireXD_10/lib/gemfirexd-client.jar /opt/pivotal/spring-xd/xd/lib/

Измените свойства JDBC Sink, чтобы они указывали на Gemfire XD. Если вы используете виртуальную машину Pivotal HD и устанавливаете Spring-XD с Yum (sudo yum update spring-xd), это расположение:

/opt/pivotal/spring-xd/xd/config/modules/sink/jdbc/jdbc.properties
url = jdbc:gemfirexd://localhost:1527
username = gfxd
password = gfxd
driverClassName = com.pivotal.gemfirexd.jdbc.ClientDriver

Для Peer Client Driver вам нужно больше файлов из GemFireXD Lib (двоичные файлы .so), связывание, вероятно, хорошая идея.

5. Настройка GemFire XD

gfxd
connect client 'localhost:1527';
 
create table filetest (id int, name varchar(100)) REPLICATE PERSISTENT;
select id, kind, netservers from sys.members;ﾠ
select * from filetest;

Spring XD Commands

stream list

покажи свои потоки

Ссылка:

6. Загрузка данных из RabbitMQ в RDBMS через Spring XD

Простой поток для чтения из очереди кроликов с именем «rq» и отправки его в базу данных SQL со столбцами «message and host», создав новую таблицу с именем «rq».

stream create --name rq --definition "rabbit --outputType=text/plain | jdbc --columns='message,host' --initializeDatabase=true" --deploy

7. Вставка данных из API REST в HDFS через Spring XD

stream create --name hdfssave --definition "http  | hdfs" –deploy

Spring XD для загрузки данных

1. Spring XD Setup

Ссылка:

Требования:

обогатителей:

Установка MySQL на Centos / RHEL / Fedora

Установите Postgresql (не устанавливайте на тот же компьютер, что и GreenPlum)

Установка Redis

Установка RabbitMQ

Установить Spring-XD

Рекомендация

Настройка вашей базы данных вакансий

Проверьте, работает ли Spring-XD Shell

Установите переменную среды для Spring XD

Для тестирования контейнеров и серверов администрирования для распределенной Spring XD (DIRT)

Для тестирования Spring XD

Некоторые команды Spring XD Shell для тестирования

Проверьте веб-интерфейс

2. Spring XD Job и Stream с SQL

jobload.xd

triggerrun.sh (скрипт оболочки BASH для тестирования)

hawq-store.xml (Spring Integration / XD Configuration)

createtable.sql

3. Spring XD Сценарии для оболочки

Скрипт для загрузки файла в GemFireXD через Spring-XD

4. Конфигурация Spring XD для GemFire XD

5. Настройка GemFire XD

Spring XD Commands

Ссылка:

6. Загрузка данных из RabbitMQ в RDBMS через Spring XD

7. Вставка данных из API REST в HDFS через Spring XD

Категории

Последние статьи

Рефакторинг Hudson God Class

Альтернативы синтаксиса Java лямбда

Morphia и MongoDB: развивающиеся структуры документов

OpenShift Express: развертывание приложения Java EE (с поддержкой AS7)

Интеграция jqGrid, REST, AJAX и Spring MVC

Spring XD для загрузки данных

1. Spring XD Setup

Ссылка:

Требования:

обогатителей:

Установка MySQL на Centos / RHEL / Fedora

Установите Postgresql (не устанавливайте на тот же компьютер, что и GreenPlum)

Установка Redis

Установка RabbitMQ

Установить Spring-XD

Рекомендация

Настройка вашей базы данных вакансий

Проверьте, работает ли Spring-XD Shell

Установите переменную среды для Spring XD

Для тестирования контейнеров и серверов администрирования для распределенной Spring XD (DIRT)

Для тестирования Spring XD

Некоторые команды Spring XD Shell для тестирования

Проверьте веб-интерфейс

2. Spring XD Job и Stream с SQL

jobload.xd

triggerrun.sh (скрипт оболочки BASH для тестирования)

hawq-store.xml (Spring Integration / XD Configuration)

createtable.sql

3. Spring XD Сценарии для оболочки

Скрипт для загрузки файла в GemFireXD через Spring-XD

4. Конфигурация Spring XD для GemFire ​​XD

5. Настройка GemFire ​​XD

Spring XD Commands

Ссылка:

6. Загрузка данных из RabbitMQ в RDBMS через Spring XD

7. Вставка данных из API REST в HDFS через Spring XD

Категории

Последние статьи

Рефакторинг Hudson God Class

Альтернативы синтаксиса Java лямбда

Morphia и MongoDB: развивающиеся структуры документов

OpenShift Express: развертывание приложения Java EE (с поддержкой AS7)

Интеграция jqGrid, REST, AJAX и Spring MVC

4. Конфигурация Spring XD для GemFire XD

5. Настройка GemFire XD