Apache Pig - присоединиться к оператору

Оператор JOIN используется для объединения записей из двух или более отношений. При выполнении операции соединения мы объявляем один (или группу) кортежей из каждого отношения в качестве ключей. Когда эти ключи совпадают, два конкретных кортежа совпадают, иначе записи удаляются. Объединения могут быть следующих типов —

Автообъединение
Внутреннее соединение
Внешнее соединение — левое соединение, правое соединение и полное соединение

В этой главе с примерами объясняется, как использовать оператор соединения в Pig Latin. Предположим, что у нас есть два файла, а именно customer.txt и orders.txt в каталоге / pig_data / HDFS, как показано ниже.

customers.txt

1,Ramesh,32,Ahmedabad,2000.00
2,Khilan,25,Delhi,1500.00
3,kaushik,23,Kota,2000.00
4,Chaitali,25,Mumbai,6500.00 
5,Hardik,27,Bhopal,8500.00
6,Komal,22,MP,4500.00
7,Muffy,24,Indore,10000.00

orders.txt

102,2009-10-08 00:00:00,3,3000
100,2009-10-08 00:00:00,3,1500
101,2009-11-20 00:00:00,2,1560
103,2008-05-20 00:00:00,4,2060

И мы загрузили эти два файла в Pig с отношениями с клиентами и заказами, как показано ниже.

grunt> customers = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, address:chararray, salary:int);
  
grunt> orders = LOAD 'hdfs://localhost:9000/pig_data/orders.txt' USING PigStorage(',')
   as (oid:int, date:chararray, customer_id:int, amount:int);

Давайте теперь выполним различные операции соединения над этими двумя отношениями.

Самостоятельно присоединиться

Self-join используется для объединения таблицы с самим собой, как если бы в таблице было два отношения, временно переименовывающих хотя бы одно отношение.

Обычно в Apache Pig для самостоятельного объединения мы загружаем одни и те же данные несколько раз под разными псевдонимами (именами). Поэтому давайте загрузим содержимое файла customer.txt в виде двух таблиц, как показано ниже.

grunt> customers1 = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, address:chararray, salary:int);
  
grunt> customers2 = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, address:chararray, salary:int);

Синтаксис

Ниже приведен синтаксис выполнения операции самостоятельного соединения с использованием оператора JOIN .

grunt> Relation3_name = JOIN Relation1_name BY key, Relation2_name BY key ;

пример

Давайте выполним операцию самосоединения над отношениями клиентов , объединив два отношения клиенты1 и клиенты2, как показано ниже.

grunt> customers3 = JOIN customers1 BY id, customers2 BY id;

верификация

Проверьте отношение клиентов3 с помощью оператора DUMP, как показано ниже.

grunt> Dump customers3;

Выход

Он выдаст следующий вывод, отображающий содержимое отношений с клиентами .

(1,Ramesh,32,Ahmedabad,2000,1,Ramesh,32,Ahmedabad,2000)
(2,Khilan,25,Delhi,1500,2,Khilan,25,Delhi,1500)
(3,kaushik,23,Kota,2000,3,kaushik,23,Kota,2000)
(4,Chaitali,25,Mumbai,6500,4,Chaitali,25,Mumbai,6500)
(5,Hardik,27,Bhopal,8500,5,Hardik,27,Bhopal,8500)
(6,Komal,22,MP,4500,6,Komal,22,MP,4500)
(7,Muffy,24,Indore,10000,7,Muffy,24,Indore,10000)

Внутреннее соединение

Inner Join используется довольно часто; это также упоминается как equijoin . Внутреннее соединение возвращает строки, когда в обеих таблицах есть совпадение.

Он создает новое отношение путем объединения значений столбцов двух отношений (скажем, A и B) на основе предиката соединения. Запрос сравнивает каждую строку A с каждой строкой B, чтобы найти все пары строк, которые удовлетворяют предикату соединения. Когда предикат соединения удовлетворяется, значения столбцов для каждой соответствующей пары строк A и B объединяются в результирующую строку.

Синтаксис

Вот синтаксис выполнения операции внутреннего соединения с использованием оператора JOIN .

grunt> result = JOIN relation1 BY columnname, relation2 BY columnname;

пример

Давайте выполним внутреннюю операцию соединения двух клиентов и заказов, как показано ниже.

grunt> coustomer_orders = JOIN customers BY id, orders BY customer_id;

верификация

Проверьте отношение coustomer_orders с помощью оператора DUMP, как показано ниже.

grunt> Dump coustomer_orders;

Выход

Вы получите следующий вывод, который будет содержать содержимое отношения с именем coustomer_orders .

(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)

Примечание —

Внешнее соединение : в отличие от внутреннего соединения, внешнее соединение возвращает все строки хотя бы из одного отношения. Операция внешнего соединения выполняется тремя способами:

Левое внешнее соединение
Правое внешнее соединение
Полное внешнее соединение

Левое внешнее соединение

Левая внешняя операция Join возвращает все строки из левой таблицы, даже если в правом отношении нет совпадений.

Синтаксис

Ниже приведен синтаксис выполнения левой операции внешнего соединения с использованием оператора JOIN .

grunt> Relation3_name = JOIN Relation1_name BY id LEFT OUTER, Relation2_name BY customer_id;

пример

Давайте выполним операцию левого внешнего соединения для двух отношений с клиентами и заказами, как показано ниже.

grunt> outer_left = JOIN customers BY id LEFT OUTER, orders BY customer_id;

верификация

Проверьте отношение external_left с помощью оператора DUMP, как показано ниже.

grunt> Dump outer_left;

Выход

Он выдаст следующий вывод, отображающий содержимое отношения external_left .

(1,Ramesh,32,Ahmedabad,2000,,,,)
(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)
(5,Hardik,27,Bhopal,8500,,,,)
(6,Komal,22,MP,4500,,,,)
(7,Muffy,24,Indore,10000,,,,)

Правое внешнее соединение

Правая операция внешнего соединения возвращает все строки из правой таблицы, даже если в левой таблице нет совпадений.

Синтаксис

Ниже приведен синтаксис выполнения правой операции внешнего соединения с использованием оператора JOIN .

grunt> outer_right = JOIN customers BY id RIGHT, orders BY customer_id;

пример

Давайте выполним операцию правого внешнего соединения для двух отношений с клиентами и заказами, как показано ниже.

grunt> outer_right = JOIN customers BY id RIGHT, orders BY customer_id;

верификация

Проверьте отношение external_right, используя оператор DUMP, как показано ниже.

grunt> Dump outer_right

Выход

Он выдаст следующий вывод, отображающий содержимое отношения external_right .

(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)

Полное внешнее соединение

Операция полного внешнего соединения возвращает строки при совпадении в одном из отношений.

Синтаксис

Ниже приведен синтаксис выполнения полного внешнего соединения с использованием оператора JOIN .

grunt> outer_full = JOIN customers BY id FULL OUTER, orders BY customer_id;

пример

Давайте выполним полную внешнюю операцию соединения двух клиентов и заказов, как показано ниже.

grunt> outer_full = JOIN customers BY id FULL OUTER, orders BY customer_id;

верификация

Проверьте отношение external_full, используя оператор DUMP, как показано ниже.

grun> Dump outer_full;

Выход

Он выдаст следующий вывод, отображающий содержимое отношения external_full .

(1,Ramesh,32,Ahmedabad,2000,,,,)
(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)
(5,Hardik,27,Bhopal,8500,,,,)
(6,Komal,22,MP,4500,,,,)
(7,Muffy,24,Indore,10000,,,,)

Использование нескольких ключей

Мы можем выполнить операцию JOIN, используя несколько ключей.

Синтаксис

Вот как вы можете выполнить операцию JOIN для двух таблиц, используя несколько ключей.

grunt> Relation3_name = JOIN Relation2_name BY (key1, key2), Relation3_name BY (key1, key2);

Предположим, что у нас есть два файла, а именно employee.txt и employee_contact.txt в каталоге / pig_data / HDFS, как показано ниже.

employee.txt

001,Rajiv,Reddy,21,programmer,003
002,siddarth,Battacharya,22,programmer,003
003,Rajesh,Khanna,22,programmer,003
004,Preethi,Agarwal,21,programmer,003
005,Trupthi,Mohanthy,23,programmer,003
006,Archana,Mishra,23,programmer,003
007,Komal,Nayak,24,teamlead,002
008,Bharathi,Nambiayar,24,manager,001

employee_contact.txt

001,9848022337,Rajiv@gmail.com,Hyderabad,003
002,9848022338,siddarth@gmail.com,Kolkata,003
003,9848022339,Rajesh@gmail.com,Delhi,003
004,9848022330,Preethi@gmail.com,Pune,003
005,9848022336,Trupthi@gmail.com,Bhuwaneshwar,003
006,9848022335,Archana@gmail.com,Chennai,003
007,9848022334,Komal@gmail.com,trivendram,002
008,9848022333,Bharathi@gmail.com,Chennai,001

И мы загрузили эти два файла в Pig с отношениями employee и employee_contact, как показано ниже.

grunt> employee = LOAD 'hdfs://localhost:9000/pig_data/employee.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, lastname:chararray, age:int, designation:chararray, jobid:int);
  
grunt> employee_contact = LOAD 'hdfs://localhost:9000/pig_data/employee_contact.txt' USING PigStorage(',') 
   as (id:int, phone:chararray, email:chararray, city:chararray, jobid:int);

Теперь давайте объединим содержимое этих двух отношений, используя оператор JOIN, как показано ниже.

grunt> emp = JOIN employee BY (id,jobid), employee_contact BY (id,jobid);

верификация

Проверьте отношение emp, используя оператор DUMP, как показано ниже.

grunt> Dump emp;

Выход

Он выдаст следующий вывод, отображающий содержимое отношения с именем emp, как показано ниже.

Apache Pig — присоединиться к оператору

Самостоятельно присоединиться

Синтаксис

пример

верификация

Выход

Внутреннее соединение

Синтаксис

пример

верификация

Выход

Левое внешнее соединение

Синтаксис

пример

верификация

Выход

Правое внешнее соединение

Синтаксис

пример

верификация

Выход

Полное внешнее соединение

Синтаксис

пример

верификация

Выход

Использование нескольких ключей

Синтаксис

верификация

Выход

Популярные уроки и статьи

Инициализаторы экземпляра в Java объяснены

AJAX - Краткое руководство

TempDB для производительности