Конвертация XML в Avro

Мы все знаем, какой XML правильный? На всякий случай, нет проблем, вот в чем дело.

<root>
<node>5</node>
</root>

Теперь, что действительно нужно компьютеру, так это номер пять и некоторый контекст вокруг него. В XML вы (человек и компьютер) можете видеть, как он представляет контекст для пяти. Теперь допустим, что вместо этого у вас есть бизнес-документ XML, такой как FPML

<FpML xmlns="http://www.fpml.org/2007/FpML-4-4" xmlns:fpml="http://www.fpml.org/2007/FpML-4-4" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" version="4-4" xsi:schemaLocation="http://www.fpml.org/2007/FpML-4-4 ../fpml-main-4-4.xsd http://www.w3.org/2000/09/xmldsig# ../xmldsig-core-schema.xsd" xsi:type="RequestTradeConfirmation">
<!--  start of distinct  -->
<strike>
<strikePrice>32.00</strikePrice>
</strike>
<numberOfOptions>150000</numberOfOptions>
<optionEntitlement>1.00</optionEntitlement>
<equityPremium>
<payerPartyReference href="party2"/>
<receiverPartyReference href="party1"/>
<paymentAmount>
<currency>EUR</currency>
<amount>405000</amount>
</paymentAmount>
<paymentDate>
<unadjustedDate>2001-07-17Z</unadjustedDate>
<dateAdjustments>
<businessDayConvention>NONE</businessDayConvention>
</dateAdjustments>
</paymentDate>
<pricePerOption>
<currency>EUR</currency>
<amount>2.70</amount>
</pricePerOption>
</equityPremium>
</equityOption>
<calculationAgent>
<calculationAgentPartyReference href="party1"/>
</calculationAgent>
<documentation>
<masterAgreement>
<masterAgreementType>ISDA2002</masterAgreementType>
</masterAgreement>
<contractualDefinitions>ISDA2002Equity</contractualDefinitions>
<!--
 populate credit support document with correct value 
-->
<creditSupportDocument>TODO</creditSupportDocument>
</documentation>
<governingLaw>GBEN</governingLaw>
</trade>
<party id="party1">
<partyId>Party A</partyId>
</party>
<party id="party2">
<partyId>Party B</partyId>
</party>
</FpML>

Это много лишних ненужных точек данных. Теперь давайте посмотрим на это с помощью Apache Avro .

С Avro контекст и значения разделены. Это означает, что схема / структура информации не сохраняется и не передается снова и снова, снова и снова (и снова).

Схема Avro хешируется. Таким образом, структура данных содержит только значение, и компьютер понимает отпечаток (хэш) схемы и может извлечь схему, используя отпечаток пальца.

0x d7a8fbb307d7809469ca9abcb0082e4f8d5651e46d3cdb762d02d0bf37c9e592

Этот тип реализации довольно типичен для пространства данных.

Когда вы сделаете это, вы можете уменьшить ваши данные между 20% -80%. Когда я рассказываю об этом людям, они сразу же спрашивают: «Почему такой большой промежуток неизвестных». Ответ в том, что не каждый XML создается одинаково. Но это проблема, потому что вы дублируете информацию, необходимую компьютеру для понимания данных. Конечно, XML приятно читать людям, но он не оптимизирован для компьютера.

Вот конвертер, над которым мы работаем по адресу https://github.com/stealthly/xml-avro, чтобы помочь людям освоить XML и перейти на более дешевые системы с открытым исходным кодом. Это позволяет вам сохранять части ваших систем (в частности, бизнес-код домена), используя XML и не требуя изменений (снижение рисков), а сохраняя и передавая данные с меньшими издержками (оптимизируя бюджет).

Ссылка: XML в Avro Conversion от нашего партнера JCG Джо Стейна в блоге All Things Hadoop .

Конвертация XML в Avro

Категории

Последние статьи

Рефакторинг Hudson God Class

Альтернативы синтаксиса Java лямбда

Morphia и MongoDB: развивающиеся структуры документов

OpenShift Express: развертывание приложения Java EE (с поддержкой AS7)

Интеграция jqGrid, REST, AJAX и Spring MVC