Microsoft Fabric: Data Factory

Microsoft pamautti Fabric-tuotteensa yleisesti saataville marraskuussa viime vuonna. Kirjoittelin muutaman sanan Fabricista ylemmällä tasolla edellisen blogitekstini aluksi. Yleisempää höpinää ja myyntijargonia tästä SaaS-tuotteesta voi lukea meidän kilpailijoiden blogeista. Keskitytään me itse asiaan ja jatketaan siitä mihin viimeksi jäätiin, eli integraatiotyökuormien esittelyyn.

Microsoft Fabric (Lähde: Microsoft Learn)

Evoluutio

Azure Data Factory (ADF) on Microsoftin pilvessä toimiva integraatio-, transformaatio- ja ETL-alusta. Tuote julkaistiin lähes 10 vuotta sitten ja se voidaan nähdä jonkinlaisena jatkumona paikallisilla palvelimilla käytetylle SQL Server Integration Services (SSIS) -tuotteelle. ADF sisältää yli 90 connectoria eri datalähteisiin ja on nykyisin varmasti yksi käytetyimpiä työkaluja enterprise-tason tietovarastointiratkaisuissa.

Vuonna 2019 Microsoft julkaisi Synapsen yhteydessä Synapse Pipelinesin. Tämä työkalu sisältää osajoukon matuurimman ADF:n ominaisuuksista keskittyen nimenomaan suurten datamassojen siirtelyyn ja tietovarastoinnin kontekstiin. Listausta ADF ja Synapse Pipelines eroista luettavissa mm. täällä.

Kuten tiedämme, viime vuonna kaikki muuttui taas. Fabric julkaistiin esikatselutilaan toukokuussa ja sen mukana yhtenä palikkana uudistunut Data Factory. Fabricissa Data Factory on jaettu kahteen ominaisuuteen: edellisessä blogissa käsitelty, Power Queryä käyttävä Dataflows Gen2 ja Pipelines. Ylätasolla eroavaisuuksia ADF:n kanssa ovat tietenkin suora integraatio Fabriciin, Copy assistant, Pipeline templatet sekä uudet kyvykkyydet orkestrointiin.

Copy assistant -toiminnallisuus (Lähde: Microsoft Fabric Blog)

Havaintoja

Rutinoitunut ADF-jyyrä huomaisi varmaan sen, että mainittujen ylätason eroavaisuuksien lisäksi osa toiminnallisuuksista on muuttanut nimeään ja käyttöliittymässä on tapahtunut muutoksia. Linked Servicet ovat nyt ytimekkästi "Connections". Triggerit on nimetty uudestaan muotoon "Schedules" jne. Alkushokin jälkeen muitakin uudistuksia tulee vastaan:

Datasetit

ADF:ssä ja Synapse Pipelinesissa tiedon siirtäminen perustuu ennaltamääriteltyihin datasetteihin. Fabricissa konseptista on luovuttu, ja lähteen tai kohteen tiedot määritellään joka aktiviteetissa erikseen.

Integration runtime

Integration Runtimet puuttuvat Fabricin Data Factorystä. Self-hosted IR sen sijaan näyttäisi Microsoftin documentaation mukaan olevan vielä kehitysvaiheessa. Nähtäväksi jää, miten eri gateway-vaihtoehdot Fabricin sisällä pystyvät vastaamaan näitä aiempia IR-kyvykkyyksiä.

Triggerit

Toistaiseksi triggerit puuttuvat Fabricin Data Factorystä. Ajoja voi käynnistää tällä hetkellä manuaalisesti tai ajastetusti. Microsoftin mukaan muut triggerit ovat työn alla.

Julkaisu

Pipelinen julkaisua ei tarvitse tehdä erikseen, vaan muutokset uivat tallentamalla julkaistuun versioon Fabricin työtilassa. Versiohallinta hoidetaan työtilatasolla, tosin Git integraatio ei tällä hetkellä vielä tue Pipelinejä.

Fabric tallennusvaihtoehdot

Data Factory tunnistaa ja ehdottaa näppärästi Fabricin datan tallennuspaikkoja, eli Lakehouseja, KQL-tietokantoja sekä Data Warehouseja.

Dataflows Gen2

Microsoft viestii Fabricin Data Factoryn koostuvan siis puoliksi Dataflows Gen 2:sta ja puoliksi Pipelinesistä. Käyttötarkoitus näillä lienee jokseenkin sama, käyttäjäkunta eri. Joka tapauksessa näitä Dataflowseja voi ajaa näppärästi Pipelinen osana.

Dataflow-aktiviteetti

Monitorointi

Kaikki Data Factoryn ajot voidaan monitoroida uuden Monitoring hubin kautta. Hubi tosin näyttää kaikki ajot mitä alustalla tapahtuu, joten laajoilla käyttöoikeuksilla varustettu insinööri varmaan joutuu suodattamaan vain häntä kiinnostavat työkuormat näkyviin. Toisaalta tällainen ajojen monitorointi työtilojen yli voi olla hyväkin asia.

Monitoring hub (Lähde: Microsoft Learn)

Toinen paikka monitoroida nimenomaan Pipelinejen ajoja on suoraan Copy data -aktiviteetin "Activity runs" osiosta. Valikko tarjoaa itseasiassa aika kivasti lisätietoa jokaisesta aktiviteetin ajosta.

Copy data -aktiviteetin lisätiedot (Lähde: Microsoft Learn)

Outlook 365- ja Teams-integraatiot

Aktiviteetin tiedot saa näköjään lähetettyä suoraan Outlookkiin tai Teamsiin dynaamisen sisällön kera. Nice. Tälle keksii helposti käyttöä raportoinnin maailmassa.

Lisää eroavaisuuksia listattuna Microsoftin toimesta mm. täällä.

Tiivistys

Fabricin Data Factoryn tavoitteena lienee tarjota uusi iteraatio tutusta työkalusta uusine kiiltävine ominaisuuksineen. Myös jako Pipelinesiin ja Dataflow Gen2:een sopii tarinaan eri "persoonista" organisaatiossa. Sama temppu kun onnistuu monella tavalla, ja ensimmäinen steppi Fabric-kehityksessä on joka tapauksessa saada datat OneLakeen.

Pärjääkö tällä? Mielestämme kyllä, jos tietoalustasi on kokonaan tai osittain Fabricilla rakennettu. Valtaosa tutuimmista datan puljaukseen käytetyistä aktiviteeteista, tietolähteistä ja ominaisuuksista tästä uudesta Data Factorystä jo löytyy.

Mikäli teillä pohditaan Microsoft Fabricin käyttöönottoa tällä hetkellä, kerromme mielellämme lisää mahdollisuuksista ja esittelemme tuotetta. Yhteyttä voi ottaa esimerkiksi allekirjoittaneeseen.

Ensi kertaan!

Avainsanat:

Microsoft,

Fabric,

Data Factory,

Pipeline,

ETL,

Dataflow,

Integration

Microsoft Fabric: Data Factory

Paljon vanhaa, ripaus uutta

Evoluutio

Havaintoja

Tiivistys

Joko luit nämä?

Microsoft Fabric: Shortcuts

Data Clinic yhteistyöhön Ari Hovin kanssa

Microsoft Fabric: Notebooks

Tilaa blogin uutiskirje