Microsoft pamautti Fabric-tuotteensa yleisesti saataville marraskuussa viime vuonna. Kirjoittelin muutaman sanan Fabricista ylemmällä tasolla edellisen blogitekstini aluksi. Yleisempää höpinää ja myyntijargonia tästä SaaS-tuotteesta voi lukea meidän kilpailijoiden blogeista. Keskitytään me itse asiaan ja jatketaan siitä mihin viimeksi jäätiin, eli integraatiotyökuormien esittelyyn.
Microsoft Fabric (Lähde: Microsoft Learn)
Azure Data Factory (ADF) on Microsoftin pilvessä toimiva integraatio-, transformaatio- ja ETL-alusta. Tuote julkaistiin lähes 10 vuotta sitten ja se voidaan nähdä jonkinlaisena jatkumona paikallisilla palvelimilla käytetylle SQL Server Integration Services (SSIS) -tuotteelle. ADF sisältää yli 90 connectoria eri datalähteisiin ja on nykyisin varmasti yksi käytetyimpiä työkaluja enterprise-tason tietovarastointiratkaisuissa.
Vuonna 2019 Microsoft julkaisi Synapsen yhteydessä Synapse Pipelinesin. Tämä työkalu sisältää osajoukon matuurimman ADF:n ominaisuuksista keskittyen nimenomaan suurten datamassojen siirtelyyn ja tietovarastoinnin kontekstiin. Listausta ADF ja Synapse Pipelines eroista luettavissa mm. täällä.
Kuten tiedämme, viime vuonna kaikki muuttui taas. Fabric julkaistiin esikatselutilaan toukokuussa ja sen mukana yhtenä palikkana uudistunut Data Factory. Fabricissa Data Factory on jaettu kahteen ominaisuuteen: edellisessä blogissa käsitelty, Power Queryä käyttävä Dataflows Gen2 ja Pipelines. Ylätasolla eroavaisuuksia ADF:n kanssa ovat tietenkin suora integraatio Fabriciin, Copy assistant, Pipeline templatet sekä uudet kyvykkyydet orkestrointiin.
Copy assistant -toiminnallisuus (Lähde: Microsoft Fabric Blog)
Rutinoitunut ADF-jyyrä huomaisi varmaan sen, että mainittujen ylätason eroavaisuuksien lisäksi osa toiminnallisuuksista on muuttanut nimeään ja käyttöliittymässä on tapahtunut muutoksia. Linked Servicet ovat nyt ytimekkästi "Connections". Triggerit on nimetty uudestaan muotoon "Schedules" jne. Alkushokin jälkeen muitakin uudistuksia tulee vastaan:
Datasetit
ADF:ssä ja Synapse Pipelinesissa tiedon siirtäminen perustuu ennaltamääriteltyihin datasetteihin. Fabricissa konseptista on luovuttu, ja lähteen tai kohteen tiedot määritellään joka aktiviteetissa erikseen.
Integration runtime
Integration Runtimet puuttuvat Fabricin Data Factorystä. Self-hosted IR sen sijaan näyttäisi Microsoftin documentaation mukaan olevan vielä kehitysvaiheessa. Nähtäväksi jää, miten eri gateway-vaihtoehdot Fabricin sisällä pystyvät vastaamaan näitä aiempia IR-kyvykkyyksiä.
Triggerit
Toistaiseksi triggerit puuttuvat Fabricin Data Factorystä. Ajoja voi käynnistää tällä hetkellä manuaalisesti tai ajastetusti. Microsoftin mukaan muut triggerit ovat työn alla.
Julkaisu
Pipelinen julkaisua ei tarvitse tehdä erikseen, vaan muutokset uivat tallentamalla julkaistuun versioon Fabricin työtilassa. Versiohallinta hoidetaan työtilatasolla, tosin Git integraatio ei tällä hetkellä vielä tue Pipelinejä.
Fabric tallennusvaihtoehdot
Data Factory tunnistaa ja ehdottaa näppärästi Fabricin datan tallennuspaikkoja, eli Lakehouseja, KQL-tietokantoja sekä Data Warehouseja.
Dataflows Gen2
Microsoft viestii Fabricin Data Factoryn koostuvan siis puoliksi Dataflows Gen 2:sta ja puoliksi Pipelinesistä. Käyttötarkoitus näillä lienee jokseenkin sama, käyttäjäkunta eri. Joka tapauksessa näitä Dataflowseja voi ajaa näppärästi Pipelinen osana.
Dataflow-aktiviteetti
Monitorointi
Kaikki Data Factoryn ajot voidaan monitoroida uuden Monitoring hubin kautta. Hubi tosin näyttää kaikki ajot mitä alustalla tapahtuu, joten laajoilla käyttöoikeuksilla varustettu insinööri varmaan joutuu suodattamaan vain häntä kiinnostavat työkuormat näkyviin. Toisaalta tällainen ajojen monitorointi työtilojen yli voi olla hyväkin asia.
Monitoring hub (Lähde: Microsoft Learn)
Toinen paikka monitoroida nimenomaan Pipelinejen ajoja on suoraan Copy data -aktiviteetin "Activity runs" osiosta. Valikko tarjoaa itseasiassa aika kivasti lisätietoa jokaisesta aktiviteetin ajosta.
Copy data -aktiviteetin lisätiedot (Lähde: Microsoft Learn)
Outlook 365- ja Teams-integraatiot
Aktiviteetin tiedot saa näköjään lähetettyä suoraan Outlookkiin tai Teamsiin dynaamisen sisällön kera. Nice. Tälle keksii helposti käyttöä raportoinnin maailmassa.
Lisää eroavaisuuksia listattuna Microsoftin toimesta mm. täällä.
Fabricin Data Factoryn tavoitteena lienee tarjota uusi iteraatio tutusta työkalusta uusine kiiltävine ominaisuuksineen. Myös jako Pipelinesiin ja Dataflow Gen2:een sopii tarinaan eri "persoonista" organisaatiossa. Sama temppu kun onnistuu monella tavalla, ja ensimmäinen steppi Fabric-kehityksessä on joka tapauksessa saada datat OneLakeen.
Pärjääkö tällä? Mielestämme kyllä, jos tietoalustasi on kokonaan tai osittain Fabricilla rakennettu. Valtaosa tutuimmista datan puljaukseen käytetyistä aktiviteeteista, tietolähteistä ja ominaisuuksista tästä uudesta Data Factorystä jo löytyy.
Mikäli teillä pohditaan Microsoft Fabricin käyttöönottoa tällä hetkellä, kerromme mielellämme lisää mahdollisuuksista ja esittelemme tuotetta. Yhteyttä voi ottaa esimerkiksi allekirjoittaneeseen.
Ensi kertaan!
Microsoft,
Fabric,
Data Factory,
Pipeline,
ETL,
Dataflow,
Integration
Timi on BI-kehittäjä ja keittiödatainsinööri jonka kiinnostuksen kohteisiin kuuluvat Microsoftin datatuotteiden lisäksi talviuinti, tennis ja suomirap.
Aloitamme yhteistyön pitkän linjan data-alan asiantuntijan Ari Hovin kanssa
Lue lisää
Katsotaan miten Microsoft on toteuttanut Notebook-ympäristönsä
Lue lisää
Databricks kumppanuuden myötä Data Clinic kasvattaa virallisesti Suomen Lakehouse-arkkitehtuuriasiantuntijaverkostoa
Lue lisää
Saa ilmoitus sähköpostiisi uusista julkaisuistamme dataan ja teknologioihin liittyen
Yhteystiedot
+358 50 551 9293
Osoite
Siltasaarenkatu 12 C, 8. kerros
00530 Helsinki
Laskutus
© 2024 Data Clinic Oy
Näkemystä datasi hyödyntämiseen
© 2024 Data Clinic Oy
Tämä sivusto käyttää evästeitä palveluiden toimittamisessa, käyttäjäkokemuksen parantamisessa ja liikenteen analysoinnissa