Microsoft Fabricin perusideoita on, että kaikki organisaation dataprosessit saadaan yhdelle alustalle. Lisäksi ainakin mainospuheissa toitotetaan sitä, että data tallennetaan aina vain yhden kerran. Tähän ykseyteen viittaa hyvin vahvasti myös Fabricin datantallennustilan nimeäminen OneLakeksi. Tämä blogiteksti ei kuitenkaan keskity OneLakeen, vaan mielestäni yhteen tämän ykseyden parhaista mahdollistajista, eli Shorcut-ominaisuuteen.
Kuten nimikin vihjaa, Shortcut on oikopolku. Tarkemmin sanottuna se on oikopolku varastosijantiin. Nämä varastosijainnit voivat olla Fabricissa tai sen ulkopuolella. Ideana on siis vain kertoa, että tuolta löytyy tällaisia tiedostoja tai tauluja. (Jep, myös Databricksin Delta-tauluihin tai Snowflaken Iceberg-tauluihin voidaan rakentaa oikopolkuja.) Nämä tiedostot voidaan näin tuoda työkuormien tai käyttäjien saataville ilman, että data tarvitsee siirtää. Joku voisi ehkä puhu näistä oikopoluista viittauksina, joten loppu tekstin ajan viittaus = Shortcut. Lähinnä siksi, että englanninkielisten sanojen kääntäminen suomenkieliseen tekstiin sopivaksi aiheuttaa liikaa päänvaivaa.
Viittauksia on siis kahdenlaisia: sisäisiä ja ulkoisia. Sisäiset viittaukset ovat siis nimenomaan Fabricin sisäisiä, eli viittauksen lähde on Fabricin, eli OneLaken sisällä. Jos olet tallentanut dataa Lakehouse-objektiin, voit luoda toiseen Lakehouse-objektiin viittauksen alkuperäiseen tiedostosijaintiin ja tarjoilla sen näin myös toisen Lakehousen käyttäjien saataville. Tämä on mahdollista myös työtilasta toiseen, mikä vähentää ETL-putkien kehittämisen tarvetta monimutkaisemmissa arkkitehtuureissa. Viittauksia voidaan kysellä myös Power BI:n Direct Lake -toiminnallisuudella. Tämä on oikeasti aika siisti juttu, sillä näin data on todellakin tallennettuna vain kerran yhteen Lakehouse-objekteista, ja silti loppukäyttäjä voi tarkastella sitä raportilta, joka vastaa hämmästyttävän nopeasti. Saisiko olla reaaliaikaista raportointia?
Viittaukset Fabricin sisällä
Viittauksilla voidaan osoittaa myös tiedostoihin, jotka ovat Fabricin ulkopuolella. Tällä hetkellä mahdollisia lähteitä ovat Dataverse, toisen sukupolven ADLS ja Amazon S3-ämpäri (sekä preview-tilassa Amazon S3 Compatible ja Google Cloud Storage). Tämä lista tulee oletettavasti tulevaisuudessa laajenemaan, joskin se ei ole ihan hetkeen kyllä laajentunut.
Ulkoiset viittaukset toimivat hyvinkin vastaavalla tavalla, kuin sisäiset viittaukset. Niissä kannattaa kuitenkin miettiä, kuinka usein dataa tarvitaan, sillä ainakin Azure ja Amazon laskuttavat ylimääräistä, kun dataa siirretään pois heidän alustaltaan tai alustan sisällä eri datakeskusten välillä. Jos dataa haetaan usein suuria määriä, voi tästä syntyä merkittäviä kustannuksia. Tällöin viitatut tiedostot voidaan tallentaa kyselyn yhteydessä välimuistiin. Seuraavia kyselyitä palvellaankin suoraa välimuistista, jolloin siirto ja lukukustannuksia ei tarvitse maksaa lähteen palveluntarjoajalle. Jos tietoa ei kysellä vuorokauden aikana, välimuisti tyhjennetään ja seuraava kysely meneekin lähteelle saakka. Myös jos lähteellä oleva tiedosto päivittyy, täytyy kysely tietysti lähettää lähteelle asti.
Viittaukset ulkoisiin järjestelmiin
Viittaukset ovat oikeasti aika kätevä juttu, jotka vähentävät tarvetta siirrellä dataa ja ottaa siitä kopioita. Tämä on hyvä ominaisuus melkein missä tahansa ympäristössä, mutta etenkin jos tiedon reaaliaikaisuus on tärkeää. Ja vaikka reaaliaikaisuus ei olisikaan vaatimus, voi viittausten avulla testailla helposti eri tietolähteiden yhteensopivuutta ja tarkastella tietosisältöjä ilman, että tarvitsee kehittää yhtään ETL-putkea. Ja ehkä testin jälkeen todetaan, että eihän mitään sen suurempia integraatioita tarvitse edes kehittää, koska viittaus ajaa saman asian.
Viittaukset todellakin vievät Fabricin lähemmäs lupaustaan Lakehouse-arkkitehtuurin avoimuudesta.
Kiitos lukemisesta!
Microsoft Fabric,
Integration,
Shortcut
Tommi on datainsinööri vahvalla painotuksella Microsoft Fabriciin ja Databricksiin. Datan lisäksi kiinnostuksen kohteita ovat musiikki ja brasilialainen jujutsu.
Tarkastellaan, mitä ovat Microsoft Fabricin shortcutit ja miten niitä voidaan käyttää
Lue lisää
Aloitamme yhteistyön pitkän linjan data-alan asiantuntijan Ari Hovin kanssa
Lue lisää
Katsotaan miten Microsoft on toteuttanut Notebook-ympäristönsä
Lue lisää
Saa ilmoitus sähköpostiisi uusista julkaisuistamme dataan ja teknologioihin liittyen
Yhteystiedot
+358 50 551 9293
Osoite
Siltasaarenkatu 12 C, 8. kerros
00530 Helsinki
Laskutus
© 2024 Data Clinic Oy
Näkemystä datasi hyödyntämiseen
© 2024 Data Clinic Oy
Tämä sivusto käyttää evästeitä palveluiden toimittamisessa, käyttäjäkokemuksen parantamisessa ja liikenteen analysoinnissa