Ano ang Data Warehouse? Mga Uri, Kahulugan at Halimbawa

Ano ang Data Warehousing?

SA Pagbobodega ng Data Ang (DW) ay isang proseso para sa pagkolekta at pamamahala ng data mula sa iba`t ibang mga mapagkukunan upang magbigay ng mga makabuluhang pananaw sa negosyo. Karaniwang ginagamit ang isang Data warehouse upang kumonekta at pag-aralan ang data ng negosyo mula sa magkakaiba-ibang mga mapagkukunan. Ang warehouse ng data ay ang core ng BI system na kung saan ay binuo para sa pagtatasa at pag-uulat ng data.

Ito ay isang timpla ng mga teknolohiya at sangkap na tumutulong sa madiskarteng paggamit ng data. Ito ay elektronikong pag-iimbak ng isang malaking halaga ng impormasyon sa pamamagitan ng isang negosyo na idinisenyo para sa query at pagtatasa sa halip na pagproseso ng transaksyon. Ito ay isang proseso ng pagbabago ng data sa impormasyon at ginawang magagamit ito sa mga gumagamit sa isang napapanahong paraan upang makagawa ng isang pagkakaiba.

Sa tutorial na ito ng Data Warehouse (DWH), malalaman mo ang tungkol sa-

Ang database ng suporta sa desisyon (Data Warehouse) ay pinananatili nang hiwalay mula sa database ng pagpapatakbo ng samahan. Gayunpaman, ang data warehouse ay hindi isang produkto ngunit isang kapaligiran. Ito ay isang arkitektura na konstruksyon ng isang sistema ng impormasyon na nagbibigay sa mga gumagamit ng kasalukuyan at makasaysayang impormasyon ng suporta sa desisyon na mahirap i-access o ipakita sa tradisyunal na data store na pagpapatakbo.

Alam mo na ang isang database na dinisenyo ng 3NF para sa isang sistema ng imbentaryo ay maraming mga talahanayan na may kaugnayan sa bawat isa. Halimbawa, ang isang ulat sa kasalukuyang impormasyon sa imbentaryo ay maaaring magsama ng higit sa 12 sumali na mga kundisyon. Mabilis nitong mapabagal ang oras ng pagtugon ng query at ulat. Ang isang warehouse ng data ay nagbibigay ng isang bagong disenyo na makakatulong upang mabawasan ang oras ng pagtugon at makakatulong upang mapahusay ang pagganap ng mga query para sa mga ulat at analytics.

Ang system ng warehouse ng data ay kilala rin sa sumusunod na pangalan:

  • Decision Support System (DSS)
  • Executive System ng Impormasyon
  • Sistema ng Impormasyon sa Pamamahala
  • Solusyon sa Intelligence ng Negosyo
  • Application ng Analytic
  • Data Warehouse

Kasaysayan ng Datawarehouse

Nakikinabang ang Datawarehouse sa mga gumagamit upang maunawaan at mapagbuti ang pagganap ng kanilang samahan. Ang pangangailangan sa data ng bodega ay nagbago habang ang mga computer system ay naging mas kumplikado at kinakailangan upang hawakan ang pagtaas ng dami ng Impormasyon. Gayunpaman, ang Data Warehousing ay hindi isang bagong bagay.

Narito ang ilang mga pangunahing kaganapan sa ebolusyon ng Data Warehouse-

  • 1960- Dartmouth at General Mills sa isang magkasamang proyekto sa pagsasaliksik, bumuo ng mga termino ng sukat at katotohanan.
  • 1970- Ipinakilala ng isang Nielsen at IRI ang mga dimensional data mart para sa mga benta sa tingian.
  • 1983- Ipinakikilala ng Tera Data Corporation ang isang sistema ng pamamahala ng database na partikular na idinisenyo para sa suporta sa desisyon
  • Nagsimula ang warehousing ng data noong huling bahagi ng 1980 nang ang manggagawa ng IBM na sina Paul Murphy at Barry Devlin ay bumuo ng Business Data Warehouse.
  • Gayunpaman, ang totoong konsepto ay ibinigay ng Inmon Bill. Siya ay itinuturing na isang ama ng data warehouse. Sumulat siya tungkol sa iba't ibang mga paksa para sa pagbuo, paggamit, at pagpapanatili ng warehouse at ng Corporate Information Factory.

Paano gumagana ang Datawarehouse?

Gumagawa ang isang Data Warehouse bilang isang gitnang imbakan kung saan dumating ang impormasyon mula sa isa o higit pang mga mapagkukunan ng data. Ang data ay dumadaloy sa isang warehouse ng data mula sa transactional system at iba pang mga kaugnay na database.

Ang data ay maaaring:

  1. Nakabalangkas
  2. Semi-istrukturang
  3. Hindi nakaayos na data

Naproseso, nabago, at na-ingest ang data upang ma-access ng mga gumagamit ang naprosesong data sa Data Warehouse sa pamamagitan ng mga tool sa Business Intelligence, mga kliyente ng SQL, at mga spreadsheet. Pinagsasama ng isang warehouse ng data ang impormasyon na nagmumula sa iba't ibang mga mapagkukunan sa isang komprehensibong database.

Sa pamamagitan ng pagsasama-sama ng lahat ng impormasyong ito sa isang lugar, maaaring masuri ng isang organisasyon ang mga customer nito nang mas holistiko. Nakakatulong ito upang matiyak na isinasaalang-alang nito ang lahat ng magagamit na impormasyon. Ginagawang posible ang warehousing ng data. Ang pagmimina ng data ay naghahanap ng mga pattern sa data na maaaring humantong sa mas mataas na benta at kita.

Mga uri ng Data Warehouse

Tatlong pangunahing uri ng Data Warehouse (DWH) ay:

1. Enterprise Data Warehouse (EDW):

Ang Enterprise Data Warehouse (EDW) ay isang sentralisadong bodega. Nagbibigay ito ng serbisyo sa suporta ng desisyon sa buong enterprise. Nag-aalok ito ng isang pinag-isang diskarte para sa pag-aayos at kumakatawan sa data. Nagbibigay din ito ng kakayahang pag-uri-uriin ang data ayon sa paksa at magbigay ng pag-access ayon sa mga dibisyon na iyon.

2. Tindahan ng Data ng Pagpapatakbo:

Ang Operational Data Store, na tinatawag ding ODS, ay walang iba kundi ang store ng data na kinakailangan kung alinman sa data warehouse o OLTP system ay sumusuporta sa mga samahan na nag-uulat ng mga pangangailangan. Sa ODS, ang warehouse ng Data ay na-refresh sa real time. Samakatuwid, malawak itong ginustong para sa mga gawain sa gawain tulad ng pag-iimbak ng mga tala ng mga empleyado.

3. Data Mart:

Ang isang data mart ay isang subset ng data warehouse. Espesyal na idinisenyo ito para sa isang partikular na linya ng negosyo, tulad ng mga benta, pananalapi, benta o pananalapi. Sa isang independiyenteng data mart, ang data ay maaaring mangolekta nang direkta mula sa mga mapagkukunan.

Pangkalahatang yugto ng Data Warehouse

Mas maaga, sinimulan ng mga samahan ang simpleng paggamit ng data warehousing. Gayunpaman, sa paglipas ng panahon, nagsimula ang mas sopistikadong paggamit ng warehousing ng data.

Ang mga sumusunod ay pangkalahatang yugto ng paggamit ng data warehouse (DWH):

Offline na Operational Database:

Sa yugtong ito, ang data ay nakopya lamang mula sa isang operating system patungo sa isa pang server. Sa ganitong paraan, ang paglo-load, pagproseso, at pag-uulat ng nakopya na data ay hindi nakakaapekto sa pagganap ng operating system.

Warehouse ng Offline na Data:

Ang data sa Datawarehouse ay regular na na-update mula sa Operational Database. Ang data sa Datawarehouse ay nai-mapa at binago upang matugunan ang mga layunin ng Datawarehouse.

Real time Data Warehouse:

Sa yugtong ito, ina-update ang mga warehouse ng data tuwing may anumang transaksyon na magaganap sa pagpapatakbo ng database. Halimbawa, system ng booking ng Airline o riles.

Pinagsamang Data Warehouse:

Sa yugtong ito, ang Data Warehouse ay patuloy na na-update kapag ang sistemang pagpapatakbo ay nagsasagawa ng isang transaksyon. Pagkatapos ay bumubuo ang Datawarehouse ng mga transaksyon na ipinapasa pabalik sa sistemang pagpapatakbo.

Mga bahagi ng bodega ng Data

Apat na mga bahagi ng Data Warehouse ay:

Load manager: Ang load manager ay tinatawag ding pangunahing sangkap. Gumagawa ito sa lahat ng mga pagpapatakbo na nauugnay sa pagkuha at pag-load ng data sa warehouse. Ang mga pagpapatakbo na ito ay nagsasama ng mga pagbabago upang ihanda ang data para sa pagpasok sa Data warehouse.

Manager ng Warehouse: Gumagawa ang manager ng warehouse ng mga operasyon na nauugnay sa pamamahala ng data sa warehouse. Gumagawa ito ng mga pagpapatakbo tulad ng pagtatasa ng data upang matiyak ang pagkakapare-pareho, paglikha ng mga index at pananaw, pagbuo ng denormalisasyon at pagsasama-sama, pagbabago at pagsasama ng pinagmulang data at pag-archive at baking-up data.

Query Manager: Query manager ay kilala rin bilang sangkap ng backend. Ginagawa nito ang lahat ng pagpapatakbo ng pagpapatakbo na nauugnay sa pamamahala ng mga query ng gumagamit. Ang mga pagpapatakbo ng mga sangkap ng Data warehouse na ito ay direktang mga query sa naaangkop na mga talahanayan para sa pag-iskedyul ng pagpapatupad ng mga query.

Mga tool sa pag-access ng end-user:

Ito ay ikinategorya sa limang magkakaibang pangkat tulad ng 1. Pag-uulat ng Data 2. Mga Tool sa Query 3. Mga tool sa pagbuo ng aplikasyon 4. Mga tool ng EIS, 5. mga tool ng OLAP at mga tool sa pagmimina ng data.

Sino ang nangangailangan ng Data warehouse?

Kailangan ang DWH (Data warehouse) para sa lahat ng uri ng mga gumagamit tulad ng:

  • Ang mga gumagawa ng desisyon na umaasa sa dami ng data
  • Ang mga gumagamit na gumagamit ng na-customize, kumplikadong mga proseso upang makakuha ng impormasyon mula sa maraming mga mapagkukunan ng data.
  • Ginagamit din ito ng mga taong nais ang simpleng teknolohiya upang ma-access ang data
  • Mahalaga rin ito para sa mga taong nais ang isang sistematikong diskarte para sa paggawa ng mga desisyon.
  • Kung nais ng gumagamit ng mabilis na pagganap sa isang malaking halaga ng data na kinakailangan para sa mga ulat, grids o tsart, napatunayan na kapaki-pakinabang ang warehouse ng data.
  • Ang warehouse ng data ay isang unang hakbang Kung nais mong matuklasan ang 'nakatagong mga pattern' ng mga daloy ng data at pagpapangkat.

Ano ang Ginagamit Para sa Isang Data Warehouse?

Narito, ang pinaka-karaniwang mga sektor kung saan ginagamit ang Data warehouse:

Airline:

Sa sistema ng Airline, ginagamit ito para sa layunin ng pagpapatakbo tulad ng pagtatalaga ng tauhan, pagsusuri ng kakayahang kumita ng ruta, madalas na mga promosyon ng programa ng flyer, atbp.

Pagbabangko:

Malawakang ginagamit ito sa sektor ng pagbabangko upang pamahalaan ang mga mapagkukunang magagamit sa desk nang epektibo. Ilang bangko din ang ginamit para sa pagsasaliksik sa merkado, pagtatasa ng pagganap ng produkto at pagpapatakbo.

Pangangalaga sa kalusugan:

Gumamit din ang sektor ng pangangalagang pangkalusugan ng Data warehouse upang i-strategate at hulaan ang mga kinalabasan, bumuo ng mga ulat sa paggamot ng pasyente, magbahagi ng data sa mga kumpanya ng seguro na nakatali, mga serbisyong medikal, atbp.

Sektor ng publiko:

Sa sektor ng publiko, ginagamit ang warehouse ng data para sa pangangalap ng katalinuhan. Tinutulungan nito ang mga ahensya ng gobyerno na panatilihin at pag-aralan ang mga tala ng buwis, mga tala ng patakaran sa kalusugan, para sa bawat indibidwal.

Sektor ng Pamumuhunan at Seguro:

Sa sektor na ito, pangunahing ginagamit ang mga warehouse upang pag-aralan ang mga pattern ng data, mga uso sa customer, at upang masubaybayan ang mga paggalaw ng merkado.

Panatilihin ang kadena:

Sa mga chain ng tingi, malawak na ginagamit ang warehouse ng data para sa pamamahagi at marketing. Nakakatulong din ito upang subaybayan ang mga item, pattern sa pagbili ng customer, mga promosyon at ginagamit din para sa pagtukoy ng patakaran sa pagpepresyo.

Telecommunication:

Ang isang data warehouse ay ginagamit sa sektor na ito para sa mga promosyon ng produkto, mga desisyon sa pagbebenta at upang makagawa ng mga desisyon sa pamamahagi.

Industriya ng mabuting pakikitungo:

Gumagamit ang Industriya na ito ng mga serbisyo sa warehouse upang magdisenyo pati na rin tantyahin ang kanilang mga kampanya sa advertising at promosyon kung saan nais nilang i-target ang mga kliyente batay sa kanilang feedback at mga pattern sa paglalakbay.

Mga Hakbang sa Pagpapatupad ng Data Warehouse

Ang pinakamahusay na paraan upang matugunan ang peligro sa negosyo na nauugnay sa isang pagpapatupad ng Datawarehouse ay ang paggamit ng isang diskarteng tatlong-prong tulad sa ibaba

  1. Diskarte sa enterprise : Dito makikilala namin ang panteknikal kabilang ang kasalukuyang arkitektura at mga tool. Nakikilala rin namin ang mga katotohanan, sukat, at katangian. Naipasa rin ang pagmamapa ng data at pagbabago.
  2. Phased paghahatid : Ang pagpapatupad ng Datawarehouse ay dapat na phased batay sa mga paksa na paksa. Ang mga nauugnay na entity ng negosyo tulad ng pag-book at pagsingil ay dapat na ipatupad muna at pagkatapos ay isama sa bawat isa.
  3. Iterative Prototyping : Sa halip na isang malaking putok na diskarte sa pagpapatupad, ang Datawarehouse ay dapat na binuo at masubukan nang paulit-ulit.

Narito, ang mga pangunahing hakbang sa pagpapatupad ng Datawarehouse kasama ang mga naihahatid.

Hakbang Mga Gawain Naihahatid
1Kailangang tukuyin ang saklaw ng proyektoKahulugan ng Saklaw
2Kailangang matukoy ang mga pangangailangan sa negosyoModelong Lohikal na Data
3Tukuyin ang mga kinakailangan sa Operational DatastoreModelong Tindahan ng Data ng Pagpapatakbo
4Kumuha o bumuo ng mga tool sa PagkuhaI-extract ang mga tool at Software
5Tukuyin ang Mga kinakailangan sa Data Warehouse DataModelo ng Transition Data
6Nawawalang data ng dokumentoUpang Gawin ang Listahan ng Proyekto
7Tindahan ng Data ng Pagpapatakbo ng Maps sa Data WarehouseMapa ng Pagsasama ng Data ng D / W
8Bumuo ng disenyo ng Data Warehouse DatabaseD / W Disenyo ng Database
9I-extract ang Data mula sa Operational Data StorePinagsamang D / W Data Extracts
10Pag-load ng Data WarehousePaunang Pag-load ng Data
labing-isangPanatilihin ang Data WarehousePatuloy na Pag-access ng Data at Mga Susunod na Pag-load

Pinakamahusay na kasanayan upang magpatupad ng isang Data Warehouse

  • Magpasya ng isang plano upang subukan ang pagkakapare-pareho, kawastuhan, at integridad ng data.
  • Ang warehouse ng data ay dapat na mahusay na isinama, mahusay na tinukoy at naselyohang oras.
  • Habang ang pagdidisenyo ng Datawarehouse ay siguraduhin na gumagamit ka ng tamang tool, manatili sa siklo ng buhay, mag-ingat tungkol sa mga salungatan sa data at handa na malaman na ikaw ang iyong mga pagkakamali.
  • Huwag kailanman palitan ang mga operating system at ulat
  • Huwag gumastos ng masyadong maraming oras sa pagkuha, paglilinis at pag-load ng data.
  • Tiyaking kasangkot ang lahat ng mga stakeholder kabilang ang mga tauhan ng negosyo sa proseso ng pagpapatupad ng Datawarehouse. Itaguyod na ang Data warehousing ay isang proyekto ng pinagsamang / koponan. Hindi mo nais na lumikha ng Data warehouse na hindi kapaki-pakinabang sa mga end user.
  • Maghanda ng isang plano sa pagsasanay para sa mga end user.

Bakit Kailangan namin ng Data Warehouse? Mga Kalamangan at Kalamangan

Mga kalamangan ng Data Warehouse (DWH):

  • Pinapayagan ng data warehouse ang mga gumagamit ng negosyo na mabilis na ma-access ang kritikal na data mula sa ilang mga mapagkukunan lahat sa isang lugar.
  • Nagbibigay ang warehouse ng data ng pare-parehong impormasyon sa iba't ibang mga aktibidad na cross-functional. Sinusuportahan din nito ang pag-uulat at query ng ad-hoc.
  • Tumutulong ang Data Warehouse upang isama ang maraming mapagkukunan ng data upang mabawasan ang stress sa system ng produksyon.
  • Tumutulong ang warehouse ng data upang mabawasan ang kabuuang oras ng pag-ikot para sa pagtatasa at pag-uulat.
  • Ang muling pagbubuo at Pagsasama ay ginagawang mas madali para sa gumagamit na gamitin para sa pag-uulat at pagtatasa.
  • Pinapayagan ng data warehouse ang mga gumagamit na mag-access ng kritikal na data mula sa bilang ng mga mapagkukunan sa iisang lugar. Samakatuwid, nakakatipid ito ng oras ng gumagamit ng pagkuha ng data mula sa maraming mga mapagkukunan.
  • Ang warehouse ng data ay nag-iimbak ng isang malaking halaga ng makasaysayang data. Tinutulungan nito ang mga gumagamit na pag-aralan ang iba't ibang mga tagal ng panahon at mga uso upang makagawa ng mga hula sa hinaharap.

Mga disadvantages ng Data Warehouse:

  • Hindi isang perpektong pagpipilian para sa hindi nakaayos na data.
  • Ang Paglikha at Pagpapatupad ng Data Warehouse ay tiyak na nakalilito sa oras ang relasyon.
  • Ang Data Warehouse ay maaaring mabilis na napapanahon
  • Mahirap gumawa ng mga pagbabago sa mga uri ng data at saklaw, iskema ng mapagkukunan ng data, mga index, at query.
  • Ang warehouse ng data ay maaaring mukhang madali, ngunit sa totoo lang, ito ay masyadong kumplikado para sa average na mga gumagamit.
  • Sa kabila ng pinakamahusay na pagsisikap sa pamamahala ng proyekto, palaging tataas ang saklaw ng proyekto ng warehousing ng proyekto.
  • Minsan bubuo ang mga gumagamit ng warehouse ng iba't ibang mga patakaran sa negosyo.
  • Ang mga samahan ay kailangang gumastos ng maraming kanilang mga mapagkukunan para sa layunin ng pagsasanay at Pagpapatupad.

Ang Kinabukasan ng Data Warehousing

  • Palitan sa Mga hadlang sa pagkontrol maaaring limitahan ang kakayahang pagsamahin ang mapagkukunan ng magkakaibang data. Ang mga magkakaibang mapagkukunang ito ay maaaring magsama ng hindi nakaayos na data na mahirap iimbak.
  • Tulad ng laki ng mga database ay lumalaki, ang mga pagtatantya ng kung ano ang bumubuo ng isang napakalaking database ay patuloy na lumalaki. Ito ay kumplikado upang bumuo at magpatakbo ng mga sistema ng data warehouse na kung saan ay palaging pagtaas ng laki. Ang mga mapagkukunan ng hardware at software ay magagamit ngayon ay hindi pinapayagan na panatilihin ang isang malaking halaga ng data sa online.
  • Data ng Multimedia ay hindi madaling manipulahin bilang data ng teksto, samantalang ang impormasyong pangkonteksto ay maaaring makuha ng kaugnay na software na magagamit ngayon. Maaari itong maging isang paksa sa pagsasaliksik.

Mga Tool sa Warehouse ng Data

Maraming mga tool sa Data Warehousing ang magagamit sa merkado. Narito, ang ilang pinakatanyag na isa:

1. MarkLogic:

Ang MarkLogic ay kapaki-pakinabang na solusyon sa warehousing ng data na ginagawang mas madali at mas mabilis ang pagsasama ng data gamit ang isang hanay ng mga tampok sa enterprise. Ang tool na ito ay makakatulong upang maisagawa ang napaka-kumplikadong mga pagpapatakbo sa paghahanap. Maaari itong magtanong ng iba't ibang uri ng data tulad ng mga dokumento, ugnayan, at metadata.

https://www.marklogic.com/product/getting-started/

2. Oracle:

Ang Oracle ay ang nangungunang database ng industriya. Nag-aalok ito ng isang malawak na hanay ng pagpipilian ng mga solusyon sa warehouse ng data para sa parehong mga nasa lugar at sa cloud. Nakakatulong ito upang mai-optimize ang mga karanasan sa customer sa pamamagitan ng pagtaas ng kahusayan sa pagpapatakbo.

https://www.oracle.com/index.html

3. Amazon RedShift:

Ang Amazon Redshift ay tool na Data warehouse. Ito ay isang simple at cost-effective na tool upang pag-aralan ang lahat ng mga uri ng data gamit ang karaniwang SQL at umiiral na mga tool sa BI. Pinapayagan din nito ang pagpapatakbo ng mga kumplikadong query laban sa petabytes ng nakabalangkas na data, gamit ang pamamaraan ng pag-optimize sa query.

https://aws.amazon.com/redshift/?nc2=h_m1

Narito ang isang kumpletong listahan ng kapaki-pakinabang Mga Kasangkapan sa Datawarehouse.

KEY LEARNING

  • Ang Data Warehouse (DWH), ay kilala rin bilang isang Enterprise Data Warehouse (EDW).
  • Ang isang Data Warehouse ay tinukoy bilang isang gitnang lalagyan kung saan nagmumula ang impormasyon mula sa isa o higit pang mga mapagkukunan ng data.
  • Tatlong pangunahing uri ng mga warehouse ng Data ang Enterprise Data Warehouse (EDW), Operational Data Store, at Data Mart.
  • Pangkalahatang estado ng isang datawarehouse ay Offline Operational Database, Offline Data Warehouse, Real time Data Warehouse at Integrated Data Warehouse.
  • Apat na pangunahing bahagi ng Datawarehouse ang Load manager, Warehouse Manager, Query Manager, mga tool sa pag-access ng End-user
  • Ginagamit ang Datawarehouse sa magkakaibang industriya tulad ng Airline, Banking, Healthcare, Insurance, Retail atbp.
  • Ang pagpapatupad ng Datawarehosue ay isang 3 prong diskarte viz. Diskarte sa enterprise, Phased na paghahatid at Iterative Prototyping.
  • Pinapayagan ng data warehouse ang mga gumagamit ng negosyo na mabilis na ma-access ang kritikal na data mula sa ilang mga mapagkukunan lahat sa isang lugar.