Główna zawartość
Podstawy informatyki - program rozszerzony
Big Data: skąd biorą się te dane?
Skąd pochodzą duże zbiory danych?
Czasami duże zbiory danych to dane pochodzące z jednego bardzo dużego źródła. W większości przypadków duże zbiory danych to dane zbierane z wielu niewielkich źródeł. Z 7,5 miliardem ludzi na świecie i jeszcze większą liczbą urządzeń obliczeniowych, istnieje wiele danych, które można zebrać.
Zbadajmy różne źródła.
Badania naukowe
LHC (Duży Zderzacz Hadronów), największy na świecie akcelerator cząsteczek, jest używany przez fizyków na całym świecie do badania natury materii. Eksperymenty LHC produkują około 50–75 petabajtów danych rocznie, co odpowiada 15–20 milionom filmów wysokiej rozdzielczości.start superscript, 1, end superscript
Ziemia otoczona jest tysiącami satelitów. NASA EOSDIS jest jedną z grup zbierających zdjęcia i dane z czujników tych satelitów, dodając 23 terabajty danych do swoich archiwów każdego dnia. start superscript, 5, end superscript
Dzięki rządowemu finansowaniu projektów badawczych wiele danych zgromadzonych w ramach projektów badawczych jest jawnie dostępnych w standardowych formatach. Pozwala to naukowcom i hobbystom na przekształcenie tych danych w cenne spostrzeżenia i możliwości.
Możesz odkryć szeroki wachlarz otwartych danych na Data.gov, inicjatywę rządu Stanów Zjednoczonych oraz [Dane.gov.pl] (https://dane.gov.pl/), inicjatywę rządu Rzeczypospolitej Polskiej. Możesz sam analizować dane lub zamienić je w piękne wizualizacje, takie jak ta animowana Ziemia.
Biblioteki cyfrowe
Biblioteki cyfrowe archiwizują ogromną liczbę dokumentów historycznych, artefaktów i mediów.
Archiwum Internetowe jest organizają pożytku publicznego, która próbuje zarchiwizować każdą stronę internetową w wielu punktach jej historii. Nasza własna strona internetowa, Khan Academy, została przechwycona ponad 8000 razy, więc możemy bardzo dobrze odzwierciedlić nasze wczesne dni w 2008r.. Pojedyncza kopia ich archiwum zajmuje ponad 30 petabajtów miejsca, a ponieważ z pewnością nie chcą stracić tych danych, istnieje wiele kopii tego 30 petabajtowego archiwum. squared
Google Books to projekt powiązany , który zeskanował ponad 25 milionów książek i ma nadzieję, że ostatecznie zeskanuje każdą książkę na świecie. squared Algorytmy skanujące wykorzystują optyczne rozpoznawanie znaków (OCR), aby zamienić zeskanowane strony książki w tekst, dzięki temu możesz znaleźć wyniki z książek w wyszukiwarkach Google. Przeglądarka Google Ngram wykorzystuje zeskanowaną bazę tekstową do wizualizacji, jak często dane słowa były używane przez autorów w ciągu ostatnich kilkuset lat.
Dane medyczne
Coraz więcej pracowników służby zdrowia przechowuje dane pacjentów w elektronicznej dokumentacji medycznej. Elektroniczna dokumentacja zdrowia obejmuje dane demograficzne pacjenta, kwestie medyczne, zamówione lub wykonane leki, wyniki badań laboratoryjnych i obrazowych.start superscript, 6, end superscript
Zdjęcie medyczne jest największym elementem danych w EHR, ponieważ obrazy zajmują o wiele więcej miejsca niż tekst. Szpitale często wykorzystują obrazy do diagnozowania urazów wewnętrznych i nowotworów oraz mogą stosować różne technologie, takie jak obrazowanie metodą rezonansu magnetycznego (MRI), tomografia emisyjna pozytonowa (PET) i tomografia komputerowa wykorzystująca promieniowanie rentgenowskie (CT).
Skanowanie CT tworzy obrazy przekrojowe części ciała lub całego ciała. Poniższa animacja pokazuje 34 wycinki z tomografii komputerowej, od góry czaszki do podstawy:
A typical CT scan takes 512 x 512 images and stores each pixel using 16 bits. The brain scan above would take up 18 MB of storage space, and a more detailed scan or a scan of a longer body part would take up even more space. A single hospital can easily generate terabytes of imagery data each year.start superscript, 7, end superscript
In the US, health care providers need to store all that patient data in a way that's compliant with the Health Information Portability and Accountability Act (HIPAA). Their data storage mechanism must have privacy safeguards, to ensure only authorized health care providers can access the data. It also needs to have a backup copy and a disaster recovery strategy, to ensure the data isn't accidentally destroyed.start superscript, 8, end superscript
User-facing applications
Any application with millions of users is also collecting big data about their user's interactions.
Back in 2014, Facebook reportedly generated 4 new petabytes of data every single day.start superscript, 4, end superscript That amount of data presents huge challenges for processing, storage, and privacy.
Software engineering teams grapple with questions like:
- What compression techniques can they use to store the data but still be able to query it efficiently?
- How many copies should they make of the data?
- Where should data centers be located geographically so that their users around the world get their data quickly?
- How can they successfully keep petabytes of personal data private?
Answering those questions requires an understanding of computer hardware, programming, and algorithms.
🤔 What other sources of big data can you think of? Is your own data becoming part of a big data collection somewhere?
Chcesz dołączyć do dyskusji?
Na razie brak głosów w dyskusji