Osnove intelektualne analize podataka: tehnologije, metode i zadaci

Korištenje podataka je problem pri razvoju programa i razvoju informacijskih sustava. Prije analize velike količine podataka i donošenja odluke koja jamči pouzdan i objektivan rezultat, potrebno je odrediti taj veliki volumen. Zadatak je kompliciran ako se protok informacija ubrzano povećava, a vrijeme za donošenje odluka ograničeno.

Podaci i njihova formalizacija

Suvremene informacijske tehnologije omogućuju sigurnu i pouzdanu analizu, prezentaciju i obradu podataka. Sintaktički i formalno to je istina. U smislu semantike zadatka i objektivnosti očekivanog rješenja - rezultat ovisi o iskustvu, znanju i vještinama programera. Programski jezici su u statusu pouzdanog i sigurnog alata. Znanja i vještine stručnjaka za analizu, predstavljanje i obradu podataka došli su do razine relativne univerzalnosti.


Tehnologija intelektualne analize podataka na ovoj razini praktički je besprijekorna. Vrsta podataka može biti poznata prije operacije na njima, au slučaju nepridržavanja - automatski će biti dovedena do željenog tipa.
Razvijeni su hipertekstualni alati, široko se koristi distribuirana distribuirana obrada velikih količina podataka. Na ovoj razini:
  • zadaci informiranja podliježu formalizaciji;
  • ispunjene su potrebe za intelektualnom analizom;
  • Kvaliteta rezultata ovisi o kvaliteti znanja i profesionalnosti programera.
  • Situacija u programiranju informacijaSustave na razini poduzeća karakterizira prisutnost stvarnih proizvoda koji osiguravaju stvaranje velikih količina podataka i problem višeg reda.


    Velike količine podataka

    Osamdesetih godina, kada su baze podataka postale sustavi za upravljanje bazom podataka, poboljšanje pouzdanosti hardvera i kvaliteta programskih jezika ostavilo je još mnogo željenog. Akumuliran je velik broj baza podataka, mnogi kompjutorizirani izvori informacija, razvijeni su složeni sustavi za prikupljanje različitih informacija (financije, vrijeme, statistika, porezi, nekretnine, osobni podaci, klima, politika). Neki izvori podataka karakterizirani su očitim zakonima i podložni su matematičkim metodama. Možete izvršiti inteligentnu analizu podataka u Excelu: jasne podatke, izgraditi model, formulirati hipotezu, odrediti korelacije, itd. Neke podatke i izvore prava je teško otkriti. U svim slučajevima softver i hardver za obradu podataka karakteriziraju pouzdanost i stabilnost. Zadatak inteligentne analize podataka bio je na čelu u mnogim socio-ekonomskim sferama.
    Čelnici informacijske industrije, posebice Oracle, usredotočuju svoju pažnju na niz okolnosti koje karakteriziraju podatke novog tipa:
  • velike tokove;
  • prirodne informacije (čak i ako su programirane);
  • heterogeni podaci;
  • najviši kriterij odgovornosti;
  • širok raspon formata za prikazivanje podataka;
  • kompatibilnost integratorapodataka i njihovih rukovatelja.
  • Glavna značajka podataka novog tipa: ogroman volumen i brzina rasta tog volumena. Klasični algoritmi nisu primjenjivi za obradu novih podataka tipa, čak i uzimajući u obzir brzinu suvremenih računala i primjenu paralelnih tehnologija.

    Od sigurnosne kopije do migracije i integracije

    Ranije je zadaća sigurnog pohranjivanja informacija (sigurnosna kopija, sigurnosna kopija) bila hitna. Danas je aktualan problem migracije višestrukih reprezentacija podataka (različitih formata i kodiranja) i njihova integracija u jednu cjelinu.
    Bez tehnologije inteligentne analize podataka, mnogi problemi se ne mogu riješiti. Ovdje ne govorimo o donošenju odluka, određivanju ovisnosti, stvaranju algoritama za uzorke podataka za daljnju obradu. Spajanje heterogenih podataka postalo je problem i nije moguće dovesti izvore informacija na jednu formaliziranu osnovu. Za inteligentnu analizu velikih količina podataka potrebna je definicija tog volumena i stvaranje tehnologije (algoritam, heuristika, skupovi pravila) kako bi se dobila mogućnost postavljanja zadatka i njegova rješavanja.

    Data mining: kopanje

    Koncept analize podataka u kontekstu intelektualnih metoda aktivno se razvija od ranih 90-ih godina prošlog stoljeća. Umjetna inteligencija još nije ispunila očekivanja, ali je potreba za informiranim odlukama na temelju analize informacija stalno rasla. Strojno učenje, inteligentna analiza podataka, prepoznavanje slika, vizualizacija, teorija baza podataka, algoritamizacija, statistika,matematičke metode bile su spektar zadataka nove, aktivno razvijajuće grane znanja, koja je povezana s podacima o engleskom govornom području minig.
    U praksi, novo polje znanja postalo je interdisciplinarno i postaje u procesu postajanja. Zahvaljujući Oracleu, Microsoftu, IBM-u te iskustvima i softverskim proizvodima drugih vodećih tvrtki, jasno je da takva inteligentna analiza podataka, ali još uvijek ima puno pitanja. Dovoljno je reći da je Oracleova programska linija, posvećena iznimno velikim količinama informacija, njihova integracija, kompatibilnost, migracija i obrada, više od četrdeset pozicija! Što je potrebno kako bi se zadatak obrade velikih podataka ispravno i dobio utemeljeno rješenje? Znanstvenici i prakse konvergiraju u općem razumijevanju izraza "potraga za skrivenim zakonima". Ovdje postoje tri pozicije:
  • nisu očigledne;
  • objektivnost;
  • praktična korisnost.
  • Prva pozicija znači da uobičajene metode ne određuju što treba pronaći i kako to učiniti. Klasično programiranje ovdje se ne primjenjuje. Potrebna, ako ne i umjetna inteligencija, onda barem programi za inteligentnu analizu podataka. Pojam "intelektualac" nije ništa manje problem nego zadatak utvrđivanja dovoljne količine početnih podataka za donošenje odluka i formuliranje početnih pravila rada.
    Objektivnost - vrsta jamstva da će odabrana tehnologija, razvijena "inteligentna" metoda ili niz "inteligentnih" pravila dati razlog za vjerovanje da su rezultati točni, ne samo autor,ali i bilo kojeg drugog stručnjaka.

    Oracle u svojim softverskim proizvodima dodaje na pojam objektivnosti status sigurnog, lišenog negativnih smetnji treće strane. Praktična korisnost - najvažniji kriterij za rezultat i algoritam za rješavanje problema rudarenja podataka u određenoj primjeni.

    Data mining: gdje kopati

    Business Intelligence (Business Intelligence - BI) temelj je modernog, najskupljeg i popularnijeg softvera. Poslužitelji poslovnih rješenja vjeruju da su pronašli način za rješavanje problema obrade velikih količina podataka, a njihovi softverski proizvodi mogu osigurati siguran i brz razvoj poslovanja bilo koje tvrtke. Kao iu slučaju umjetne inteligencije u području inteligentne analize podataka, trenutna postignuća ne bi trebala biti precijenjena previše. Sve samo dobiva na noge, ali i poricati stvarne rezultate, također, ne mogu. Opseg primjene. Razvijeni su algoritmi analize intelektualnih podataka u gospodarstvu, o proizvodnji, u području klimatskih informacija, tečajevima tečaja. Postoje inteligentni proizvodi koji štite tvrtku od negativnog utjecaja otpuštenih radnika (područje psihologije i sociologije je jaka tema), od virusnih napada. Mnogi događaji uistinu ispunjavaju funkcije koje su deklarirali njihovi proizvođači. Zapravo, zadatak - što učiniti i gdje to učiniti - stekao je smislen i objektivan kontekst:
  • minimalni mogući opseg;
  • najtočnija i najpreciznija svrha;
  • izvori podataka i podacidonose se na jednu osnovu.
  • Samo opseg i očekivana praktična korisnost mogu pomoći u formuliranju tehnologije, metodologije, pravila i temelja rudarenja podataka u određenom području za određenu svrhu.
    Informacijska tehnologija podnijela je zahtjev za znanstvenu disciplinu i nije potrebno poduzimati male korake u novom, neistraženom smjeru. Prekriveni sveti sveti - prirodna inteligencija, osoba ne može zahtijevati od sebe što se ne može učiniti.
    Odlučivanje o tome što učiniti i gdje se to radi danas je izuzetno teško. U određenom poslu, u određenom području ljudske aktivnosti, moguće je odrediti količinu informacija koje treba istražiti i dobiti rješenje koje će biti obilježeno određenim stupnjem vjerojatnosti i pokazateljem objektivnosti.

    Data mining: kako kopati

    Profesionalno programiranje i vlastito visoko kvalificirano osoblje - jedini alat za postizanje željenog. Primjer 1. Zadatak rudarenja podataka neće se riješiti čistom primjenom Oracle Load Testing Controller. Ovaj proizvod je tvrđen kao potpuno opremljen i proširiv alat za ispitivanje opterećenja. To je vrlo uska zadaća. Samo učitavanje! Ništa više, bez visoko intelektualnih zadataka. Međutim, zadaci na kojima se ovaj proizvod koristi mogu staviti slijepu ulicu ne samo na ispitanika, nego i na razvojnog inženjera, uz sve regalije vodećeg proizvođača. Posebno, testiranje je zahtjev funkcionalne cjelovitosti. Gdje je jamstvo da je Oracle Load Testing Controller "ažuran" na kojem skupu podatakamože unositi ulaz studiranog programa, poslužitelja, softvera i hardvera.
    Primjer 2. Oracle Business Intelligence Suite izdanje za Oracle aplikacije - programer proglašava ovaj proizvod kao dobru kombinaciju koja se koristi uz stručno znanje o izgradnji, razvoju i pružanju velikog poslovanja. Nesumnjivo, iskustvo Oraclea je veliko, ali to nije dovoljno za njegovu transformaciju kroz softversko-ekspertni proizvod. U određenom poduzeću, u određenoj regiji, poslovna obavještajna služba tvrtke Oracle možda neće raditi na temelju odluke porezne službe ili odluka lokalne samouprave.

    Inteligentna primjena suvremenih tehnologija

    Jedino ispravno rješenje u području velikih količina informacija, rudarenja podataka i sustava za rudarenje podataka tvrtke, vladine agencije i bilo kojeg socio-ekonomskog područja - tim stručnjaka. Znanje i iskustvo kvalificiranih stručnjaka je jedino ispravno rješenje koje će pružiti sveobuhvatan odgovor na pitanja:
  • data mining: što kopati, gdje to raditi i kako?
  • Kupnja prioritetnih proizvoda odgovarajućeg odredišta neće biti suvišna, ali prije toga morate proučiti opseg primjene, formulirati privremenu odluku i postaviti prethodnu svrhu. Tek nakon što je predmetno područje određeno ciljom i relativno je jasno, možete tražiti rješenja koja su već razvijena i testirana u praksi. Najvjerojatnije će se naći proizvod koji će razjasniti predmetno područje i svrhu. Ni jedan program danas neće se nositi s pravim zadatkom. Izgubljen na području umjetne inteligencijepočetkom 80-ih godina prošlog stoljeća pametna osoba još ne može računati na mogućnost pisanja programa, odlučujućeg intelektualnog zadatka.
    ​​Ne treba očekivati ​​da će AI doći sama od sebe, ali ono što je kupljeno u Oracleu, Microsoftu i IBM-u će reći ono što je bilo potrebno učiniti, a koji rezultat smatrati ispravnim. U suvremenom svijetu informacijskih tehnologija dolazi do brzog napretka. To može uzeti djelotvoran dio, ojačati vaše poslovanje ili riješiti težak zadatak. Ali morate sudjelovati, a ne računati na program. Programiranje je statički rad, njegov rezultat je kruti algoritam. Suvremeno intelektualno pravilo ili heuristika je rigidno postavljeno rješenje koje ne djeluje s najboljom šansom.

    Modeliranje i testiranje

    Inteligentna analiza velikih podataka - stvarno relevantan i relevantan zadatak. No, područje primjene na otkrivanje ovog problema je loše, ali je živio i razvijao se. Potreba za daljnjim poslovnim razvojem postavlja nove izazove koji nam omogućuju da konceptualiziramo opseg obrade velikih podataka. To je prirodni proces znanstvenog, tehničkog i intelektualnog razvoja poduzeća, poduzeća, poslovanja. To se može pripisati internetskim tehnologijama, zadacima raščlanjivanja informacija na Internetu. Postoji mnogo novih zadataka i programa koji su traženi, mogu biti manje ili više jasno uređeni i karakterizirani objektivnim parametrom: njihovo rješenje je interesantno i postoji razumijevanje vjerojatne korisnosti. Simulacija -Dobro razvijeno područje opremljeno mnoštvom dokazanih matematičkih metoda. Model se može graditi uvijek, bilo bi vremena i želje. Simulacija vam omogućuje da sve raspoloživo znanje usredotočite na jedan sustav i ciklički ga poboljšate na skupu testnih podataka. To je klasičan razvojni put koji je također testiran u praksi. Ako ne gradite zračne brave, a sa stabilnim da pouzdano odete na postavljeni cilj, tada možete odrediti i put, željeno rješenje i krajnji cilj.

    Programiranje i inteligentne metode

    Programiranje ranih 80-ih godina prošlog stoljeća potaknulo je javnu svijest na rađanje ideja umjetne inteligencije, bilo je utemeljitelj rudarenja podataka, a od njega su počele metode rudarenja podataka. U tim dalekim vremenima nisu postojali problemi velikih količina podataka. Danas, ne samo velike količine podataka, ali i rezultat razvoja sustava za upravljanje bazom podataka - značajno iskustvo u relacijskim odnosima, kao osnova za prezentaciju podataka.
    Relacijski odnosi su dio, ali nisu integralni. Još uvijek postoji pojam sustava, hijerarhije i mnogo više od onoga što posjeduje prirodna inteligencija, ali ne može ostvariti umjetnu inteligenciju: u ovom slučaju, u programiranju. Programiranje nije inteligencija u bilo kojem smislu, ali je stvarni rezultat primjene inteligencije u praksi. To je njezin sadržaj, a to je upravo ono što se može koristiti za postizanje željenih ciljeva.

    Aktivno znanje i vještine

    Svaki program je statičan. Predstavlja konstrukciju algoritma rješenja u sustavuunutar sintakse programskog jezika. Suvremeni programski jezici savršen su rezultat 80-ih, a to se ne može poreći. Također treba napomenuti da suvremeni programski jezici omogućuju stvaranje slobodnih algoritama izvan njegove sintakse. Ako itko ikada može napisati program koji će raditi ne po volji autora, već po volji stečenih znanja i vještina, problem velikih količina podataka i usvajanje intelektualnih odluka bit će zatvoren, i započet će novi stupanj razvoja znanja.

    Povezane publikacije