10 tendințe de urmat în știința datelor în 2020

Publicat: 2020-08-22

Mulți cercetători din diferite universități își dublează cercetarea NLP

Unul dintre cele mai mari puncte de vedere pentru orice proiect de știință a datelor este lipsa datelor relevante de instruire

2020 și următorii câțiva ani vor fi foarte interesanți pentru companiile și echipele care adoptă știința datelor

Inteligența artificială este un subiect fierbinte astăzi și, deși există unele grupuri care susțin că ar putea veni o altă iarnă, o populație mai mare (inclusiv eu) simte cu tărie că de data aceasta, vara este aici și va fi o petrecere mare. De fapt, odată cu progresele atât în ​​hardware, cât și în software, s-ar putea să nu fie iarnă la vedere pentru o lungă perioadă de timp. Mai jos sunt primele 10 tendințe de care sunt entuziasmat în 2020.

Calcul cuantic

Spre sfârșitul anului 2019, anunțul Google privind puterea de calcul cuantică, care a depășit un supercomputer standard cu un factor de peste un miliard, a provocat valuri în mass-media. Deși s-ar putea să nu existe o utilizare directă a acestuia în aplicațiile din lumea reală astăzi, există un accent extins pe calculul cuantic în laboratoarele de cercetare ale unor companii precum Google și IBM. Prin urmare, în 2020 și mai departe, suntem siguri că vom face salturi definitive în calculul cuantic și, în curând, ar putea deveni viabil pentru aplicații practice.

Progrese în procesarea limbajului natural (NLP)

Procesarea limbajului natural (NLP) a fost un accent important de ceva vreme, iar odată cu intrarea recentă a transformatoarelor și a modelelor de atenție, lucrurile merg înainte cu abur. Acum câteva luni, OpenAI de la Elon Musk a lansat modelul GPT-3. Modelul se bazează pe modelul arhitecturii transformatorului, care a fost antrenat pe până la 175B parametri. Asta a schimbat totul. Modelul a obținut SOTA pentru diverse sarcini de model lingvistic și continuă să facă acest lucru pentru multe sarcini private.

Mulți cercetători din diferite universități își dublează cercetarea NLP. De la reprezentări mai noi de cuvinte contextualizate până la modelarea secvență la secvență, un număr mare de resurse sunt dedicate NLP și permit mașinii să înțeleagă și să răspundă la limbaj, la fel ca oamenii.

Depozite de date și piețe

Unul dintre cele mai mari puncte de vedere pentru orice proiect de știință a datelor este lipsa datelor relevante de instruire. Multe echipe ajung să-și petreacă până la 80% din timp colectând datele de antrenament potrivite. În ultimul an, multe echipe independente, proiecte open-source și proiecte finanțate din fonduri publice au deschis accesul la multe seturi de date structurate. Organizațiile intră, de asemenea, în afacerea de a monetiza datele la care fie au acces, fie funcționează ca agregatoare de date care colectează, normalizează și structurează datele în formate care pot fi utilizate de alte echipe de știință a datelor. Această nouă linie de afaceri va fi martora unei tendințe în creștere în următorii ani.

Adnotare ca afacere

În timp ce colectarea și agregarea datelor au loc pe căi paralele, o piesă critică, care implică obținerea acelorași date etichetate, adnotate și pregătite pentru antrenament, își ia avânt în mare măsură. Instrumente și servicii precum turcul mecanic — care permite asocierea în crowdsourcing a adnotărilor — există deja, dar acum se înțelege din ce în ce mai mult că aceasta poate fi de fapt o afacere viabilă. Multe țări în curs de dezvoltare, în special cele care operează în economii cu forță de muncă mai ieftină, dezvoltă o afacere în jurul etichetării datelor, cu echipe mari de oameni care selectează, etichetează și etichetează datele de intrare și le pregătesc pentru consum.

Realitate Augmentată (AR)

De la lansarea aplicațiilor Google Glass și Microsoft HoloLens, inclusiv altele în ultimii câțiva ani, s-au înregistrat progrese semnificative în AR. Anul acesta, am văzut brevete și anunțuri de la diverse companii în ochelari AR, care vor permite oamenilor să interacționeze și să lucreze într-un mediu simulat din lumea reală. Ochelarii inteligenți din 2021 vor schimba modul în care lumea lucrează și comunică.

Recomandat pentru tine:

Cum este setat cadrul de agregare de conturi al RBI să transforme Fintech în India

Cum este setat cadrul de agregare de conturi al RBI să transforme Fintech în India

Antreprenorii nu pot crea startup-uri durabile și scalabile prin „Jugaad”: CEO CitiusTech

Antreprenorii nu pot crea startup-uri durabile și scalabile prin „Jugaad”: Cit...

Cum va transforma Metaverse industria auto din India

Cum va transforma Metaverse industria auto din India

Ce înseamnă prevederea anti-Profiteering pentru startup-urile indiene?

Ce înseamnă prevederea anti-Profiteering pentru startup-urile indiene?

Cum startup-urile Edtech ajută la dezvoltarea competențelor și pregătesc forța de muncă pentru viitor

Cum startup-urile Edtech ajută forța de muncă din India să își îmbunătățească abilitățile și să devină pregătite pentru viitor...

Stocuri de tehnologie New-Age săptămâna aceasta: problemele Zomato continuă, EaseMyTrip postează Stro...

Analiza datelor ca serviciu

Analiza datelor la scară necesită o configurare bună a software-ului și hardware-ului. Trebuie să configurați clustere de învățare automată, să instalați software-ul necesar – chiar și pe cele „ plug and play” – și să suportați un cost inițial mare înainte ca primul set de date să poată fi analizat. Cu toate acestea, există multe soluții SaaS și auto-servire disponibile în care se poate începe cu bani pe dolar. În plus, cu instrumente și tehnici precum AutoML disponibile pentru aproape toți furnizorii, analiza de date de mare putere este acum disponibilă oricui.

Explicabilitatea AI

Modelele AI, în special cele care se ocupă de dimensiuni derivate mai mari ale datelor și date colectate din diferite puncte de contact, sunt în mare parte cutii negre ale modelelor de învățare profundă. Datele intră și decizia (ieșire) iese. Există foarte puține motive în spatele motivului pentru care a fost luată o anumită decizie. Pe măsură ce ne îndreptăm spre viitor, unde AI este utilizată în aplicații precum diagnosticul medical, vehiculele cu conducere autonomă, tranzacționarea automată și chiar în recrutare și alte funcții de luare a deciziilor, devine important să se asigure transparența și vizibilitatea cu privire la motivul pentru care o anumită mașină -modelul învăţat a ajuns la o anumită decizie. Există multe instrumente și cadre open-source care au dat rezultate bune timpurii în interpretarea modelelor AI.

IA responsabilă și etică

Dacă o mașină cu conducere autonomă se confruntă cu două opțiuni, ambele duc la un anumit rău unui om, ce decizie ar trebui să ia modelul? Ar trebui să se bazeze pe date SAU ar trebui să existe o regulă de anulare?

Dacă s-a făcut un progres foarte nou în IA, este în regulă ca acesta să fie folosit într-o aplicație militară care va fi folosită în cele din urmă în război?

Acestea sunt câteva dintre întrebările, împreună cu părtinirea, protecția datelor, discriminarea etc., pe care IA responsabilă și etică încearcă să le abordeze. Există o mișcare mare în jurul utilizării etice a inteligenței artificiale și multe companii creează grupuri operative și coaliții dedicate care se ocupă de acest lucru.

Platforme de depozitare a datelor și de gestionare a datelor

Depozitarea există de mult timp și a servit ca pas principal pentru ca organizațiile să colecteze și să structureze date astfel încât să înceapă să aibă sens. În ultimii câțiva ani, au apărut numeroase servicii și platforme de depozitare care pot fi utilizate de echipele de inginerie de date pentru a-și lansa călătoriile de depozitare și stocare a datelor.

Știința datelor ca competență de bază pentru organizații

Cu mulți ani în urmă, analiza statistică și a datelor mari au fost văzute ca abilități „experte” care au fost oferite echipelor de analiză, dar acest lucru s-a schimbat cu câțiva ani în urmă. În prezent, multe echipe de afaceri preferă ca membrii echipei lor să folosească instrumente de analiză pentru a analiza datele.

În mod similar, astăzi, există o mișcare în care abilitățile de știință a datelor sunt dezvoltate în cadrul echipelor de afaceri. Echipele de afaceri învață cum să gestioneze proiectele, așteptările și calendarele de știință a datelor și cum abilitățile și managementul echipei sunt diferite de cele din echipele tradiționale de dezvoltare de software.

În concluzie, 2020 și următorii câțiva ani vor fi foarte interesanți pentru companiile și echipele care adoptă știința datelor și domeniile conexe de lucru.