Interviu de Victor Kapra cu Raoul Savos (Seful Departamentului de cercetare Bursa de Reclama)
Cum poti, ca advertiser, sa cunosti, sa previzionezi comportamentul celor care navigheaza pe Internet, astfel incat sa oferi reclama celor mai potriviti utilizatori, pentru a avea eficienta si expunere maxime?
Marea provocare pentru targetarea eficienta a reclamelor online este de a previziona caracteristici demografice si socio-economice ale utilizatorilor, cunoscand doar traficul pe care ei il genereaza.
Platforma online Bursa de Reclama utilizeaza pentru targetarea reclamelor pe care le ruleaza pe site-urile din portofoliu (un univers de 8 milioane de vizitatori lunar), algoritmi de calcul biologic inspirati din sistemul imunologic si sistemul nervos al vertebratelor.
Astfel, a reusit sa creasca acuratetea cu care previzioneaza genul utilizatorului de Internet la 72-75%, fata de 68-69% cat inregistreaza sisteme similare.
Raoul Savos, seful Departamentului de cercetare al Bursei de Reclama, explica tendintele in targetarea eficienta a reclamelor online.
Reporter: Cum a evoluat performanta campaniilor publicitare online in ultimii 20 de ani?
Raoul Savos: Odata cu expunerea primului banner publicitar in mediul online, la 25 octombrie 1994 pe Hotwire.com, advertiserii si platformele de publicitate au constatat ca aceasta noua formula de adresare a publicitatii se diferentiaza printr-o caracteristica esentiala: interactivitatea. Faptul ca utilizatorul de Internet poate sa reactioneze la afisarea bannerului dand click pe el a condus la elaborarea unor sisteme de masura a eficientei campaniilor, bazate in primul rand pe rata de click (CTR). Cu cat aceasta rata de click este mai mare, cu atat impactul bannerului este mai puternic. O campanie eficienta aduce avantaje tuturor celor patru jucatori din publicitatea online: advertiserul, publisherul, platforma de publicitate si nu in ultimul rand utilizatorul de Internet care primeste reclama care i se potriveste.
Initial, bannerele erau aparitii spectaculoase si erau considerate un element exotic in economia paginilor web, ele bucurandu-se de rate de click foarte mari. Cu timpul insa, interesul utilizatorilor a inceput sa scada, ratele de click s-au diminuat considerabil, iar incepand cu perioada de boom a publicitatii online internationale, in anii 1999-2000, au aparut primele preocupari privind eficientizarea campaniilor. Cea mai importanta contributie a acestei perioade ramane dezvoltarea primelor tehnologii de targetare si livrare a ad-urilor.
Utilizarea targetarii apare deci ca reactie la declinul performantei campaniilor si ca necesitate primara de a stimula raspunsuri cat mai bune din partea utilizatorilor care primesc continutul publicitar.
Reporter: Desi targetarea riguroasa a publicitatii online ar trebui sa fie subinteleasa, se intampla ca anumite campanii sa nu stea foarte bine la acest capitol. Care este importanta targetarii?
Raoul Savos: Stim, targetarea inseamna livrarea tintita a mesajului publicitar numai acelor grupe de utilizatori care sunt potentiali consumatori ai acestui mesaj. Un banner la consola de jocuri se va adresa cu preponderenta copiilor, adolescentilor si tinerilor, vizand mai putin segmentele superioare de varsta, in timp ce o reclama la produse pentru machiaj este mai probabil sa fie adresata utilizatorilor de sex feminin.
Obiectivele targetarii sunt, asa cum spuneam, cresterea eficientei campaniilor, dar si transformarea publicitatii intr-un mediu placut si util, prin care utilizatorul de Internet sa primeasca acel continut publicitar care il vizeaza direct si care poate reprezenta o imagine a intereselor sale imediate.
In toate platformele de publicitate online din lume, targetarea este azi un subiect care capata din ce in ce mai mare pondere. Marile companii au departamente specializate de cercetare in care se abordeaza aceste probleme.
In afara de cresterea eficientei mesajului de advertising, targetarea transforma publicitatea online intr-un mediu placut si util, prin care utilizatorul Internet sa primeasca acel continut publicitar care il vizeaza direct si care poate reprezenta o imagine a intereselor sale imediate.
Reporter: Cum se realizeaza tehnic targetarea?
Raoul Savos: In primul rand trebuie intarit faptul ca informatiile personale ale utilizatorilor Internet sunt anonime si ele trebuie sa ramana anonime.
La nivelul unei platforme de publicitate online care gestioneaza un portofoliu de site-uri, singurele detalii care se cunosc despre acesti utilizatori sunt cele legate de comportamentul lor, de site-urile pe care le acceseaza si de frecventa acestor accesari.
Marea provocare cu care se lupta targetarea este de a previziona caracteristici demografice si socio-economice ale utilizatorilor cunoscand doar traficul pe care ei il genereaza. Acest lucru este posibil, cu o acuratete care variaza in functie de factori multipli: tipul si calitatea tehnologiei utilizate, diversitatea site-urilor din portofoliu, eterogenitatea populatiei de utilizatori care realizeaza traficul pe platforma respectiva, etc.
Tehnologia pe care o utilizeaza Bursa de Reclama pentru sistemul de targetare demografica si socio-economica este bazata pe inferenta, deductia, realizate prin metode avansate de Inteligenta Artificiala, Data mining si Analiza statistica multidimensionala.
Reporter: Inteligenta artificiala in advertising-ul online. Suna interesant…
Raoul Savos: Inteligenta Artificiala (IA) este un domeniu deosebit de vast care in ultimii ani a inregistrat o dezvoltare exploziva. Ideea de a construi o masina care sa replice caracteristicile cognitive si senzoriale ale fiintei umane a existat din cele mai vechi timpuri.
Primele preocupari stiintifice pentru IA dateaza din anii 1920 – 1930 si s-au realizat in Psihologie.
Primul model matematic de neuron artificial dateaza din anul 1942, iar fundamentarea Inteligentei Artificiale ca domeniu de cercetare s-a realizat in 1956.
Urmand dezvoltarii calculatoarelor electronice, Inteligenta Artificiala a devenit un subdomeniu al Informaticii
Ca domenii de interes, Inteligenta Artificiala studiaza urmatoarele:
• Rationare si cunoastere (dezvoltarea unor modele deductive care sa replice modul de rationament uman, rezolvarea unor probleme de matematica si demonstrarea automata a teoremelor)
• Comunicare si perceptie (recunoasterea vorbirii, recunoasterea fetei, retele senzoriale care prin prelucrarea informatiilor primite de la diversi senzori creeaza o imagine a mediului).
• Robotica si manipularea obiectelor
• Invatarea automata
• Prelucrarea automata a limbajului natural
Plecand de la ideea fundamentala ca orice sistem inteligent trebuie sa aiba capacitatea de a sintetiza, generaliza si previziona anumite fenomene, e important sa stim ca o parte din interesele Inteligentei Artificiale, in special cele cantitative, sunt impartite cu Statistica si Econometria, Analiza numerica si Teoria Optimizarii, ceea ce face din Inteligenta artificiala un domeniu interdisciplinar.
Reporter: Cum foloseste platforma Bursei de Reclama aceste elemente ale Inteligentei Artificiale, ma refer la Invatarea automata si la Prelucrarea Limbajului natural in targetarea campaniilor?
Raoul Savos: Am lasat intentionat pe ultimele pozitii Invatarea automata (ML) si Prelucrarea automata a limbajului natural (NLP). Acestea sunt de departe cele mai importante si consistente domenii de cercetare in Inteligenta Artificiala.
Invatarea Automata isi propune elaborarea unor algoritmi care sa aiba capacitatea de a previziona, de a recunoaste anumite structuri sau forme si de a realiza previziuni cantitative.
Ne amintim modul in care invata copiii sa distinga similaritatile intre obiecte. Le sunt prezentate mai multe obiecte care au intre ele un anumit grad de similaritate, iar ei trebuie sa distinga cate clase se pot reprezenta si ce obiecte intra in fiecare clasa.
Figura: Prototipul invatarii nesupervizate: clasificarea se realizeaza prin analiza similaritatilor intre obiecte
Acesta este prototipul invatarii nesupervizate, prin care fara sa fie cunoscut nimic despre identitatea acestor obiecte, determinam similaritatile intre ele si evidentiem anumite pattern-uri.
In cazul in care ii spunem copilului ca figura cu trei laturi este un triunghi, cea cu patru laturi este un patrat, iar cea cu linie curba este un cerc, avem de-a face cu invatarea supervizata. In invatarea supervizata, procesul de inferenta este bifazic, adica algoritmul se antreneaza cu obiectele etichetate, apoi se realizeaza expunerea obiectelor necunoscute, pentru identificare si clasare. Exista si o a treia metoda de invatare automata, invatare prin intarire.
Figura: Prototipul invatarii supervizate: clasificarea se realizeaza utilizand obiectele etichetate
Pe de alta parte, limbajul uman este, cel mai adesea, ambiguu. Pentru un nativ roman, este usor sa inteleaga semnificatia unei expresii, utilizand contextul in care aceasta apare.
Pentru un turist care nu este nativ roman, se poate intampla ca anumite expresii sa nu mai fie usor de inteles, mai ales atunci cand ele sunt compozitionale si semnificatia lor nu se poate deduce din context, de exemplu „a spala putina”, „a-si lua talpasita”. Aceasta reprezinta provocarea cea mai importanta a Prelucrarii Limbajului Natural: citirea automata si intelegerea textului. Desi acest scop final nu este inca atins, masinile pot analiza sintactic, chiar semantic un text, fara insa sa poata face o dezambiguizare completa a textului.
Atat algoritmii de Invatare automata, cat si de Prelucrare automata a limbajului natural au o semnificatie aparte in cadrul problemelor de targetare pe care le abordam.
Algoritmii de Prelucrare a limbajului natural sunt utilizati pentru a analiza intentia imediata a utilizatorului de Internet, exprimata indeosebi prin cheile de cautare din motoarele de cautare. Cunoscand aceasta intentie, utilizatorului i se poate servi bannerul cel mai apropiat de interesul sau.
Pe de alta parte, este important ca bannerul sa fie postat pe site-uri sau sectiuni care prezinta concordanta cu mesajul publicitar. E nevoie deci sa vezi despre ce se „vorbeste” intr-un document. Acest proces se numeste sumarizare automata.
Utilizarea intentiei imediate, cat si targetarea in functie de contextul paginii pe care bannerul apare au ca efect o crestere importanta a eficientei campaniilor, intrucat utilizatorului i se asigura cel mai relevant banner in raport cu interesul sau actiunile sale.
Metodele de Invatare automata sunt utilizate pentru a previziona criteriile demografice (sexul, varsta) sau socio-economice (nivelul de educatie, venitul, etc) ale utilizatorilor, cunoscand doar activitatea lor pe Internet si cunoscand valorile variabilelor tinta pe un esantion reprezentativ si de volum optim. Exista mai multe clase de algoritmi care performeaza aceste sarcini, insa cele mai bune rezultate se obtin utilizand Metodele de calcul biologic.
De asemenea, Invatarea automata este utilizata in targetarea comportamentala, prin care se segmenteaza automat tipologiile comportamentale ale utilizatorilor, iar livrarea campaniilor se efectueaza doar pe grupele comportamentale pe care aceste campanii inregistreaza eficienta ridicata. Targetarea comportamentala este un exemplu de tehnologie de invatare nesupervizata, intrucat tipologiile comportamentale nu sunt date a priori, ci ele se deceleaza automat in procesul de analiza statistica multidimensionala.
Reporter: Ati rostit o sintagma „calcul biologic”. Ce legatura exista intre comportamentul fiintelor vii si publicitatea online?
Raoul Savos: Calculul biologic inseamna, foarte general vorbind, transpunerea unor mecanisme biologice (deci care se produc in vivo) in metode specifice invatarii automate. Adica, crearea de algoritmi care sa „invete” din experiente, sa se adapteze si sa ia decizii, utilizand un frame biologic.
Prin calculul biologic, Inteligenta Artificiala introduce dimensiunea “in silico”, dimensiune de trecere intre “in vivo” si “in vitro” si care desemneaza automatizarea unor modele inspirate din comportamente biologice.
Aici, Inteligenta Artificiala este la sine acasa: utilizand comportamente biologice perfectionate de natura in milioane de ani, Invatarea Automata produce algoritmi de clasificare si optimizare numerica.
Dintre acestea, cele mai eficiente doua, cu care lucram si in laboratoarele Bursei de Reclama, sunt Retelele Neuronale Artificiale (ANN) si Sistemele Imunologice Artificiale (AIS).
In corpul vertebratelor, sistemul nervos si sistemul imunitar sunt cele mai mari procesoare de informatie.
Retelele Neuronale Artificiale exploateaza modul in care se transmite informatia in sistemul nervos, utilizand neuronul ca unitate structurala si functionala a acestuia. Neuronii sunt conectati intre ei prin sinapsele realizate de dendrite. Mai multi neuroni formeaza o retea in care informatia se transmite ponderat. Aceasta ponderare se realizeaza prin intermediul mediatorilor chimici (acetilcolina, noradrenalina, etc).
O retea neuronala artificiala este organizata similar, in straturi de neuroni, iar ponderarea informatiei se realizeaza prin ajutorul unor functii speciale (care se numesc functii de propagare si functii de activare). Primul model matematic de neuron artificial a fost dat in 1942 (McCulloch-Pitts) si utiliza o functie de activare in praguri. Azi, aceste metode au fost mult imbunatatite, astfel incat caracterul diferentiabil al functiilor de activare si proprietatile lor permit o reprezentare probabilistica a output-urilor.
Pentru targetarea demografica, input-ul unei retele neuronale este comportamentul utilizatorului, iar output-ul este reprezentat de valorile previzionate ale caracteristicilor demografice.
Figura: Structura unei retele neuronale cu un strat ascuns de neuroni.
Vreme de peste trei decenii, Retelele Neuronale Artificiale au ocupat prima pozitie in cadrul celor mai buni clasificatori si predictori numerici. Dupa 1990 insa, metodele de calcul biologic s-au diversificat prin introducerea calculului imunologic. Primii algoritmi puternici de calcul imunologic s-au dezvoltat dupa 2000, acestia ocupand in prezent podiumul.
Fara indoiala, cea mai spectaculoasa clasa a metodelor biologice sunt Sistemele Imunologice Artificiale.
Sistemul imunitar al vertebratelor proceseaza o imensa cantitate de informatie, are memorie de lunga durata (el este capabil sa retina pentru toata durata vietii informatii despre experientele prin care a trecut), se adapteaza permanent, generalizeaza si ia decizii legate de diverse evenimente care se produc in organism.
Rolul fundamental al sistemului imunologic este acela de a asigura apararea organismului impotriva diversilor factori agresori (virusuri, bacterii, ciuperci, protozoare, etc). In felul acesta, el defineste autonomia unui organism, ceea ce este propriu si strain organismului.
Dihotomia care sta la baza ideii de sistem imunologic este Antigen-Anticorp. Un antigen este o entitate straina organismului, care prin prezenta sa in cadrul sistemului, declanseaza un raspuns imun (de exemplu, o bacterie care intra in sange sau un parazit etc). Anticorpul este un produs specific care apare in urma prezentei antigenului si care este implicat in mecanismul defensiv al organismului impotriva antigenului.
Daca in sistemul nervos unitatea functionala este neuronul, in sistemul imunologic aceasta este leucocitul. O parte dintre leucocite (cele mononucleare) sunt implicate in analiza informatiei antigenice si in productia de anticorpi. Acestea sunt in special Limfocitii B si Limfocitii T.
Intr-un mod foarte prozaic, putem exemplifica procesul in felul urmator: cand o bacterie intra in sange, in jurul sau se aduna cativa limfociti. Acestia au pe suprafata lor anticorpi cu care se leaga de bacterie, o analizeaza (asa cum macelarul feliaza carnea la macelarie). Limfocitul, care este cel mai eficient in distrugerea bacteriei, se cloneaza in mai multe exemplare identice care incep sa produca anticorpi impotriva acestei bacterii. Clonarea este esentiala, de ea depinzand rapiditatea cu care apare raspunsul imunologic. Anticorpii se fixeaza pe bacterie si o inactiveaza. In acelasi timp, complexul antigen-anticorp atrage fagocitoza altor leucocite.
Figura: Reactia Antigen-Anticorp. Trei anticorpi pentavalenti blocheaza receptorii unei bacterii.
Dupa ce infectia s-a vindecat si bacteria a fost eliminata, sistemul pastreaza pabentru o perioada lunga celule de memorie specializate pentru acest tip de bacterie (limfociti foarte eficienti in eradicarea infectiei). Aceasta asigura faptul ca la o posibila recontaminare, reactia sistemului va fi mult optimizata. Prin urmare, un sistem imunologic natural isi creeaza o memorie, se adapteaza – invata si ia decizii.
Reporter: Care ar fi echivalentul in publicitatea online a virusului patruns intr-un organism viu?
Raoul Savos: Un utilizator de Internet caruia nu ii cunosc caracteristicile (sex, varsta etc) si pe care vreau sa-l previzionez, sa-l clasific intr-un context socio-demografic.
Cand un virus nou patrunde in organism, acesta din urma nu stie nimic despre el, astfel ca limfocitii incep sa-l analizeze. Asemenea, cand nu stim nimic despre un utilizator de internet, clasificatorul imunologic il analizeaza, urmareste ce pagini viziteaza si in final stabileste din ce categorie face parte. De exemplu, este barbat intre 19 si 29 de ani.
Aceste trei paradigme (memorie imunologica – adaptare a raspunsului imun – decizie) sunt utilizate in algoritmii imunologici prin care se rezolva probleme complexe de clasificare si optimizare multicriteriala. Performanta lor este superioara celorlalte metode.
Cand nu stim nimic despre un utilizator de internet, clasificatorul imunologic il analizeaza, urmareste ce pagini viziteaza si in final stabileste din ce categorie face parte.
Reporter: Cat de eficiente sunt metodele de targetare folosite de Bursa de Reclama?
Raoul Savos: Asa cum am precizat anterior, performanta targetarii depinde de mai multi factori, dintre care tipul de tehnologie utilizata este extrem de important.
La scara mondiala, majoritatea sistemelor de targetare sunt construite pe paradigme ale Invatarii Automate. Totusi, tipul de algoritm folosit poate influenta calitatea previziunilor.
Pentru problema previzionarii genului utilizatorilor (deci pentru variabile binare), cele mai recente teze de doctorat citeaza o acuratete medie de 68% - 69%.
Sistemul de targetare al Bursei de Reclama utilizeaza atat Invatarea Automata (prin modele biologice), careia ii asociaza alte tehnici de Data mining si analiza multivariata.
In felul acesta am crescut acuratetea previziunilor la 72%-75%.
Diferenta este importanta atunci cand cele cateva procente inseamna sute de mii de utilizatori care pot raspunde mesajului publicitar.
Reporter: Care este directia inspre care se indreapta tehnologiile de targetare in publicitatea online?
Raoul Savos: Niciodata nu se poate spune despre o solutie aproximativa ca este perena. In domeniul computational, apar mereu concepte noi, metodele de explorare se imbunatatesc continuu. De aceea, o solutie care acum iti ofera satisfactie, peste un timp s-ar putea sa nu te mai multumeasca.
In problema targetarii, stradania de a gasi cele mai eficiente metode de previziune trebuie sa fie permanenta.
Majoritatea sistemelor predictive de targetare demografica (sex, varsta, etc) din industrie realizeaza o radiografiere a populatiei utilizatorilor la un moment dat. Aceasta radiografiere se realizeaza prin intermediul sondajelor statistice care ulterior sunt folosite pentru antrenarea algoritmilor de invatare automata. De aceea sondajele trebuie repetate pentru a asigura captarea variatiei la nivelul populatiei.
Introducerea dimensiunii temporale in targetare, adica urmarirea comportamentului acelorasi utilizatori pe o perioada mai mare de timp, este deosebit de importanta si va ocupa un loc aparte in preocuparile noastre viitoare. Solutiile pentru aceasta abordare sunt inca oferite doar de Econometrie si sunt inca doar solutii liniare.
Cu toate acestea, acuratetea previziunilor e de asteptat sa creasca. Din punct de vedere tehnic, utilizarea acestei tehnologii cere un anumit efort legat de puterea de procesare si stocare a datelor.
Reporter: Online-ul este un mediu cu destule elemente de spontaneitate, interactivitate, conversatie libera. Cum se simte un cercetator - matematician, statistician, biolog - in aceasta industrie efervescenta?
Raoul Savos: In stiinta, nasterea unui nou concept inseamna implinirea unui vis al omenirii. Cred ca asta urmareste cercetarea stiintifica: implinirea viselor lumii!
Conditia cercetatorului e similara cu cea a iepurelui din Tinerete fara batranete si viata fara de moarte. Ajuns in imparatia tineretii vesnice, lui Fat-Frumos ii este interzis sa paseasca intr-o anumita vale. El ajunge totusi acolo, urmarind un iepure, amintindu-si in felul acesta de unde vine si cine ii sunt parintii. Cercetatorul este un astfel de „iepure” care dezvrajeste lumea, ii arata de unde vine, incotro trebuie sa se indrepte si care sunt valorile care ar trebui urmate.
Totul tine de viziune, de constienta si de gradul nostru de trezire.