Toate informațiile de care ai nevoie înainte să cumperi o locuință nouă!
Cum colectăm date

Cum colectăm date

Portalul de imobiliare eDezvoltator face parte dintr-o constelație de proprietăți online create și operate de compania CELSO Data Science, care au un singur scop – cel de a colecta date din piața imobiliară.

Calitatea datelor este garantată de natura lor empirică, mai exact de faptul că informațiile sunt rezultatul unor observații obiective și nu rezultatul unor impresii subiective.

Introducem datele într-un sistem versatil de ”inteligență artificială”, care le modelează în produse de consultanță destinate investitorilor instituționali (fonduri de investiții, bănci de investiții, alianțe de dezvoltatori etc.). Obiectivul acestor produse consultanță fiind acela de a optimiza randamentul investițiilor realizate de respectivele entități.

Suntem singura companie de data science care interoghează piața folosind o combinație atât de complexă de surse de date. Colectăm informații din patru surse principale: Ofertă, Cerere, Piață liberă, Economie națională. Mai departe vom descrie fiecare dintre aceste surse.

Date despre ofertă

Când spunem ”ofertă”, ne referim la totalitatea locuințelor noi (construite după 2010) oferite la vânzare în ansambluri rezidențiale. Nu includem în ofertă locuințele care nu fac parte dintr-o investiție imobiliară – precum o casă construită inițial pentru locuit și apoi pusă la vânzare

Ne interesează două tipuri de ofertanți: dezvoltatorii și proprietarii care au cumpărat de la dezvoltatori. Dezvoltatorii sunt cei care au creat proiectul imobiliar – prima mână. Proprietarii sunt cei care au cumpărat unități de la dezvoltator cu scopul de a le revinde.

Pe această pagină vom vorbi despre datele colectate de la dezvoltatori deoarece doar acestea sunt colectate prin eDezvoltator.ro; datele provenite de la proprietari sunt colectate prin portalul Revanzare.ro – un site de anunțuri gratuite destinat celor care vor să își vândă rapid locuința din cadrul unui ansamblu rezidențial.

De la dezvoltatori colectăm două tipuri brute de informații: cele tehnice (construcție, facilități, planificare urbană etc.) și cele comerciale – prețuri, condiții de plată și negociere, politici de avansuri, oferte speciale etc..

Audit ansambluri

Datele tehnice se colectează doar în urma unei vizite la șantierul ansamblului rezidențial (niciodată prin telefon). Avem angajați dedicați pentru această sarcină, care vizitează periodic ansamblurile rezidențiale și completează o fișă de audit – un formular digital care include peste 500 de factori de interes (data points). Toate datele completate în formular sunt observate, adică angajatul nostru completează doar ceea ce vede fizic, nu ceea ce i se comunică.

Formularele sunt însoțite de minim 5 imagini pentru fiecare criteriu. Împreună cu datele, imaginile sunt interpretate de software propriu care le clasifică și le integrează în corpul de cunoștințe (foundation model) al LLM-ului principal, cel care este folosit pentru a genera opinii, care răspunde pe forum/social media și care stă în spatele chatbot-ului.

Segmentare ofertă

Acest proces presupune preluarea ”listelor de prețuri” – documente non-standard puse la dispoziție de dezvoltator (broșuri, tabele, liste scrise de mână etc.) și prelucrarea lor de către echipa noastră de date pentru a fi stocate într-un format unic.

Segmentăm oferta completă, reprezentând stocul fizic. Cu alte cuvinte, extragem din oferta pusă la dispoziție de dezvoltator toate locuințele din respectivul ansamblu, nu doar tipurile principale. De exemplu, dacă există 50 de apartamente de 2 camere tip A însă ele sunt poziționate diferit în clădiri (ca etaj, orientare etc.), noi vom crea 50 de elemente diferite.

Pe website, în catalogul de locuințe, oferta este simplificată din rațiuni de performanță. De aceea, în catalog se pot vedea doar câteva mii de modele de locuințe. În realitate, noi avem informații despre câteva zeci de mii.

În momentul în care se face o solicitare și clientul interesat este preluat de un agent imobiliar din cadrul echipelor noastre de consultanță gratuită, clientul primește acces la oferta completă însă acesta este filtrată de către agentul nostru. Astfel, clientul primește rapid cele mai potrivite locuințe și cele mai relevante informații.

Standardizare ofertă

În procesul de standardizare preluăm proiectul tehnic al ansamblului (planimetriile în format CAD) și le segmentăm manual pe planșe individuale iar proiectul clădirii este împărțit în sute de planșe, câte una pentru fiecare unitate.

Prelucrăm în mod automatizat fiecare planșă folosind tehnologie dezvoltată intern care extrage caracteristicile (dimensiuni și suprafețe camere, tip bucătărie, poziționare ferestre, înălțime ferestre etc.) și apoi produce materiale standard de marketing (randări 2d/3d, tururi virtuale, simulări ale luminii naturale, planșe complete de dimensiuni etc.).

Rezultatul este un catalog cu mii de locuințe, fiecare cu aspect unitar, prin care utilizatorul poate identifica și compara rapid locuințele cele mai potrivite pentru el. Datorită standardizării datelor, utilizatorul poate găsi rapid locuințele care satisfac anumite cerințe precum faptul că au bucătărie open-space, că au dormitoare mari sau că au fereastră la baie.

Nu în ultimul rând, pe baza standardizării LLM-ul principal va crea opinii personalizate pentru fiecare locuință și îi va acorda un calificativ relativ la preferințele clientului. Astfel, odată ce utilizatorul și-a setat un profil pe eDezvoltator, site-ul îi va identifice foarte rapid, pe bază de calificativ, cele mai potrivite locuințe pentru cerințele lui specifice. 

Date despre cerere

Această clasă include orice informație relevantă despre cei care cumpără locuințe. Colectăm date prin intermediul mai multor mijloace, fiecare dintre ele completând câte o mică parte din profilul clientului.

Datele sunt apoi folosite în LLM-ul principal pentru a oferi utilizatorilor o experiență unică, croită special pentru cerințele lor. Această experiență duce la relaxarea clientului și la relevarea factorilor reali care duc duc la achiziție – preferințele reale.

Procesul de colectare a datelor despre cerere este doar parțial automatizat deoarece componenta umană nu poate fi complet eliminată.

Data mining

Utilizatorii se pot autentifica pe eDezvoltator doar folosind conturile de Google sau Facebook. Odată autentificați, ei ne dau acordul să executăm un proces de interogare al profilelor lor de social media și conversațiilor lor pentru a identifica aspecte relevante despre preferințele lor reale.

Nu colectăm niciun fel de date de identificare. Fiecare utilizator primește un identificator unic iar numele, numărul de telefon, adresa de e-mail sau orice alte informații personale sunt complet irelevante din momentul în care avem acces la profilele de social media – motiv pentru care nici nu stocăm datele personale/de contact ci le predăm dezvoltatorilor sau agenților în baza unor convenții GDPR.

Păstrăm datele de contact în sistem doar după acordul explicit al utilizatorului pentru a primi telefoane de la call-center-ul nostru în vederea îmbunătățirii calității serviciilor noastre și pentru a primi pe e-mail oferte relevante sub formă de newsletter.

Comportament activ

Cea mai importantă sursă de date este comportamentul activ al utilizatorului cât timp interacționează cu site-ul. Ne interesează în special ce filtre aplică, căror secțiuni acordă atenție și pentru ce ansambluri sau locuințe face solicitări.

Doar măsurând acest comportament putem înțelege bine și ”friction-less” dorințele clientului. Asistentul virtual (chatbot-ul) apare doar după ce utilizatorul dă dovadă de comportament activ (vede câteva pagini, aplică filtre etc.) deoarece comportamentul utilizatorului servește ca instrucțiuni inițiale (set de antrenament) pentru instanța de LLM care va crea chatbot-ul. 

Motoare de căutare

eDezvoltator a fost creat de la bun început cu scopul de a avea vizibilitate organică nu doar datorită economiilor substanțiale realizate prin eliminarea PPC din campania de marketing (în 2023, traficul organic a depășit 200.000€ valoare CPC), ci mai ales datorită capacității traficului organic de a pre-califica utilizatorul.

Practic, eDezvoltator este optimizat pentru a acapara traficul care este interesat de opinii despre anumite ansambluri. Acest trafic este cel mai bine calificat pentru a ne oferi datele de care avem nevoie deoarece utilizatorii vor să vadă în mod explicit anumite detalii despre ansambluri, detalii care influențează decizia de cumpărare.

Pe ce ansamblu ”intră” clientul pe site este un factor cheie în antrenarea LLM-ului care apoi va formular serviciul de asistență virtuală (chatbot) și pentru ordonarea catalogului. Fiecare utilizator pe site vede un catalog diferit, croit pentru preferințele anticipate de noi în urma ansamblului căutat de utilizator pe motorul de căutare.

De exemplu, dacă un utilizator intră pe ansamblul NUSCO City, care se află în zona de nord a capitalei și are apartamente de două camere în raza de preț 100-150k EUR, atunci presupunem că acel client vrea să vadă oferte din zona de nord din gama de preț corespunzătoare NUSCO – middle market, în acest caz.

Social media

Prin intermediul interacțiunilor (engagement – like-uri, comentarii etc) realizate de către utilizatorii din social media (Facebook, Instagram, X, LinkedIn) deducem tendințe din piață și notorietatea anumitor mărci.

Din cauza slabei calității, nu folosim aceste date în modele noastre de bază (foundation models) ci doar pentru a genera ”alerte” privind anomalii în piață. De asemenea, folosim comentariile de pe rețelele de socializare pentru a antrena LLM-ul în ceea ce privește conversațiile cu utilizatorii – NLP.

Forum și chatbot

Asemenea social media, pe forum sau direct în asistentul virtual, utilizatorii pot interacționa cu noi sau cu dezvoltatorii. Întrebările puse pe forum și către asistentul virtual servesc la detectarea anomaliilor și nu sunt folosite decât consultativ – nu influențează automat modelele de bază. Acestea influențează sub-instanța de chatbot astfel încât acesta să ofere rezultate din ce în ce mai relevante.

Folosim forumul pentru a antrena conversațional chatbot-ul și a-i rafina abilitățile de a discuta în limbaj natural.

Agenți teren / date anecdotice

Cele mai slabe date sunt cele constatate de agenți, cele declarate de client în mod verbal. Aceste date sunt puternic influențate de context și nu pot fi luate în serios în cadrul unor modele complexe – cele pe baza cărora să realizăm produsele de consultanță.

Oricât de bun ar fi agentul imobiliar, clientul nu se va deschide complet acestuia, existând permanent ”frica de manipulare” alimentată de gândul că agentul este de fapt un profesionist antrenat pentru a vinde, deci tot comportamentul agentului se va orienta către a închide cât mai repede tranzacția, chiar dacă produsul nu este potrivit pentru client.

În România, acest context este cu atât mai aprofundat, teama de deschidere fiind un sindrom cultural, întâlnit la nivel de populație. De aceea, preferăm să folosim agenții doar pentru a oferi informații dar nu pentru a colecta informații.

Date comparative

Această categorie de date se referă la informații colectate din surse externe. Sunt date foarte slabe calitativ, de aceea le folosim doar cantitativ în modelele noastre, în special pentru a genera conținut și pentru a identifica tendințe din piață.

Mai exact, cu ajutorul acestor date facem infografice și articole despre starea pieței și detectăm anomalii. Spre exemplu, putem deduce dacă un anumit tip de locuințe se vinde mai repede într-un anumit interval de timp.

Data scraping

Periodic, ”indexăm” toate locuințe publicate pe site-urile de anunțuri (imobiliare.ro, storia etc.) și pe site-urile agențiilor. Colectăm doar informațiile cantitative, de exemplu câte locuințe de 2 camere sunt disponibile într-o anumită zonă sau care locuințe s-au vândut mai repede în ultima vreme față de alte perioade.

Acestea sunt date publice, la care nu avem acces exclusiv și pe care nu le considerăm a fi utile în ceea ce privește obținerea unui avantaj competitiv – oricine le poate extrage și modela. De aceea, investim foarte puțin efort în acest tip de date.

API și servicii de date

Mai utile decât site-urile de anunțuri sunt serviciile care transmit datele despre piața imobiliară în mod structurat, la nivel de API. Acestea sunt accesibile pe bază de abonament iar costul lor este mai redus decât implementarea operațiunilor de data scraping.

Asemenea celorlalte tipuri de date din această secțiune, folosim aceste informații doar consultativ, ele nefiind utile în mod explicit nouă, ci oricui are acces la respectivele servicii de date – toate agențiile imobiliare.

Date macroeconomice

Această clasă de date este folosită în modelele de bază, informațiile fiind derivate din surse oficiale cum ar fi Banca Națională, Oficiul de Cadastru sau Institutul de Statistică. Acest tip de date ne ajută să identificăm tendințe macroeconomice și să construim ”peisajul” în care formulăm produsele de consultanță.

Date geopolitice și economice – RegCom, BNR, MAE

Din informațiile publicate de BNR, putem extrapola comportamentul pieței (temperat sau fluctuant) în următoarea perioadă, comparând cu date istorice. Cursul principalelor monede de schimb, deficitul de cont curent și alți indicatori de nivel național ne pot spune cât de stabil și previzibil este mediul de afaceri intern și, deci, comportamentul clienților.

De la MAE, putem obține informații despre situația geopolitică și factorii externi. Ne interesează în special situația comerțului extern – aceasta influențând inflația și puterea de cumpărare. De asemenea, urmărim și implicarea României în conflicte externe, situație care provoacă o stare de anxietate în comportamentul consumatorilor.

Registrul Comerțului ne oferă informații despre tendințele firmelor din domeniul în care lucrează anumite segmente dintre clienții noștri însă datele de aici sunt foarte decalate cu realitatea (6-9 luni întârziere), drept pentru care nu le luăm în considerare în modelele de bază.

Date statistice – INS, OCPI, Urbanism

Datele statistice în privința construcțiilor și pieței imobiliare oferă anumite indicii privind starea pieței însă, asemenea datelor de la Registrul Comerțului, ele vin decalat și, deci, nu sunt relevante pentru planificări actuale.

În schimb, datele de la oficiile de Cadastru și Urbanism oferă o imagine mult mai clară asupra tendințelor pieței, pe segmentul de ofertă. Cu cât vedem mai multă activitate în aceste oficii, cu atât putem constata că piața dă semne de încredere și, deci, se fac investiții.

Date de la consultanți 

Din această grupă, datele de la consultanți reprezintă cea mai slabă sursă deoarece ele sunt, de fapt, o interpretare subiectivă a celorlalte date menționate anterior (naționale, geopolitice, investiții etc.).

În cadrul analizelor oferite de consultanți am observat adesea că sunt multe statistici scoase din context pentru ca rezultatul final să fie pozitiv sau negativ, în funcție de ce îl avantajează pe consultant. Folosim aceste date doar consultativ, pentru a detecta anomalii și pentru a evalua cât de bine pregătiți sunt competitorii noștri.

Presă – știri, interviuri, podcast, forumuri

Presa este o altă sursă de date slab calitative și foarte subiective. Aproape toate articolele din presă sunt plătite de către ofertanți (dezvoltatori sau agenții) și sunt menite să scoată din context doar părțile pozitive, eliminând adesea în mod evident, chiar ridicol, părțile negative. Acest stil de presă a contribuit semnificativ la lipsa de încredere a populației în agențiile imobiliare și dezvoltatorii imobiliari.

La polul opus se află presa care critică irațional și excesiv proiectele imobiliare precum blogurile Zoso sau CaseStrambePeRadar.ro sau forumul Softpedia. Cu toate că blog-urile și-au pierdut aproape complet relevanța, ele fiind utilizate de o masă din ce în ce mai mică de internauți, forumul încă rămâne o sursă adesea folosită și foarte toxică de informare.

De aceea, folosim aceste surse doar pentru a identifica ce ansambluri sunt criticate/lăudate și pentru a ne calibra campaniile după ele. Nu folosim informațiile din presă/blog-uri/forum pentru a ne alimenta modelele de bază.

Ce facem cu datele

Scopul principal al proiectului nostru și modul principal în care folosim datele este realizarea unor produse de consultanță pentru investitorii instituționali precum fonduri de investiții, bănci sau chiar stat.

Datele stau la baza unor simulări care combină resursele investitorului cu contextul din piață. Aceste simulări duc la produsele optime, cele mai bine adaptate la obiectivul investitorului.

Complementar, aceleași date sunt folosite pentru a asista utilizatorii site-ului și agenții noștri să identifice rapid locuințele potrivite și să se documenteze cât mai bine înainte de a face o tranzacție.

Mai multe despre felul în care modelăm și utilizăm datele în articolele:

Cum construim catalogul

Cum formulăm opiniile experților

Ce este și cum funcționează asistentul virtual

Ți-a plăcut articolul? Împarte-l cu alții!
Link articol
Articolul anterior

Pas important pentru siguranță: Treceri de pietoni supraînălțate pentru protejarea copiilor în Sectorul 2

Articolul următor

Programul de implicare socială derulat de eDezvoltator.ro

Recomandăm și...