Måling af webproduktdatakvalitet

0
Måling af webproduktdatakvalitet

Vi sætter Zytes egen Automatic Extraction API head-to-head med en kommerciel rival – og et open source-alternativ – for at finde ud af, hvem der er tophund for produktudvinding.

Fra prisintelligens til at træffe investeringsbeslutninger eller bygge datadrevne produkter, har vi ofte brug for at udtrække produktdata fra flere websteder. Det betyder typisk at skrive hjemmesidespecifik kode for hver hjemmeside, hvilket kan blive dyrt og tidskrævende at udvikle og vedligeholde, når antallet af hjemmesider bliver stort.

Ville det ikke være fantastisk, hvis vi kunne bruge AI i stedet for? Kan vi overhovedet bruge det noget af tiden?

Fuldt automatiseret ekstraktion fungerer godt til artikler. Se vores webinar for at se, hvordan vi evaluerede ydeevnen af ​​forskellige kommercielle løsninger og open source-biblioteker. Produktdataudtrækning er dog mere kompleks end artikler, og vi var alle ivrige efter at se data om, hvor godt vores løsning fungerede. Men som Konstantin Lopuhin, opdagede vores chefdataforsker hurtigt – selv evaluering var en mere udfordrende opgave for produktdata.

Målet var at stressteste vores egen AI-drevne Automatic Extraction API mod et velkendt kommercielt værktøj. Til vores basislinje for produktudvinding valgte vi en relativt grov indpakning omkring extruct, et meget brugt open source-værktøj, der udtrækker indlejrede metadata fra HTML-markering. For at give vores egen Automatic Extraction API en seriøs træning stillede vi den op imod Diffbot, et andet kommercielt tilbud, der allerede satte en høj bar for ekstraktionskvalitet. Ved at fodre hver af disse med et omhyggeligt sammensat sæt af virkelige produktside-URL’er var vores mål at finde, hvilken løsning der gav de bedste kvalitetsresultater med hensyn til at udtrække produktpris, tilgængelighed og SKU-oplysninger (Stock Keeping Unit).

Lad os spille retfærdigt

Det er tid til at henvende sig til elefanten i rummet. For at gøre eksperimentet så retfærdigt som muligt gjorde vi os umage med at minimere faktorer, der kunne underminere troværdigheden af ​​vores test og resultaterne.

I stedet for at vælge webdomæner til evaluering, bad vi to ekstraktionseksperter uden for vores datavidenskabsteam om at foreslå et objektivt sæt populære forbrugerproduktdomæner. Deres udvalg strakte sig fra store markedspladser som Amazon, eBay og Alibaba til mono-brand sites, herunder Ikea og John Lewis. For at gøre tingene hårdere smed vi nogle websteder ind fra mere obskure mærker og leverandører på en række forskellige sprog. Fra disse domæner valgte vi et bredt spektrum af URL’er, herunder forsideprodukter, mere dybt skjulte varer, nedsatte og udsolgte produkter.

Vi tog også andre forholdsregler, såsom at tage et ‘øjebliksbillede’ af vores valgte mål-URL’er og føre dem ind i hver ekstraktionsmaskine. På den måde kunne vi være sikre på, at sideindholdet ikke havde ændret sig på nogen måde i de korte intervaller mellem hver testkørsel, og at det altid var det samme uanset downloadplaceringen.

Og vinderen er…

Brug af F1-score som målestok, som kombinerer præcision og genkaldelse, fandt vi ud af, at produktudvindingskvaliteten af ​​Zytes Automatic Extraction er væsentligt bedre end Diffbot for pris og SKU-attributter. På samme måde var resultaterne for tilgængelighed sammenlignelige mellem de to løsninger. Både Diffbot og Zytes automatiske ekstraktion var langt bedre end ekstruderingsbasislinjen.

Tag ikke bare vores ord for det, vi har open source hele projektet for at vise, at der ikke var noget at skjule. Det er derfor, vi har frigivet hele datasættet til eksperimentet, inklusive webarkivfiler, testmetodologi, skærmbilleder af valgte sider, grundsandhedsannoteringer, evalueringskode og basislinjeudtrækskode for open source.

På vej mod produktdataudfordringen

Vi var glade – og bare en smule lettede – over at opdage, at vores egen Zyte-drevne udvindingsløsning vandt dagen mod sine kommercielle og open source-rivaler. Efter allerede at have udført et lignende eksperiment med den nemmere opgave at udvinde varer, håbede vi, at vi kunne få lignende resultater med produktudvinding… men det stoppede ikke et par sommerfugle på den store dag!

Intet står stille i nettets verden. Produktsidedesign udvikler sig konstant, hvilket gør den nøjagtige parsing og fortolkning af en HTML-side til et bevægende mål for vores datavidenskabsteam. De seneste tendenser omfatter den stigende brug af JavaScript og populariteten af ​​’uendelige’ sider, der løbende gengiver nyt indhold, mens du ruller nedad.

Hos Zyte er det vores forretning at holde et vågent øje med disse tendenser, og vi forbedrer dem løbende, så vi kan levere den bedste løsning til vores kunder. Du er mere end velkommen til at komme i kontakt med dine egne dataudvindingsudfordringer. Vi elsker svære problemer – næsten lige så meget, som vi elsker at løse dem for vores webskrabende kunder.

Næste skridt

Hvis du er interesseret i at høre mere eller har spørgsmål, så se venligst vores on-demand webinar for at høre fra Konstantin om, hvordan han foretog hele evalueringsprocessen, hvilke problemer han stod over for, og hans konklusioner og forslag.

Du kan også prøve vores Automatic Extraction API gratis og se, hvordan du kommer videre.

Leave a Reply