Uddrag Summit 2021: Højdepunkter og vigtige takeaways

0
Uddrag Summit 2021: Højdepunkter og vigtige takeaways

Det er en wrap! I sidste uge, for tredje gang, Uddrag Summit samlet webdataeksperter og -entusiaster for at lære, dele og inspirere. Sessioner, workshops, paneler, konkurrencer – dette års topmøde havde så meget at byde på, jeg ved ikke engang, hvor jeg skal starte.

Uddrag Summit med et blik

Med al den usikkerhed, der stadig svirrer omkring COVID-19 i 2021, besluttede vi at forblive sikre og afholde en virtuel begivenhed igen. Alligevel ønskede vi at tilbyde alle deltagere og talere en enestående oplevelse og mulighed for at forbinde med hinanden. Brug af begivenhedsplatformen Hubilo hjalp os med at organisere en interaktiv og sjov begivenhed.

“Begivenhedsgrænsefladen ser syg ud! Jeg vil ikke lyve, fjernkonferencer føles ikke det samme som den ægte vare, fordi man ikke ‘føler sig der’. Jeg kan godt lide, hvordan Zyte forsøger at ændre det!”, sagde en af ​​de 2000 deltagere.

Vi havde det meget sjovt at forbinde med alle deltagere, især i disse afbrudte tider.

1 dag, 2 numre, 24 højttalere: Key takeaways

Hvert år forsøger vi at sammensætte en godt blandet dagsorden leveret af inspirerende tankeledere til udvinding af webdata og web-skrabeeksperter for at give dig det bedste overblik over de aktuelle webdatatrends. I år havde vi en fantastisk line-up af flotte højttalere dækker mange forskellige områder og aspekter af webdata. Her er et par højdepunkter fra dagen, og du kan se alle optagelserne her.

En demonstration af den hybride web-skrabningstilgang, adaptiv læring og et smugkig i Zytes kvalitetsevaluering af dataekstraktion

Head of Data Science hos Zyte, Konstantin Lopukhin, tog et dybt dyk ned i evalueringsprocessen for dataekstraktionskvalitet, talte om, hvad der er almindelige faldgruber og gav endda indsigt i, hvordan Zyte håndterer dette for at garantere den højeste kvalitet af udvundne webdata.

Mikhail Korobov, Head of Development for Automatic Extraction hos Zyte, guidede os gennem sit eksperiment med, hvordan han udtrækker 20 hjemmesider på 3 timer ved hjælp af en hybrid web-skrabningstilgang, der bruger en kombination af de klassiske og fuldautomatiske metoder.

Fortsætter på den automatiserede web-skrabning bakket op af maskinlæring, grundlægger og CTO på Pandio, Joshua Odmark, gav en live demonstration af, hvordan adaptiv læring med PandioML fungerer.

Taler om forskellige use cases og erfaringer

Vi er altid ivrige efter at få at vide, hvordan virksomheder bruger webdata til at trives. Derfor er det ingen overraskelse, at vi havde en masse interessante præsentationer, der viste brugen og vigtigheden af ​​data.

Abhijit HK, CEO hos Codewave, delte med os sin erfaring med at bygge data-dashboards og nogle hacks til at bygge webskrabende edderkopper. Niall Hurley, CEO hos Eagle Alpha, introducerede os til verden af ​​alternative data til finansiering, forklarede kunderejsen og gav os et par interessante use cases. Linus Nilsson fra NilssonHedge fremviste sin hedgefondsdatabase – inklusive inputrutiner, rengøringsstrategier, og hvordan han sikrer, at den er af høj kvalitet.

Systemudvikler hos Codemill, Kabir Fahria præsenterede et godt casestudie om brugen af ​​webdata til kontekstuel annoncering.

For at give vores publikum også nyttige tips, Eric Platow, Senior Architect at LexisNexis, tog os med på hans rejse med at tæmme world wide web og erfaringerne efter at have skrabet 100K.

Juridiske varme emner inden for webdataudtrækning

En alletiders favorit for os alle er diskussionerne omkring juridiske aspekter. Vi havde et panel fyldt med eksperter: Victoria Vlahoyiannis og Kate O-Brien, Legal Counsels hos Zyte, Tricia Higgins, medstifter og administrerende direktør for Fort privatliv, og Nina Fletcher, en juridisk rådgiver hos YipitData. Sammen dækkede de emner omkring hjemmesidens vilkår og betingelser, når de er juridisk bindende, GDPR i forbindelse med web-skrabning samt diskuterede de seneste Van Buren sag.

Dyb ned i anti-bot og hovedløse browsere, en AMA-session og alt det tekniske

Som den største begivenhed inden for webdataekstraktionsindustrien dækker Extract Summit også meget tekniske emner. Takket være vores eksperter fra forskellige baggrunde var vi i stand til at afholde en AMA-session for at besvare brændende spørgsmål om bedste praksis for web-skrabning, anti-forbudsstyring og reverse engineering.

Evgeny Slaikovsky, en af ​​vores talentfulde omvendte ingeniører, talte om kat og mus-spillet om udviklingen af ​​anti-bots. Paweł Miech, Senior Technical Team Lead i udviklingsafdelingen forklarede os, hvad hovedløse browsere er, og hvornår vi bør og ikke bør bruge dem.

Rain Leander, teknisk evangelist kl Kakerlak Labs gav et overblik over verden af ​​datastruktur og -lagring og udforskede fordele og ulemper ved 3 hovedtyper af databaser, der er tilgængelige i dag.

Ljubica Lazarevic, udvikleradvokat hos Neo4j, viste os, hvordan hun byggede en skraber og brugte en grafdatabase til at anbefale konferencer at indsende foredrag til – en interessant session, ikke kun for vores andre udviklerfortalere!

Scrapy og hands-on kodningssessioner

Vi viste os deres web-skrabefærdigheder i aktion, og vi havde to live kodningssessioner: Attila Tóth, udvikleradvokat på Tidsskala guider os trin-for-trin gennem, hvordan man bygger et ejendomsmarkedsovervågningsværktøj med Skrabet og TimescaleDB. Hans kollega, Jônatas Paganini, viste os live, hvordan han bygger en lille blogskraber.

Live kodningskonkurrence og andre højdepunkter

Udover de fantastiske foredrag, Extract Summit havde at byde på, ønskede vi at give alle udviklere chancen for at vise deres egne web-skrabeevner frem, så vi var vært for en live kodningskonkurrence. Det var en kæmpe fornøjelse for alle involverede!

Når vi taler om højdepunkter, skal vi helt sikkert nævne vores live komedieshow med Damian Clark og Eddie Mullarkey. De gav os nogle gode fnis og gjorde pausen til en anderledes oplevelse.

Hvis du vil være en del af Extract Summit 2022, kan du forhåndstilmelde dig her.

Leave a Reply