Semaltekspert forteller hvordan skraping av webdata ble legalisert med en domstolsavgjørelse

Selv om det kan være ulovlig å skrape data fra nettsteder uten eksplisitt tillatelse fra eierne av nettstedet, har en dommer nylig avgjort noe annet under visse omstendigheter. hiQ Labs har nylig anlagt søksmål mot LinkedIn for å hindre dem i å trekke ut data fra LinkedIn-sider.

Det kom som et frekt sjokk for folk flest at LinkedIn fikk beskjed om å gi oppstarten gratis tilgang til websidene sine. hiQ brukte algoritmene sine for å oppdage når en LinkedIn-bruker leter etter en jobb basert på endringene brukeren gjør i sin offentlige profil.

Algoritmene kjøres på data hentet fra LinkedIn-websidene. Som forventet likte ikke LinkedIn det, og motforanstaltninger ble satt på plass for å forhindre hiQ fra ytterligere datautvinning. Bortsett fra de tekniske hindringene som ble satt på plass, ble det også gitt sterke formulerte juridiske advarsler.

Oppstarten hadde ikke noe annet valg enn å ta saken lovlig opp. hiQ måtte søke juridisk oppreisning. Selskapet ønsket at LinkedIn fikk ordre om å fjerne sine tekniske barrierer. hiQ ønsket også sin prosess for datautvinning på LinkedIn legalisert.

Heldigvis for oppstarten fikk den det den ønsket. Kjennelsen gikk inn for hiQ. LinkedIn ble beordret til å fjerne alle tiltakene som hindrer hiQ i å skrape sine (LinkedIn) websider og også gi hiQ fri hånd ettersom handlingen er helt lovlig. Dommeren hengte sin kjennelse om at det hiQ ønsker å skrape, er data som er blitt vist for offentlig visning.

Dommeren påla ikke bare tiltalte å fjerne all den forebyggende mekanismen som ble satt i verk mot hiQ, men han beordret også at tiltalte skulle avstå fra slike handlinger i fremtiden.

Fremme av åpne nettdata

Mens kjennelsen fremdeles er et midlertidig forføyning, er det hjertevarm å høre at loven støtter åpen webdata og fri tilgang til informasjon på Internett ettersom denne kjennelsen bekrefter det. Selv om den endelige avgjørelsen kommer til å favorisere tiltalte, er dette faktum allerede fastslått.

Dommeren fremmet denne politikken ved å slå av praktisk talt alle LinkedIns argumenter. Mens LinkedIn prøvde å slå fast at saksøkeren krenket privatlivet, motarbeidet dommeren det med at tiltalte også selger dataene.

Når argumentet ikke holdt vann, uttalte tiltalte også at hiQs handling var i grovt brudd på Computer Fraud and Abuse Act (CFAA) fordi oppstarten fikk tilgang til deres servere for å høste data ulovlig. Igjen ble argumentet punktert. Det ble avvist med den grunn at hiQ bare skrapte innhold på de offentlige, ikke-beskyttede sidene.

Dommeren analogiserte saken som noen som gikk inn i en åpen butikk i arbeidstiden. En slik person kan ikke sies å være overtredelse. Så hiQ var ikke overtredelse. Interessant nok gikk dommeren videre for å forklare hvorfor hans kjennelse er i allmenhetens interesse.

I et nøtteskall godtok retten at det er i allmenhetens interesse å la data crawles, pakkes ut og analyseres. Så det vil være en skadelig politikk å oppmuntre til plassering av barrierer for fri flyt av informasjon.

Hva du bør lære av kjennelsen

Selv om du kanskje ikke har grunner til å trekke ut data direkte fra LinkedIn, bør du lære av kjennelsen. Det er bedre å spille trygt ved å lese og respektere robots.txt-filen på alle nettsteder. Husk at kjennelsen fortsatt er et midlertidig forføyning. Det kan til slutt gå til fordel for LinkedIn.

Selv om kjennelsen kanskje ikke berører deg direkte, er det gledelig at en føderal domstol opprettholder policyen om å holde nettet åpent for publikum. Så informasjon skal være tilgjengelig og tilgjengelig for de som kan søke og gjøre god bruk av den.

Nettdata er ekstremt nyttig for alle, spesielt mediaanalytikere, utviklere, dataforskere og noen andre fagpersoner. Som sådan er kjennelsen en kjærkommen utvikling.

mass gmail