Reddit vs. neoprávněný sběr dat: Jak se platforma brání AI startupům

27. 6. 2024 | Zazu | Novinky

Zdroj: Shutterstock

Reddit, jedna z největších sociálních platforem, se potýká s výzvou, jak zabránit neoprávněnému sběru dat svého obsahu. Po nedávných dohodách s Google a OpenAI se Reddit rozhodl aktualizovat svůj soubor robots.txt, aby omezil přístup botů a webových robotů.

Přidejte si CDR do oblíbených na Google News

Omezení a výjimky

Reddit ujišťuje, že “dobrosrdeční aktéři” jako Internet Archive budou mít i nadále přístup k jejich platformě. Většina uživatelů Redditu pravděpodobně nepostřehne změny. Reddit také pokračuje v omezení rychlosti přístupu, což může pomoci zabránit neoprávněnému sběru dat třetími stranami.

Slabiny robots.txt

I když Reddit aktualizuje svůj soubor robots.txt, existují stále možnosti, jak obejít tato pravidla. Google upozorňuje, že “instrukce v souborech robots.txt nemohou vynutit chování robotů na vašem webu; je na robotovi, aby je dodržoval.” To znamená, že AI startupy stále mohou sbírat data z Redditu a trénovat své modely, i když jsou explicitně zakázány politikami Redditu.

Zdroj: Shutterstock

Reddit a jeho datové dohody

Reddit uzavřel několik datových dohod, včetně 60milionové smlouvy s Google, která umožňuje Google používat Reddit API a na oplátku umožňuje Redditu využívat Google VertexAI. Odpovědi z Redditu se také začaly objevovat v přehledech Google Search AI. Spolupráce mezi Redditem a ChatGPT by mohla přinést další citace z Redditu. Je však nejasné, zda obsah z Redditu pomůže trénovat další modely OpenAI.

FTC a vyšetřování

Reddit se musí brzy stát konkrétnějším, protože Federální obchodní komise (FTC) v březnu zahájila vyšetřování ohledně licencování uživatelských dat.

Celá tato situace následuje po omezení přístupu k Reddit API v minulém roce, které mělo zabránit AI firmám ve sběru dat zdarma. To vyvolalo revoltu mezi vývojáři, krátkodobé vypnutí některých populárních klientů Redditu a konec některých oblíbených aplikací.

Reddit se snaží chránit svou komunitu a udržet kontrolu nad svým obsahem, ale vědomě se potýká s výzvami, které přináší neustále rostoucí poptávka po datových sadách pro trénování AI modelů. Je třeba sledovat, jak se tato situace bude dále vyvíjet, a zda Reddit dokáže efektivně omezit neoprávněný sběr dat.

Diskuze

Tagy: