Thay đổi cách các trình thu thập dữ liệu AI thu thập dữ liệu trên khắp Internet

Cloudflare, Inc. (NYSE: NET), công ty cung cấp dịch vụ connectivity cloud (đám mây kết nối) hàng đầu, vừa công bố là nhà cung cấp cơ sở hạ tầng Internet đầu tiên chặn các trình thu thập dữ liệu AI truy cập mặc định nội dung khi chưa được phép hoặc chưa trả phí.
Chú thích ảnh

Giờ đây, chủ sở hữu trang web có thể chọn cho phép trình thu thập dữ liệu AI truy cập nội dung của mình hay không và quyết định cách các công ty AI có thể sử dụng nội dung đó. Các công ty AI hiện cũng có thể tuyên bố rõ mục đích của mình - là trình thu thập dữ liệu của họ được sử dụng để đào tạo, suy luận hay tìm kiếm - từ đó giúp chủ sở hữu trang web quyết định sẽ cho phép trình thu thập dữ liệu nào. Cài đặt mặc định mới của Cloudflare là bước đầu tiên hướng tới một tương lai bền vững hơn cho cả những nhà sáng tạo nội dung lẫn người đổi mới AI.

Matthew Prince, đồng sáng lập kiêm Giám đốc điều hành của Cloudflare cho biết: "Nếu Internet muốn tồn tại qua thời đại AI, chúng ta cần trao cho các nhà xuất bản quyền kiểm soát mà họ xứng đáng có được và xây dựng một mô hình kinh tế mới phù hợp cho tất cả mọi người - nhà sáng tạo, người tiêu dùng, những nhà sáng lập AI trong tương lai và chính tương lai của web". “Nội dung gốc là thứ khiến Internet trở thành một trong những phát minh vĩ đại nhất của thế kỷ trước và điều cực kỳ quan trọng là những nhà sáng tạo tiếp tục làm điều đó. Các trình thu thập dữ liệu AI đã thu thập nội dung không giới hạn. Mục tiêu của chúng tôi là trao trở lại quyền lực cho những nhà sáng tạo, đồng thời vẫn giúp các công ty AI đổi mới. Đây là vấn đề bảo vệ tương lai của một mạng Internet tự do và sôi động, với mô hình mới phù hợp cho tất cả mọi người.”

Cloudflare sở hữu một trong những mạng lưới lớn nhất thế giới, giúp quản lý và bảo vệ lưu lượng truy cập cho 20% web. Công ty xử lý hàng nghìn tỷ yêu cầu mỗi ngày và do đó sở hữu các giải pháp quản lý bot tiên tiến nhất thế giới, phân biệt chính xác người dùng thực và các trình thu thập dữ liệu AI.

Chú thích ảnh

Vào tháng 9.2024, Cloudflare đã giới thiệu tùy chọn chặn trình thu thập dữ liệu AI chỉ với một cú nhấp chuột. Hơn một triệu khách hàng đã chọn tùy chọn này, được coi là giải pháp mạnh mẽ nhưng dễ dàng, giúp dừng việc thu thập dữ liệu trong thời gian tìm ra chiến lược AI cho mình.

Hiện tại, Cloudflare đang thực hiện bước tiếp theo để thực thi mô hình dựa trên sự cho phép đối với các trình thu thập dữ liệu AI. Các công ty AI hiện sẽ phải có được sự cho phép rõ ràng từ một trang web trước khi tiến hành thu thập dữ liệu. Khi đăng ký với Cloudflare, mọi tên miền mới giờ đây sẽ được hỏi xem họ có muốn cho phép trình thu thập dữ liệu AI hay không, giúp khách hàng có quyền lựa chọn ngay từ đầu là cho phép hay không cho phép trình thu thập dữ liệu AI truy cập. Sự thay đổi lớn này có nghĩa là mọi tên miền mới sẽ mặc định được kiểm soát và chủ trang web không còn cần phải tự mình cấu hình từ chối nữa. Khách hàng có thể dễ dàng kiểm tra cài đặt của mình và cho phép thu thập dữ liệu bất kỳ lúc nào nếu họ muốn nội dung của mình được truy cập tự do.

Các công ty hàng đầu trong lĩnh vực nội dung, truyền thông và công nghệ đang ủng hộ việc tạo ra một tương lai bền vững hơn, coi trọng nội dung gốc, bao gồm: ADWEEK, The Arena Group, The Associated Press, The Atlantic, Atlas Obscura, BuzzFeed, Inc., Condé Nast, Digital Content Next, DOC, Dotdash Meredith, Drupal & Acquia, EngineEars, Evolve Media, Fortune, Gannett Media, Groundviews.org, Half Baked Newsletter, Hyperscience, IAB Tech Lab, Independent Media, Trung tâm Nhà báo Quốc tế, Internet Brands, Linkup, Liên minh Tin tức/Truyền thông, O'Reilly Media, PMC, Pinterest, ProRata AI, Quora, Raptive, Reddit, SimpleFeed, Sky News Group, Snopes.com, SourceForge, Sovrn, Inc., Stack Overflow, StockTwits, SustainableMedia.Center, Third Door Media, TIME, Universal Music Group, Webflow và Ziff Davis.

Giờ đây, Cloudflare đang làm cho hệ sinh thái nội dung trở nên minh bạch hơn cho các công ty và nhà sáng tạo AI. Gần đây, công ty đã đề xuất những cách thức mới để các bot AI tự xác thực cũng như để các trang web nhận dạng các bot này – mang lại cho nhà sáng tạo và chủ sở hữu trang web các cơ chế nhận dạng mới và quyền kiểm soát đối với các trình thu thập dữ liệu mà họ muốn cho phép. Cloudflare đang tham gia phát triển một giao thức mới để cung cấp cho chủ sở hữu bot và các nhà phát triển tác nhân AI một cách tự nhận diện công khai, tiêu chuẩn.