Cuộc chiến giữa các nhà phát triển mã nguồn mở và trình thu thập dữ liệu A

Các nhà phát triển đang phản kháng trình thu thập dữ liệu AI bằng trí tuệ và sự trả đũa

Bất kỳ trang web nào cũng có thể trở thành mục tiêu của các bot thu thập dữ liệu xấu – đôi khi đến mức làm sập trang web. Tuy nhiên, theo lập trình viên Niccolò Venerandi, người phát triển Plasma (một giao diện desktop của Linux) và chủ blog LibreNews, các nhà phát triển mã nguồn mở (FOSS) chịu ảnh hưởng nặng nề hơn cả.

Lý do là các dự án FOSS thường công khai nhiều phần trong cơ sở hạ tầng của mình và có ít tài nguyên hơn so với các sản phẩm thương mại. Vấn đề lớn nhất là nhiều bot AI không tuân thủ tệp robot.txt – công cụ hướng dẫn bot những nội dung không được thu thập, vốn được thiết kế để kiểm soát các bot công cụ tìm kiếm.

Khi các bot AI phớt lờ quy tắc

Trong một bài đăng “kêu cứu” vào tháng 1, nhà phát triển FOSS Xe Iaso đã mô tả cách AmazonBot liên tục tấn công một máy chủ Git, đến mức gây ra tình trạng DDoS. Git server là nơi lưu trữ các dự án FOSS, giúp bất kỳ ai cũng có thể tải xuống mã nguồn hoặc đóng góp vào dự án.

Tuy nhiên, bot này phớt lờ tệp robot.txt, thay đổi địa chỉ IP liên tục và giả dạng thành người dùng khác.

“Chặn bot thu thập dữ liệu AI là vô ích vì chúng nói dối, thay đổi tác nhân người dùng (User-Agent), sử dụng IP từ các hộ gia đình làm proxy, và nhiều thủ đoạn khác,” Iaso viết.

“Chúng sẽ quét dữ liệu trên trang web của bạn đến khi nó sập, rồi lại tiếp tục quét thêm nữa. Chúng sẽ nhấp vào mọi liên kết trên mọi trang, lặp đi lặp lại. Một số còn nhấp vào cùng một liên kết nhiều lần trong cùng một giây,” Iaso than phiền.

Giải pháp Anubis: "Cân linh hồn" của bot

Không chấp nhận chịu thua, Iaso đã phát triển một công cụ phản công mang tên Anubis.

Anubis hoạt động như một proxy ngược, yêu cầu máy khách thực hiện một bài kiểm tra trước khi được phép gửi yêu cầu đến máy chủ Git. Công cụ này chặn bot nhưng vẫn cho phép người dùng thực thụ truy cập.

Điểm thú vị là cái tên "Anubis" được lấy từ vị thần Ai Cập cổ đại chuyên dẫn dắt linh hồn đến phán xét. Nếu một yêu cầu web vượt qua bài kiểm tra và được xác định là con người, hệ thống sẽ hiển thị một hình vẽ anime dễ thương. Ngược lại, nếu đó là bot, yêu cầu sẽ bị từ chối ngay lập tức.

Dự án Anubis nhanh chóng lan rộng trong cộng đồng FOSS. Chỉ trong vài ngày sau khi được chia sẻ trên GitHub vào ngày 19/3, Anubis đã thu hút 2.000 lượt gắn sao, 20 cộng tác viên và 39 bản fork.

Khi sự trả đũa trở thành cách phòng thủ

Thành công nhanh chóng của Anubis cho thấy vấn đề này không chỉ riêng của Iaso. Theo Venerandi, nhiều lập trình viên khác cũng đang gặp tình trạng tương tự:

Venerandi nhận xét: “Hãy suy nghĩ về điều đó – các lập trình viên giờ đây phải cấm toàn bộ một quốc gia chỉ để chống lại các bot AI không tuân thủ robot.txt.”

Những chiến thuật trả đũa đầy hài hước

Bên cạnh Anubis, một số lập trình viên đã đề xuất những chiến lược thú vị hơn để khiến bot AI phải “trả giá”:

DeVault, CEO của SourceHut, nhận xét: “Nepenthes mang lại cảm giác công bằng vì nó làm ô nhiễm dữ liệu của các bot AI. Nhưng cuối cùng, Anubis vẫn là giải pháp hiệu quả nhất.”

Tuy nhiên, anh cũng đưa ra một lời kêu gọi đầy cảm xúc: “Làm ơn, hãy ngừng hợp thức hóa các mô hình AI, đừng dùng GitHub Copilot, đừng phát triển thêm AI mới, đừng cổ vũ chúng nữa. Tôi cầu xin các bạn, hãy dừng lại.”

Dù vậy, khi khả năng điều đó xảy ra gần như bằng không, các lập trình viên – đặc biệt trong cộng đồng FOSS – vẫn đang tiếp tục chiến đấu bằng trí thông minh và sự hài hước.

Julie Bort là biên tập viên của TechCrunch. Bài viết được đăng trên TechCrunch ngày 27/03/2025.

TechCrunch là một trang web tin tức công nghệ nổi tiếng, chuyên đưa tin về các công ty khởi nghiệp, công nghệ mới và xu hướng trong ngành công nghiệp phần mềm, phần cứng, AI, fintech và nhiều lĩnh vực liên quan khác.

Biên dịch: Hà Linh