Google vẫn dùng nội dung web để huấn luyện AI tìm kiếm, ngay cả khi bị từ chối!

05.05.2025 08:20   |   Tin Công nghệ

Trong bản cập nhật chính sách hôm 3/5, Google nói rằng họ sẽ có quyền sử dụng nội dung công khai trên website để huấn luyện các mô hình trí tuệ nhân tạo AI dùng cho tìm kiểm, kể cả khi trang web đó có dùng đến các công cụ như ”robots.txt” để ngăn chặn và từ chối việc thu thập dữ liệu của AI.

Trước đây, chủ của các trang web có thể dùng file “robots.txt” để chặn trình thu thập dữ liệu của Google - Googlebot không thu thập thông tin, đặc biệt là cho mục đích huấn luyện AI. Nhưng trong chính sách quyền riêng tư mới cập nhật, Google lại nói rằng chỉ những công cụ AI cho mục đích tổng quát mới phải tuân theo (ví dụ như Gemini). Còn như hệ thống AI dành riêng cho tìm kiếm như Search Generative Experience sẽ không bị ràng buộc bởi điều đó. Tức là nếu nội dung trên web của bạn mà hiển thị công khai trong kết quả tìm kiếm thì Google có thể thoải mái dùng nó để huấn luyện AI cho tìm kiếm, kể cả khi chủ website có không đồng ý đi chăng nữa.


IMG-4098.jpeg


Nhắc lại chút, robots.txt là một tệp văn bản nhỏ được đặt tại thư mục gốc của một trang web (ví dụ: example.com/robots.txt) để hướng dẫn các trình thu thập dữ liệu (crawler/bot) – như Googlebot – rằng phần nào của trang web nên hoặc không nên được truy cập hoặc lập chỉ mục. Trình thu thập dữ liệu đọc file này trước khi vào trang web, nhưng nó không bắt buộc các bot phải tuân thủ và chỉ là lời đề nghị lịch sự.


Các chuyên gia lo ngại động thái này làm suy yếu nỗ lực bảo vệ quyền kiểm soát dữ liệu của các nhà xuất bản và chủ website trong việc ngăn chặn dữ liệu của họ bị AI sử dụng, nội dung bị trích xuất mà không xin phép hoặc trả phí. Họ cho rằng Google đang lách luật (nói cho đúng thì lách một vùng giữa luật và đạo đức dữ liệu) bằng cách chia nhỏ mục đích huấn luyện AI, chỉ tôn trọng robots.txt đối với các mô hình AI tổng quát, coi tìm kiếm là ngoại lệ. Nhất là khi động thái này lại diễn ra trong bối cảnh ngành công nghệ đang đối mặt với chỉ trích ngày càng tăng về việc sử dụng dữ liệu công khai trên Internet để huấn luyện các mô hình AI mà không xin phép. Chuyên gia SEO Danny Richman mô tả hành động của Google như kiểu người ta dán bảng cấm quay phim nhưng bạn livestream nó rồi kêu không tính.

Tính đến hiện tại thì OpenAI có vẻ là công ty minh bạch nhất về quyền dữ liệu khi chỉ dùng dữ liệu từ web cho phép và có cả động thái đàm phán bản quyền. Google thì lên tiếng lách luật, Meta thì âm thầm thu thập và không nói rõ về điều gì, Microsoft thì gián tiếp thông qua sử dụng dữ liệu qua hợp tác với OpenAI và các sản phẩm như Bing.

 Bản để in  Lưu dạng file  Gửi tin qua email
Blog
Kinh doanh
Tin Công nghệ
Bài viết thủ thuật
Hỗ trợ
Tuyển dụng
Dự án thiết kế website
Cẩm nang SEO
Thiết kế web
Câu hỏi thường gặp
Hosting là gì?
Host – Web Hosting được gọi chung là Hosting, là dịch vụ lưu trữ dữ và chia sẻ liệu trực tuyến, Khi bạn đăng ký dịch vụ Hosting, tức là bạn thuê một chỗ đặt trên server chứa tất cả các files và dữ liệu cần thiết để website của bạn chạy được.

Hiểu theo một cách đơn giản thì nếu website là một ngôi nhà, tên miền (domain) là địa chỉ ngôi nhà thì Hosting chính là mảnh đất mà ngôi nhà đó được xây dựng lên. Hosting cũng chính là nơi diễn ra tất cả các hoạt động giao dịch, trao đổi thông tin giữa người sử dụng internet với website, hỗ trợ các phần mềm internet hoạt động.
Tại sao cần phải mua Hosting?
Nếu không có Hosting thì website sẽ chỉ hoạt động trên máy tính bạn mà thôi, duy chỉ có mình bạn nhìn thấy, dữ liệu sẽ không được chia sẻ trên mạng. Cho nên rất cần thiết để có một gói Hosting.
Mua Hosting ở đâu uy tín?
Bạn có thể dùng Hosting nước ngoài hoặc Việt Nam. Nếu website bạn chủ yếu có lượt truy cập trong nước thì nên chọn mua Hosting Việt Nam là tốt nhất.
Có nhiều nhà cung cấp Hosting bạn có thể chọn, trong đó công ty VIHAN có hơn 16 năm trong lĩnh vực tên miền, Hosting. Là một trong những nhà cung cấp dịch vụ Hosting uy tín hàng đầu tại Việt Nam.
Hosting gồm những loại nào?
Có nhiều loại Hosting với đa dạng tính năng khác nhau trên thị trường. Dedicated Web Hosting và Cloud Hosting là hai loại mô hình hosting được lựa chọn sử dụng nhiều nhất.
+ Dedicated Web Hosting là hình thức lưu trữ web phổ biến nhất. Với chi phí bỏ ra hợp lý bạn đã có dịch vụ đáp ứng hầu hết các nhu cầu lưu trữ website của mình. Dịch vụ Web Hosting VIHAN cung cấp dùng trên phần cứng thật giúp tối ưu và đạt tốc độ cao nhất thay vì dùng ảo hóa. Dịch vụ Share Hosting phù hợp với một doanh nghiệp sử dụng web để bán hàng và những tổ chức vừa có lượt truy cập không quá lớn.
+ Cloud Hosting là loại hosting chạy trên nền tảng ảo hóa với Cloud Hosting, bạn có máy chủ chuyên dụng nhưng máy chủ là máy ảo chứ không phải là máy vật lý. Điều này mang đến lợi ích cho người quản lý khi tiết kiệm chi phí quản lý,bảo trì, nâng cấp phần cứng nhưng lại giảm một phần tốc độ xử lý so với dùng trực tiếp phần cứng thật. Cloud Hosting cũng phù hợp với một doanh nghiệp sử dụng web để bán hàng và những tổ chức vừa có lượt truy cập không quá lớn.
Các yếu tố đánh giá một Hosting?
Một Hosting tốt được đánh giá dựa trên các yếu tố như
+ Tốc độ: Là khoảng thời gian tính từ khi người dùng internet bắt đầu truy cập vào trang web đến khi nội dung trên web được tải về hoàn toàn. Lý tưởng từ 3 đến 5 giây.
+ Dung lượng: Là dung lượng lưu trữ (Disk space) – khoảng không gian trong ổ cứng máy chủ bạn được sử dụng để lưu trữ dữ liệu.
+ Băng thông: Là lượng dữ liệu trao đổi giữa trang web với người dùng internet trong một tháng.
+ Khả năng chịu tải: Là khả năng chấp nhận số người online trong cùng một thời điểm.
+ Dịch vụ hỗ trợ của đơn vị cung cấp Hosting.
Hosting có giới hạn số lượng khách truy cập đồng thời trên website không?
Hosting VIHAN không giới hạn về số lượng khách truy cập đồng thời đối với website của bạn.
Tuy nhiên, có những giới hạn thực tế liên quan đến CPU, RAM và Entry Process ( Tác vụ xử lý đồng thời ) được quy định tùy vào phân loại Hosting.
Mỗi website là khác nhau, được lập trình và thiết kế khác nhau, sử dụng tài nguyên khác nhau. Vì vậy không có cách nào để đảm bảo số lượng khách truy cập tối đa mà trang web của bạn có thể đáp ứng.
Một website được tối ưu tốt, sử dụng ít tài nguyên trên mỗi lượt khách truy cập sẽ cho phép số lượng lớn khách truy cập đồng thời hơn.
Ngược lại, một website không được tối ưu tốt hoặc kém hiểu quả thì chỉ có thể đáp ứng duy trì được số lượng ít khách truy cập đồng thời.
Tên Doanh Nghiệp: CÔNG TY CỔ PHẦN VIHAN

MST/ĐKKD/QĐTL: 0303885249

Điện Thoại: 0903 018626
Ms Ngân: 0909 145 026 (Đt/Zalo)

Địa chỉ: Saigon Asiana TMDV 1.12, số 336/20 Nguyễn Văn Luông, Phường 12, Quận 6, Tp.HCM

Email: info@vihan.vn, vihanvietnam@gmail.com

©2006 DESIGNED BY VIHAN, ALL RIGHTS RESERVED

Giỏ hàng

đóng
  • Giỏ hàng rỗng

Đã thêm vào giỏ hàng !

Xem giỏ hàng