Ngôn ngữ nào thống trị Internet?

Bùi Huyền
Tiếng Anh là ngôn ngữ chính của hơn 50% số trang web. Tiếng Trung, ngôn ngữ phổ biến thứ hai, chỉ là ngôn ngữ chính của hơn 1%.

Khoảng 63% dân số thế giới hiện có quyền truy cập Internet. Tỷ lệ này tương đương với tổng số khoảng 5 tỷ người, đến từ khắp nơi trên hành tinh và nói hàng nghìn ngôn ngữ khác nhau.

Dù vậy, một số ngôn ngữ ít xuất hiện trên Internet hơn so với những ngôn ngữ khác. Hơn 50% số trang web sử dụng tiếng Anh làm ngôn ngữ chính, theo thống kê của W3Techs, công ty phân tích Internet có trụ sở tại Áo. Trong khi đó, số người bản ngữ nói tiếng Anh chỉ chiếm dưới 5% dân số toàn cầu.

Tiếng Trung và tiếng Hindi là các ngôn ngữ được sử dụng nhiều thứ hai và thứ ba trên Internet, nhưng chỉ chiếm lần lượt 1,4% và 0,07% tổng số trang web, bằng một phần nhỏ so với tiếng Anh.

Vì sự rộng lớn của Internet, các chuyên gia của W3Techs cảnh báo rằng dữ liệu khảo sát chưa hoàn toàn chính xác và có những điểm mù nhất định. Dù vậy, có thể thấy sự thống trị của tiếng Anh cũng như sự bất bình đẳng sử dụng ngôn ngữ. Các ngôn ngữ như tiếng Bengali và tiếng Urdu, được hàng trăm triệu người nói, gần như không thể tìm thấy trên mạng.

1-1688227963.jpg
 

Ethnologue, một tổ chức phi lợi nhuận theo dõi việc sử dụng ngôn ngữ, cũng có dữ liệu khảo sát tương tự. Tiếng Anh, tiếng Đức và tiếng Nhật chiếm tỷ trọng lớn trên Internet, không tương xứng với số lượng người bản ngữ nói các ngôn ngữ này. Ngược lại, nhiều ngôn ngữ không thuộc châu Âu hầu như không tồn tại trên Internet.

Sự chênh lệch này là dấu hiệu đáng ngại, thậm chí có thể dẫn đến "tuyệt chủng" một số ngôn ngữ, theo các chuyên gia. Con người có thể đang tiến tới một thế giới chỉ có một số ít ngôn ngữ hiện diện trực tuyến, theo Bhanu Neupane, chuyên gia về bất bình đẳng ngôn ngữ tại UNESCO, nói với Rest of World.

“Sau 15 năm, có thể chỉ còn 5 hoặc 10 ngôn ngữ được nói và sử dụng phổ biến trực tuyến", Neupane cảnh báo.

Các khảo sát của UNESCO cũng nhất quán với các kết quả thống kê của W3Techs. Ngoài tiếng Anh, chỉ có 13 ngôn ngữ khác chiếm được hơn 1% tổng số tên miền. Hàng trăm ngôn ngữ còn lại hiện diện không đáng kể.

Hàng triệu người nói tiếng Anh theo kiểu ngôn ngữ thứ hai, và những người không nói tiếng Anh, có thể gặp khó khăn khi sử dụng Internet.

Ngoài ra, vì văn bản trên Internet thường được sử dụng để đào tạo các mô hình ngôn ngữ lớn như Bard và GPT-4, sự bất bình đẳng hiện nay có thể kéo theo bất bình đẳng trong khả năng tiếp cận và sử dụng công nghệ. Đã có các nghiên cứu cho thấy các mô hình AI hoạt động chính xác hơn đáng kể khi giao tiếp bằng tiếng Anh.