Ảnh của bạn được chụp ở đâu, AI có thể tìm ra ngay lập tức!
Xác định vị trí của một bức ảnh là điều mà ngay cả con người cũng thấy khó khăn. Nhưng các nhà khoa học đang phát triển hệ thống AI có thể tìm ra điều đó.
Trevor Rainbolt, 25 tuổi, là một chuyên gia nổi tiếng trong việc xác định địa điểm chụp ảnh, anh thường xuyên nhận được yêu cầu của cư dân mạng giúp tìm ra địa điểm chụp những bức ảnh cũ. Với khả năng phán đoán xuất sắc của mình, anh ấy đã giúp được rất nhiều người.
Rainbolt là một người chơi GeoGuessr chuyên nghiệp, một trò chơi đoán ảnh và sự nổi tiếng của anh đã khiến nhiều người biết đến trò chơi này. Kết quả xuất sắc này là do anh đã có quá trình rèn luyện lâu dài, anh ấy đã chơi trò chơi này hơn 10.000 giờ và có thể chơi bốn đến tám giờ một ngày.
Trên thực tế, vào năm 2022, một nhóm sinh viên 3 người đã tốt nghiệp tại Đại học Stanford đang theo học khóa học về trí tuệ nhân tạo "Deep Multitask and Meta Learning". Ba nhà phát triển này đều thích chơi GeoGuessr, vì vậy họ quyết định bắt đầu từ sở thích chung của mình và thử xem có có thể tạo ra một game thủ là trí tuệ nhân tạo tốt hơn con người hay không.
Tên dự án của họ là "Predicting Image Geolocations", viết tắt là PIGEON. Họ đã sử dụng mạng nơ-ron CLIP do OpenAI (cũng là nhà phát triển ChatGPT) sản xuất để hiểu và phân tích hình ảnh bằng cách đọc văn bản.
Sau đó, họ sử dụng hình ảnh của Google Street View để đào tạo hệ thống. Tập dữ liệu đào tạo chứa khoảng 500.000 hình ảnh của Google Street View. AI sẽ chia hình ảnh thành những ô vuông rất nhỏ để phân tích và rất giỏi trong việc chọn ra những ô vuông đặc biệt đó. Đối với AI, hình ảnh không chỉ là hình ảnh mà còn có thông tin văn bản tương ứng. Bằng cách tích hợp thông tin trực quan như tòa nhà, bố cục đường phố, thảm thực vật và địa danh vào hình ảnh cũng như các thông tin phụ trợ khác như điều kiện thời tiết, mùa và khí hậu, AI cũng có thể nhanh chóng dự đoán nơi ảnh sẽ được chụp, giống như người chơi là con người.
Ở thời điểm hiện tại, các nhà phát triển đã tạo ra mô hình AI thứ hai có tên PIGEOTTO có thể dự đoán vị trí một bức ảnh được chụp chỉ bằng cách nhìn vào nó. PIGEOTTO được đào tạo về bộ dữ liệu gồm hơn 4 triệu bức ảnh từ Flickr và Wikipedia. Điều này cho phép nó học hỏi từ nhiều bối cảnh khác nhau trên toàn thế giới.
Đáng chú ý, PIGEOTTO là hệ thống đầu tiên có thể khái quát hóa tốt, nghĩa là nó có thể định vị những bức ảnh mới mà nó chưa được đào tạo trực tiếp.
Cả hai mô hình AI PIGEON và PIGEOTTO đều sử dụng một cách tiếp cận thông minh được gọi là học tập đa tác vụ. Điều này cho phép chúng học hỏi từ dữ liệu địa lý và chú thích ngoài ảnh.
Mức độ chính xác này có thể mở ra những khả năng mới cho gắn thẻ địa lý hình ảnh, ứng dụng du lịch, phương tiện truyền thông xã hội, hệ thống định vị, v.v.
Nhưng với bất kỳ công nghệ mới nào cũng có khả năng bị lạm dụng. Các nhà nghiên cứu cảnh báo rằng các biện pháp bảo vệ cần được áp dụng để ngăn chặn việc sử dụng AI cho mục đích phi đạo đức. Tuy nhiên, nhìn chung, các hệ thống tiên tiến này chứng tỏ tiềm năng của AI trong việc xác định chính xác hình ảnh trên toàn cầu.