웹 데이터

월드 와이드 웹에는 그 어느 때보다 많은 정보, 약 8억 페이지가 있지만 컴퓨터 과학자 팀의 새로운 연구에 따르면 인터넷 검색 엔진은 사람들을 그 페이지의 절반 미만으로 안내할 수 있습니다. 검색 엔진은 웹을 색인화하려는 노력에서 점점 뒤쳐지고 있습니다. 한 연구소는 컴퓨터 및 통신 회사가 소유하고 있습니다.

상위 6개 검색 엔진은 웹의 60%를 차지할 수 있으며 이는 연구원들이 1997년 말에 유사한 연구를 수행한 후 발견되었으며 여기에서 최고의 검색 엔진이 모든 사이트의 3분의 1에 도달할 수 있었습니다 웹하드순위 . 지난 2월 저명한 저널의 한 보고서에 따르면 웹의 약 16% 이상을 다룰 수 있는 프로그램은 말할 것도 없고 상위 11개 검색 엔진의 테스트에서 전체 사이트의 42%만이 발견되었습니다.

웹에서 정보에 대한 액세스 평등화의 거대한 약속이 나왔지만, 이것과 모순되는 것은 대부분의 검색 엔진이 하는 작업이 더 많은 링크가 있는 인기 있는 사이트를 인덱싱하기 때문에 사람들이 새로운 정보에 액세스하는 것을 막는 장벽입니다.

그들이 처음에 추정한 것은 인터넷 정보와 콘텐츠의 페이지가 거의 3억 2천만 페이지에 달했으며, 따라서 불과 14개월 후에 발견한 실제 페이지 수가 초기 추정치의 두 배 이상이라는 사실에 대해 더 많은 근거를 조사해야 한다는 것이었습니다. 웹에는 6조 바이트의 정보가 있지만 의회 도서관에는 20조 바이트가 있습니다. 연구원들이 2,500개의 웹 사이트를 무작위로 검색한 결과 공개적으로 사용할 수 있는 서버는 약 300만 개였으며 서버당 289개의 페이지가 있다는 것도 알아냈습니다.

그물에 관해서는 몇 개의 사이트에 수백만 페이지가 있을 수 있기 때문에 정보의 양이 더 많을 수 있습니다. 서버에서 수행된 일련의 테스트에서 2%는 음란물, 2%는 개인 웹 페이지, 약 83%는 상업 콘텐츠 회사 웹 페이지 및 카탈로그, 6%는 과학 및 교육 정보, 3%에는 건강 정보가 포함되어 있습니다. 웹의 많은 부분을 찾기 어렵게 만드는 원인은 볼륨이 아니라 검색 엔진에서 사용하는 기술입니다.

페이지를 찾을 때 검색 공급자가 사용하는 것은 사용자 등록과 다음 링크이며 두 가지 주요 방법입니다. 연구원들은 검색 엔진이 더 많은 링크가 있는 페이지를 찾고 색인화하도록 유도하는 새 페이지를 찾기 위해 링크를 따라가기 때문에 웹의 편향된 샘플을 만드는 데 책임이 있다고 작성했습니다. 이러한 상황이 인덱싱을 수행할 수 없음을 의미하는 것이 아니라 여기에서 문제는 리소스가 매우 가치 있는 것으로 간주되는 무료 이메일과 같은 사용자를 위한 다른 이점에 할당되었다는 것입니다.

검색 엔진 전문가에 따르면 대부분의 사람들이 보고 있지 않은 정보를 알아차리지 못하는 이유가 바로 이 때문입니다. 이러한 목록의 불균형은 앞으로 몇 년 동안 계속될 것으로 예상되며, 이는 컴퓨터 자원의 증가 속도가 새로운 사이트에 게시할 정보 콘텐츠를 인간이 생산하는 것보다 빠를 것이라는 사실에 기인할 수 있습니다.

You may also like...

Leave a Reply

Your email address will not be published. Required fields are marked *

WC Captcha − 3 = 3