Przejdź do zawartości

Wyszukiwarka internetowa: Różnice pomiędzy wersjami

Z Wikipedii, wolnej encyklopedii
[wersja nieprzejrzana][wersja przejrzana]
Usunięta treść Dodana treść
Nie podano opisu zmian
Znaczniki: VisualEditor Z urządzenia mobilnego Z wersji mobilnej (przeglądarkowej)
Historia wyszukiwarek na świecie: Na podstawie stron z wikipedii nt. wyszukiwarek stwierdzam - źle!
Znaczniki: Z urządzenia mobilnego Z wersji mobilnej (przeglądarkowej) Zaawansowana edycja mobilna
 
(Nie pokazano 46 wersji utworzonych przez 33 użytkowników)
Linia 1: Linia 1:
[[Kibris Turk Devleti]]{{Nie mylić z|[[przeglądarka internetowa]]}}
{{Nie mylić z|[[przeglądarka internetowa]]}}
{{Dopracować|źródła=2012-08}}
{{Dopracować|więcej przypisów=2012-08}}
'''Wyszukiwarka internetowa''' ([[Język angielski|ang.]] ''search engine'') – [[Program komputerowy|program]] lub [[strona internetowa]] realizująca odnajdywanie w [[Internet|Internecie]] [[informacja|informacji]] według podanych przez użytkownika [[Słowo kluczowe (informatologia)|słów kluczowych]] lub wyrażeń sformułowanych w [[Język naturalny|języku naturalnym]]<ref>{{Cytuj książkę | nazwisko = Babik | imię = Wiesław | odn = tak | tytuł = Słownik encyklopedyczny informacji, języków i systemów informacyjno-wyszukiwawczych | wydawca = Stowarzyszenie Bibliotekarzy Polskich | miejsce = Warszawa | data = 2002 | seria = Nauka, Dydaktyka, Praktyka | isbn = 83-87629-84-7|strony = 305}}</ref>.
'''Wyszukiwarka internetowa''' – [[program komputerowy]] lub [[strona internetowa]] odnajdująca w [[internet|internecie]] [[informacja|informacje]] według podanych przez użytkownika [[Słowo kluczowe (informatologia)|słów kluczowych]] lub wyrażeń sformułowanych w [[Język naturalny|języku naturalnym]]<ref>{{Cytuj książkę |nazwisko = Babik |imię = Wiesław |tytuł = Słownik encyklopedyczny informacji, języków i systemów informacyjno-wyszukiwawczych |wydawca = Stowarzyszenie Bibliotekarzy Polskich |miejsce = Warszawa |data = 2002 |seria = Nauka, Dydaktyka, Praktyka |isbn = 83-87629-84-7|strony = 305 |odn = tak}}</ref>.


Umożliwia użytkownikom wyszukiwanie – co do zasady – wszystkich stron internetowych lub stron internetowych w danym języku za pomocą zapytania na jakikolwiek temat przez podanie słowa kluczowego, wyrażenia lub innej wartości wejściowej. W wyniku przedstawia odnośniki, pod którymi można znaleźć informacje związane z zadanym zapytaniem<ref>''Dyrektywa Parlamentu Europejskiego i Rady (UE) 2016/1148 z dnia 6 lipca 2016 r. w sprawie środków na rzecz wysokiego wspólnego poziomu bezpieczeństwa sieci i systemów informatycznych na terytorium Unii'' {{CELEX|32016L1148}}</ref>.
Określenie ''wyszukiwarka'' stosujemy do:
* Stron internetowych serwisów wyszukujących – czyli implementacji oprogramowania wyszukującego działającego z interfejsem WWW ogólnodostępnym dla internautów
* Oprogramowania przeznaczonego do [[indeksowanie stron|indeksowania]] i [[wyszukiwanie|wyszukiwania]] informacji w [[Internet|Internecie]].


Określenie „wyszukiwarka” stosowane jest w odniesieniu do:
Gromadzą w sposób automatyczny informacje o dokumentach tekstowych oraz plikach zgromadzonych w sieci (obszarze wyznaczonym dla wyszukiwarki do indeksowania).
* stron internetowych serwisów wyszukujących – czyli [[Implementacja (informatyka)|implementacji]] oprogramowania wyszukującego działającego z interfejsem WWW ogólnodostępnym dla internautów
* oprogramowania przeznaczonego do [[indeksowanie stron|indeksowania]] i [[wyszukiwanie|wyszukiwania]] informacji w [[Internet|Internecie]].


Wyszukiwarki gromadzą w sposób automatyczny informacje o dokumentach tekstowych oraz plikach zgromadzonych w sieci (z obszaru wyznaczonego do indeksowania).
== Historia wyszukiwarek ==
{{dopracować|należy zintegrować obie sekcje}}


== Historia wyszukiwarek ==
=== Historia wyszukiwarek na świecie ===
=== Historia wyszukiwarek na świecie ===
* 1990 [[Archie (internet)|Archie]]<ref name=":4">{{Cytuj |tytuł = Wyszukiwarki |data dostępu = 2023-01-30 |opublikowany = [[Młody Technik]] |url = https://mlodytechnik.pl/eksperymenty-i-zadania-szkolne/wynalazczosc/30836-wyszukiwarki |język = pl}}</ref>
* 1990 [[Archie (internet)|Archie]]
* 1991
* 1991
** [[Veronica (internet)|Veronica]]
** [[Veronica (internet)|Veronica]]<ref name=":4" />

** [[JugHead]]
* 1992 [[WWW Wanderer]]
* 1992
* 1993
** [[WWW Wanderer]]<ref name=":0">{{Cytuj |tytuł = Historia wyszukiwarek – cz.1 – „Dawniej” |data = 2010-09-17 |data dostępu = 2023-01-30 |opublikowany = Fine Performance |url = http://www.fineperformance.pl/historia-wyszukiwarek-cz-1-dawniej/ |język = pl-PL}}</ref>
** [[Jughead|JugHead]]<ref name=":4" />
* 1994
* 1994
** [[Yahoo!]]
** [[Yahoo!]]<ref name=":4" />
** [[WebCrawler]]
** WebCrawler<ref name=":4" />
** [[Lycos]]
** [[Lycos]]<ref name=":4" />
** [[Netscape Navigator]]
* 1995
* 1995
** [[AltaVista]]<ref name=":4" /><ref name=":5">{{Cytuj |tytuł = AltaVista odchodzi na zasłużoną emeryturę |data = 2013-07-01 |data dostępu = 2023-01-30 |opublikowany = dobreprogramy |url = https://www.dobreprogramy.pl/altavista-odchodzi-na-zasluzona-emeryture,6628020659123841a |język = pl}}</ref>
** [[AltaVista]]
** [[MetaCrawler]]
** [[MetaCrawler]]<ref name=":0" />
** [[Excite]]
** [[Excite]]<ref name=":0" />
* 1996
* 1996
** [[wyszukiwarka Google|Google]] na Uniwersytecie Stanforda (pod adresem: http://google.stanford.edu)
** [[wyszukiwarka Google|Google]] na [[Uniwersytet Stanforda|Uniwersytecie Stanforda]] (pod adresem: [https://uit.stanford.edu/service/gsuite google.stanford.edu])<ref name=":4" />
** [[HotBot]]
** [[HotBot]]
* 1997
* 1997
** [[Yandex]]<ref name=":1">{{Cytuj |tytuł = Czy czekają nas przeglądarkowe wojny? Małe serwisy rosną pomimo dominacji Google |data = 2015-05-08 |data dostępu = 2023-01-30 |opublikowany = serwisy.gazetaprawna.pl |url = https://serwisy.gazetaprawna.pl/nowe-technologie/artykuly/869870,czy-czekaja-nas-przegladarkowe-wojny-male-serwisy-rosna-pomimo-dominacji-google.html |język = pl}}</ref>
** [[Yandex]]
** [[Northern Light]]
** [[Northern Light]]
* 1998 [[wyszukiwarka Google|Google]] (Google.com)
* 1998 [[wyszukiwarka Google|Google]] (Google.com)<ref name=":0" />
* 2000
* 2000 [[Baidu]]
** [[Baidu]]
* 2004 [[hakia]]
* 2004 [[hakia]]
* 2006
* 2005 [[MSN Search]]
** [[Bing|Windows Live Search]]<ref name=":4" />
* 2006 [[Google custom search engine]]
** [[Google Programmable Search Engine|Google custom search engine]]
* 2007 [[Windows Live Search]]
** [[Bing|MSN Search]]<ref name=":4" />
* 2008
* 2008
** [[Cuil]]
** [[Cuil]]
** [[Duck Duck Go]]
** [[DuckDuckGo|Duck Duck Go]]<ref name=":4" />
** [[Wikia Search]]
** {{link-interwiki |Wikia Search |Q=Q1075624}}
* 2009
* 2009
** [[Bing]]
** [[Bing]]<ref name=":1" />
** [[Wolfram Alpha]]
** [[Wolfram Alpha]]
* 2013
** [[Qwant]]
** Altavista kończy działalność<ref name=":5" />
* 2020 [[Petal Search]]
* 2021 [[Brave Search]]


=== Historia wyszukiwarek w Polsce ===
==== Historia wyszukiwarek w Polsce ====
* 1991 [[Emulti]]<ref>{{Cytuj |tytuł = 2.6 Wyszukiwarki |data dostępu = 2023-01-30 |opublikowany = www.fuw.edu.pl |url = https://www.fuw.edu.pl/~durka/ksiazki/KIC/node28.html}}</ref>
* 1991 [[Emulti]]
* 1994 [[Archie (internet)|Polski Archie]]<ref name=":6">{{Cytuj |tytuł = 10 lat polskiego Internetu |data dostępu = 2023-01-30 |opublikowany = www.pcworld.pl |url = https://www.pcworld.pl/news/10-lat-polskiego-Internetu,279200.html |język = pl}}</ref><ref name=":7">{{Cytuj |tytuł = Wydarzenia w polskim internecie - kalendarium |data dostępu = 2023-01-30 |opublikowany = kalendarium.icm.edu.pl |url = http://kalendarium.icm.edu.pl/}}</ref>
* 1994 [[Polski Archie]]
* 1995 [[Polski Infoseek]] ICM
* 1996
* 1996
** [[Netoskop]]<ref name=":22">{{Cytuj |autor r = Dariusz Baran |redaktor = Katarzyna Pokorna-Ignatowicz |rozdział = Polish Internet at the end of the 20th century |tytuł = The Polish media system : 1989-2011 |data = 2012 |data dostępu = 2023-01-30 |isbn = 978-83-7571-217-9 |miejsce = Kraków |wydawca = Oficyna Wydawnicza AFM |s = s. 44 |oclc = 866938507 |url = https://www.researchgate.net/publication/341193145_Polish_Internet_at_the_end_of_the_20th_century_2012 |język = en}}</ref>
** [[Netoskop]]
** [[Sieciowid]]
** [[Sieciowid]]<ref name=":22" />
** [[Infoseek Onet]]
** polska AltaVista
** polska AltaVista
* 1997 [[Sieciowid]] kończy działalność
* 1997
** [[Sieciowid]] kończy działalność
** [[Polski Infoseek]] ICM<ref name=":6" /><ref name=":7" /><ref name=":22" />
* 2000 Arena.pl przejmuje zasoby Polskiego Infoseeka
* 1998 polska wersja [[wyszukiwarka Google|Google]]
* 1999
** Infoseek Onet<ref name=":8">{{Cytuj |tytuł = Kolejne polskie portale stosują wyszukiwarkę Google |data dostępu = 2023-01-30 |opublikowany = Computerworld |url = https://www.computerworld.pl/news/Kolejne-polskie-portale-stosuja-wyszukiwarke-Google,1402.html |język = pl}}</ref>
** Inktomi pojawia się w WP<ref name=":8" />
* 2000
** Arena.pl przejmuje zasoby Polskiego Infoseeka<ref>{{Cytuj |tytuł = 10 lat polskiego Internetu |data dostępu = 2023-01-30 |opublikowany = www.pcworld.pl |url = https://www.pcworld.pl/news/10-lat-polskiego-Internetu,279200.html |język = pl}}</ref>
** [[Netsprint|NetSprint]]<ref name=":22" /><ref name=":0" />
* 2001
* 2001
** [[Szukacz]]<ref name=":3">{{Cytuj |tytuł = NEKST – nowa, polska wyszukiwarka. Aby miała sens, technologia musi stać się produktem |data = 2014-01-14 |data dostępu = 2023-01-30 |opublikowany = Gadżetomania |url = https://gadzetomania.pl/nekst-nowa-polska-wyszukiwarka-aby-miala-sens-technologia-musi-stac-sie-produktem,6704644626352257a |język = pl}}</ref>
* [[NetSprint]]
** [[AltaVista Interia]]
** [[AltaVista Interia]]
** Polski Yandex<ref>{{Cytuj |autor = Proformat |tytuł = Yandex- rosyjski odpowiednik Google- czym jest i co ma do zaoferowania? |data = 2021-07-18 |data dostępu = 2023-01-30 |opublikowany = Proformat |url = https://www.proformat.pl/blog/yandex-rosyjski-odpowiednik-google-czym-jest-i-co-ma-do-zaoferowania/ |język = pl-PL}}</ref>
* 2002 polska wersja [[wyszukiwarka Google|Google’a]]
*2002
* 2003
**Netsprint pojawia się w WP<ref name=":0" />
** [[Szukacz]]
** Polski Yandex
* 2005
* 2005
** koniec NEToskopu
** koniec NEToskopu
Linia 73: Linia 87:
* 2011
* 2011
** [[Swoper]]
** [[Swoper]]
** koniec wyszukiwarki Szukacz<ref name=":1" />
* 2012
* 2012
** [[Nekst]], polska wyszukiwarka semantyczna<ref>{{Cytuj stronę | url = http://www.nekst.pl/ | tytuł = Wyszukiwarka NEKST | data dostępu = 2018-03-20}}</ref><ref>{{Cytuj stronę | url = http://wiki.wyszukiwarka.nekst.pl/index.php/Strona_g%C5%82%C3%B3wna | tytuł = O wyszukiwarce NEKST | data dostępu = 2018-03-20}}</ref>
** [[Nekst]], polska wyszukiwarka semantyczna<ref>{{Cytuj stronę |url = http://www.nekst.pl/ |tytuł = Wyszukiwarka NEKST |data dostępu = 2018-03-20}}</ref><ref>{{Cytuj stronę |url = http://wiki.wyszukiwarka.nekst.pl/index.php/Strona_g%C5%82%C3%B3wna |tytuł = O wyszukiwarce NEKST |data dostępu = 2018-03-20}}</ref><ref name=":3" />
** koniec NetSprint w portalu WP, wyszukiwarkę zastąpiło Google<ref name=":1" />
* 2014
* 2014
** Xtem Search
** Xtem Search, w języku angielskim


== Podział wyszukiwarek ==
== Podział wyszukiwarek ==
=== Wyszukiwarki oparte na analizie treści strony ===
=== Wyszukiwarki oparte na analizie treści strony ===
Ponieważ Internet rośnie znacznie szybciej niż jakakolwiek grupa ludzi może go katalogować oraz z powodu wad katalogów (np. pod danym hasłem może znajdować się tysiące stron), powstały wyszukiwarki, które przeszukują Internet analizując zawartość stron.
Ponieważ Internet rośnie znacznie szybciej niż jakakolwiek grupa ludzi może go katalogować oraz z powodu wad katalogów (np. pod danym hasłem może znajdować się tysiące stron), powstały wyszukiwarki, które przeszukują Internet, analizując zawartość stron.
Kiedy użytkownik poda wyszukiwarce zapytanie, ona odpowie mu łączami do stron, które uzna, w zależności od użytego algorytmu, za najbardziej odpowiednie.
Kiedy użytkownik poda wyszukiwarce zapytanie, ona odpowie mu łączami do stron, które uzna, w zależności od użytego algorytmu, za najbardziej odpowiednie.


Linia 86: Linia 102:


=== Wyszukiwarki oparte na analizie topologii sieci ===
=== Wyszukiwarki oparte na analizie topologii sieci ===
Żeby przeciwdziałać temu, stosuje się wyszukiwarki, w których na szczycie list pojawiają się strony, do których odnosi się najwięcej stron dotyczących danego zapytania.
Żeby przeciwdziałać temu, stosuje się wyszukiwarki, w których na szczycie list pojawiają się strony, do których odnosi się najwięcej stron dotyczących danego zapytania. Tak więc stronę uważa się za odpowiadającą zapytaniu „britney spears”, jeśli wiele stron na temat „britney spears” do niej linkuje. Strona porno z nagimi zdjęciami [[Britney Spears|Britney]], niezależnie od własnej treści i niezależnie od całkowitej liczby linków (głównie z innych stron porno) na nią, nie będzie w ten sposób uznana za związaną z tematem. Natomiast jeśli zada się zapytanie „britney spears nude”, strona ta zostanie uznana za istotną, ponieważ linkuje na nią wiele stron o tematyce „nude”.
Tak więc stronę uważa się za odpowiadającą zapytaniu „britney spears”, jeśli wiele stron na temat „britney spears” do niej linkuje. Strona porno z nagimi zdjęciami [[Britney Spears|Britney]], niezależnie od własnej treści i niezależnie od całkowitej liczby linków (głównie z innych stron porno) na nią, nie będzie w ten sposób uznana za związaną z tematem. Natomiast jeśli zada się zapytanie „britney spears nude”, strona ta zostanie uznana za istotną, ponieważ linkuje na nią wiele stron o tematyce „nude”.


Początkowa istotność na podstawie prostej [[heurystyka (informatyka)|heurystyki]], po czym zwykle używa się algorytmu losowego skakania po linkach. Pierwszą wyszukiwarką, która zastosowała zaawansowane algorytmy analizy topologii sieci był [[wyszukiwarka Google|Google]].
Początkowa istotność na podstawie prostej [[heurystyka (informatyka)|heurystyki]], po czym zwykle używa się algorytmu losowego skakania po linkach. Pierwszą wyszukiwarką, która zastosowała zaawansowane algorytmy analizy topologii sieci był [[wyszukiwarka Google|Google]].


Wyszukiwarki oparte na analizie topologicznej są często uważane za bardzo odporne na nadużycia. W rzeczywistości stosunkowo częstym atakiem są spam-systemy automatycznej wymiany linków. Inną formą ataku jest stworzenie dużej ilości gęsto linkowanych stron, z czego wszystkie na ten sam temat. Jest to jednak zadanie trudne i wymagające dużego nakładu pracy, a modyfikując heurystykę wartości początkowych można znacznie ograniczyć ten proceder, którego skala na razie jest minimalna.
Wyszukiwarki oparte na analizie topologicznej są często uważane za bardzo odporne na nadużycia. W rzeczywistości stosunkowo częstym atakiem są spam-systemy automatycznej wymiany linków. Inną formą ataku jest stworzenie dużej ilości gęsto linkowanych stron, z czego wszystkie na ten sam temat. Jest to jednak zadanie trudne i wymagające dużego nakładu pracy, a modyfikując heurystykę wartości początkowych, można znacznie ograniczyć ten proceder, którego skala na razie jest minimalna.


=== Wyszukiwarki oparte na zasadzie aukcji miejsc ===
=== Wyszukiwarki oparte na zasadzie aukcji miejsc ===
Osobnym pomysłem jest wprowadzony przez [[Overture]] system, gdzie strony płacą wyszukiwarce kilka centów za każde kliknięcie, przy czym miejsca są licytowane – strona która daje więcej za kliknięcie znajdzie się wyżej na liście rezultatów. Pozycje płatne są oznaczone jako takie, razem z ceną. System ten jest korzystny dla właścicieli stron – płacą oni tylko za wejścia nie za wyświetlenia. Twórcy twierdzą, że jest on również korzystny dla użytkownika, gdyż tylko strony, które oferują coś użytecznego z danej dziedziny mogą sobie pozwolić na taką reklamę. Z drugiej jednak strony wiele użytecznych stron jest niekomercyjnych, a nawet przy stronach komercyjnych wyniki będą często nieoptymalne – np. na taką reklamę nie mogą sobie pozwolić strony, które mają niskie marże i oferują produkty po niskich cenach, a jedynie te, które mają wysokie marże i oferują produkty drożej.
Osobnym pomysłem jest wprowadzony przez [[Overture]] system, gdzie strony płacą wyszukiwarce kilka centów za każde kliknięcie, przy czym miejsca są licytowane – strona, która daje więcej za kliknięcie znajdzie się wyżej na liście rezultatów. Pozycje płatne są oznaczone jako takie, razem z ceną. System ten jest korzystny dla właścicieli stron – płacą oni tylko za wejścia nie za wyświetlenia. Twórcy twierdzą, że jest on również korzystny dla użytkownika, gdyż tylko strony, które oferują coś użytecznego z danej dziedziny mogą sobie pozwolić na taką reklamę. Z drugiej jednak strony wiele użytecznych stron jest niekomercyjnych, a nawet przy stronach komercyjnych wyniki będą często nieoptymalne – np. na taką reklamę nie mogą sobie pozwolić strony, które mają niskie marże i oferują produkty po niskich cenach, a jedynie te, które mają wysokie marże i oferują produkty drożej.


== Reklamy w wyszukiwarkach ==
== Reklamy w wyszukiwarkach ==
Wyszukiwarki stanowią wymarzony cel reklamodawców, ponieważ mają oni praktycznie pełną gwarancję, że osoba wyszukująca dane hasło jest nim zainteresowana. Tak więc większość wyszukiwarek oferuje reklamy zależne od treści zapytań (np. [[AdWords]] oferowany przez [[wyszukiwarka Google|Google]]). Nie zawsze są one właściwie oddzielone od wyników poszukiwań, co stało się źródłem protestów grup ochrony praw konsumentów oraz kilku do dziś nierozstrzygniętych spraw sądowych. Ze względu na szeroką krytykę procederu nieoddzielania reklam od wyników, większość wyszukiwarek z niego zrezygnowała i wyraźnie zaznacza teraz reklamy.
Wyszukiwarki stanowią wymarzony cel reklamodawców, ponieważ mają oni praktycznie pełną gwarancję, że osoba wyszukująca dane hasło jest nim zainteresowana. Tak więc większość wyszukiwarek oferuje reklamy zależne od treści zapytań (np. [[Google Ads]] oferowany przez [[wyszukiwarka Google|Google]]). Nie zawsze są one właściwie oddzielone od wyników poszukiwań, co stało się źródłem protestów grup ochrony praw konsumentów oraz kilku do dziś nierozstrzygniętych spraw sądowych. Ze względu na szeroką krytykę procederu nieoddzielania reklam od wyników, większość wyszukiwarek z niego zrezygnowała i wyraźnie zaznacza teraz reklamy.


== Oprogramowanie wyszukiwarek ==
== Oprogramowanie wyszukiwarek ==
Linia 128: Linia 143:
* [[HITS]]
* [[HITS]]
* [[PHITS]]
* [[PHITS]]
* {{link-interwiki |PLSA |Q=Q2845258}}
* [[PLSA]]
* [[PLSA/PHITS]]
* [[PLSA/PHITS]]


Linia 135: Linia 150:
* dostosowanie wyniku do osoby (personalizacja)
* dostosowanie wyniku do osoby (personalizacja)
* [[tezaurus]] (użycie synonimów), podpowiedzi, weryfikacja pisowni, odmiana przez przypadki, wyszukiwanie słów o podobnym rdzeniu lub z pomyłkami
* [[tezaurus]] (użycie synonimów), podpowiedzi, weryfikacja pisowni, odmiana przez przypadki, wyszukiwanie słów o podobnym rdzeniu lub z pomyłkami
* [[Stop listy|stop-words]] (ignorowanie krótkich powszechnie występujących słów, takich jak spójniki i zaimki, np. „i”, „z”).
* [[Stop lista (wyszukiwarki)|stop-words]] (ignorowanie krótkich powszechnie występujących słów, takich jak spójniki i zaimki, np. „i”, „z”).


== [[Pozycjonowanie stron]] w wyszukiwarkach ==
== [[Pozycjonowanie stron]] w wyszukiwarkach ==
Linia 142: Linia 157:
* [[keyword stuffing]] (meta tag stuffing)
* [[keyword stuffing]] (meta tag stuffing)
* [[spamdexing]]
* [[spamdexing]]
* [[ukryty tekst]]
* [[invisible text]] Niewidzialny Tekst
* [[link farm]] Farmy linków
* [[link farm]] Farmy linków
* [[biasing]]
* [[biasing]]
Linia 148: Linia 163:


== Zobacz też ==
== Zobacz też ==
* [[optymalizacja dla wyszukiwarek internetowych]]
* [[katalogi stron WWW]]
* [[katalog stron WWW]]
* [[Robots Exclusion Protocol]]
* [[Robots Exclusion Protocol]]
* [[Multiwyszukiwarka]]


== Przypisy ==
== Przypisy ==
Linia 156: Linia 171:


== Linki zewnętrzne ==
== Linki zewnętrzne ==
* {{SEP | url = ethics-search | tytuł = Search Engines and Ethics | autor = Herman Tavani | data = 2016-07-08 | data dostępu = 2017-06-07 }}
* {{SEP | url = ethics-search | tytuł = Search Engines and Ethics | autor = Herman Tavani | data = 2016-07-08 | data dostępu = 2017-06-07 | tytuł polski = (Wyszukiwarki internetowe a etyka) }}


{{Kontrola autorytatywna}}
{{Kontrola autorytatywna}}

Aktualna wersja na dzień 21:10, 28 maj 2024

Wyszukiwarka internetowaprogram komputerowy lub strona internetowa odnajdująca w internecie informacje według podanych przez użytkownika słów kluczowych lub wyrażeń sformułowanych w języku naturalnym[1].

Umożliwia użytkownikom wyszukiwanie – co do zasady – wszystkich stron internetowych lub stron internetowych w danym języku za pomocą zapytania na jakikolwiek temat przez podanie słowa kluczowego, wyrażenia lub innej wartości wejściowej. W wyniku przedstawia odnośniki, pod którymi można znaleźć informacje związane z zadanym zapytaniem[2].

Określenie „wyszukiwarka” stosowane jest w odniesieniu do:

  • stron internetowych serwisów wyszukujących – czyli implementacji oprogramowania wyszukującego działającego z interfejsem WWW ogólnodostępnym dla internautów
  • oprogramowania przeznaczonego do indeksowania i wyszukiwania informacji w Internecie.

Wyszukiwarki gromadzą w sposób automatyczny informacje o dokumentach tekstowych oraz plikach zgromadzonych w sieci (z obszaru wyznaczonego do indeksowania).

Historia wyszukiwarek

[edytuj | edytuj kod]

Historia wyszukiwarek na świecie

[edytuj | edytuj kod]

Historia wyszukiwarek w Polsce

[edytuj | edytuj kod]

Podział wyszukiwarek

[edytuj | edytuj kod]

Wyszukiwarki oparte na analizie treści strony

[edytuj | edytuj kod]

Ponieważ Internet rośnie znacznie szybciej niż jakakolwiek grupa ludzi może go katalogować oraz z powodu wad katalogów (np. pod danym hasłem może znajdować się tysiące stron), powstały wyszukiwarki, które przeszukują Internet, analizując zawartość stron. Kiedy użytkownik poda wyszukiwarce zapytanie, ona odpowie mu łączami do stron, które uzna, w zależności od użytego algorytmu, za najbardziej odpowiednie.

Wyszukiwarki oparte na tej zasadzie mogą objąć znacznie większą część sieci niż katalogi. Niestety są one bardzo podatne na nadużycia, przez co użytkownik zamiast użytecznych informacji dostaje linki na strony niemające nic wspólnego z jego zapytaniem. Szczególnie wyspecjalizowały się w tym strony pornograficzne.

Wyszukiwarki oparte na analizie topologii sieci

[edytuj | edytuj kod]

Żeby przeciwdziałać temu, stosuje się wyszukiwarki, w których na szczycie list pojawiają się strony, do których odnosi się najwięcej stron dotyczących danego zapytania. Tak więc stronę uważa się za odpowiadającą zapytaniu „britney spears”, jeśli wiele stron na temat „britney spears” do niej linkuje. Strona porno z nagimi zdjęciami Britney, niezależnie od własnej treści i niezależnie od całkowitej liczby linków (głównie z innych stron porno) na nią, nie będzie w ten sposób uznana za związaną z tematem. Natomiast jeśli zada się zapytanie „britney spears nude”, strona ta zostanie uznana za istotną, ponieważ linkuje na nią wiele stron o tematyce „nude”.

Początkowa istotność na podstawie prostej heurystyki, po czym zwykle używa się algorytmu losowego skakania po linkach. Pierwszą wyszukiwarką, która zastosowała zaawansowane algorytmy analizy topologii sieci był Google.

Wyszukiwarki oparte na analizie topologicznej są często uważane za bardzo odporne na nadużycia. W rzeczywistości stosunkowo częstym atakiem są spam-systemy automatycznej wymiany linków. Inną formą ataku jest stworzenie dużej ilości gęsto linkowanych stron, z czego wszystkie na ten sam temat. Jest to jednak zadanie trudne i wymagające dużego nakładu pracy, a modyfikując heurystykę wartości początkowych, można znacznie ograniczyć ten proceder, którego skala na razie jest minimalna.

Wyszukiwarki oparte na zasadzie aukcji miejsc

[edytuj | edytuj kod]

Osobnym pomysłem jest wprowadzony przez Overture system, gdzie strony płacą wyszukiwarce kilka centów za każde kliknięcie, przy czym miejsca są licytowane – strona, która daje więcej za kliknięcie znajdzie się wyżej na liście rezultatów. Pozycje płatne są oznaczone jako takie, razem z ceną. System ten jest korzystny dla właścicieli stron – płacą oni tylko za wejścia nie za wyświetlenia. Twórcy twierdzą, że jest on również korzystny dla użytkownika, gdyż tylko strony, które oferują coś użytecznego z danej dziedziny mogą sobie pozwolić na taką reklamę. Z drugiej jednak strony wiele użytecznych stron jest niekomercyjnych, a nawet przy stronach komercyjnych wyniki będą często nieoptymalne – np. na taką reklamę nie mogą sobie pozwolić strony, które mają niskie marże i oferują produkty po niskich cenach, a jedynie te, które mają wysokie marże i oferują produkty drożej.

Reklamy w wyszukiwarkach

[edytuj | edytuj kod]

Wyszukiwarki stanowią wymarzony cel reklamodawców, ponieważ mają oni praktycznie pełną gwarancję, że osoba wyszukująca dane hasło jest nim zainteresowana. Tak więc większość wyszukiwarek oferuje reklamy zależne od treści zapytań (np. Google Ads oferowany przez Google). Nie zawsze są one właściwie oddzielone od wyników poszukiwań, co stało się źródłem protestów grup ochrony praw konsumentów oraz kilku do dziś nierozstrzygniętych spraw sądowych. Ze względu na szeroką krytykę procederu nieoddzielania reklam od wyników, większość wyszukiwarek z niego zrezygnowała i wyraźnie zaznacza teraz reklamy.

Oprogramowanie wyszukiwarek

[edytuj | edytuj kod]

Oprogramowanie wyszukiwarek to zestaw programów, modułów, z których każdy ma oddzielne zadanie. W skład zestawu wchodzą takie elementy jak:

  • Crawler, Robot, Pająk, Spider, Bot – moduły pobierające dokumenty z sieci
  • Indekser – moduł analizujący i oceniający
  • Searcher – interfejs wyszukujący wyszukiwarki/podsystem odpowiadający na zapytania/analizator zapytań oraz moduł prezentacji wyników

Oraz dochodzą do tego:

  • programy konwersji dokumentów (np. PDF)
  • programy archiwizujące repozytorium (najczęściej w postaci skompresowanej)
  • programy analizy i wykrywania technik niepożądanych (spam)
  • moduły administracyjne

Współczesne oprogramowanie wyszukiwarek jest wysoce skomplikowanym systemem rozproszonym uruchamianym zwykle w wielu oddzielnych etapach na tysiącach oddzielnych komputerów – zarówno ze względu na rozmiar i skalę przeszukiwanej sieci, jak i ze względów na poprawienie dostępności usługi w wypadku awarii poszczególnych komponentów.

Algorytmy stosowane w wyszukiwarkach

[edytuj | edytuj kod]

Algorytmy oceny istotności (tzw. relewancji) dokumentu względem szukanej frazy – algorytmy oceny zawartości strony

Poprawa istotności oraz jakości wyników wyszukiwania

[edytuj | edytuj kod]
  • grupowanie (klasteryzacja oraz automatyczne łączenie wyników w łatwo przeszukiwalne kategorie)
  • dostosowanie wyniku do osoby (personalizacja)
  • tezaurus (użycie synonimów), podpowiedzi, weryfikacja pisowni, odmiana przez przypadki, wyszukiwanie słów o podobnym rdzeniu lub z pomyłkami
  • stop-words (ignorowanie krótkich powszechnie występujących słów, takich jak spójniki i zaimki, np. „i”, „z”).

Zobacz też

[edytuj | edytuj kod]

Przypisy

[edytuj | edytuj kod]
  1. Wiesław Babik: Słownik encyklopedyczny informacji, języków i systemów informacyjno-wyszukiwawczych. Warszawa: Stowarzyszenie Bibliotekarzy Polskich, 2002, s. 305, seria: Nauka, Dydaktyka, Praktyka. ISBN 83-87629-84-7.
  2. Dyrektywa Parlamentu Europejskiego i Rady (UE) 2016/1148 z dnia 6 lipca 2016 r. w sprawie środków na rzecz wysokiego wspólnego poziomu bezpieczeństwa sieci i systemów informatycznych na terytorium Unii CELEX: 32016L1148
  3. a b c d e f g h i j k Wyszukiwarki [online], Młody Technik [dostęp 2023-01-30] (pol.).
  4. a b c d e f Historia wyszukiwarek – cz.1 – „Dawniej” [online], Fine Performance, 17 września 2010 [dostęp 2023-01-30] (pol.).
  5. a b AltaVista odchodzi na zasłużoną emeryturę [online], dobreprogramy, 1 lipca 2013 [dostęp 2023-01-30] (pol.).
  6. a b c d Czy czekają nas przeglądarkowe wojny? Małe serwisy rosną pomimo dominacji Google [online], serwisy.gazetaprawna.pl, 8 maja 2015 [dostęp 2023-01-30] (pol.).
  7. 2.6 Wyszukiwarki [online], www.fuw.edu.pl [dostęp 2023-01-30].
  8. a b 10 lat polskiego Internetu [online], www.pcworld.pl [dostęp 2023-01-30] (pol.).
  9. a b Wydarzenia w polskim internecie - kalendarium [online], kalendarium.icm.edu.pl [dostęp 2023-01-30].
  10. a b c d Dariusz Baran, Polish Internet at the end of the 20th century, [w:] Katarzyna Pokorna-Ignatowicz (red.), The Polish media system : 1989-2011, Kraków: Oficyna Wydawnicza AFM, 2012, s. 44, ISBN 978-83-7571-217-9, OCLC 866938507 [dostęp 2023-01-30] (ang.).
  11. a b Kolejne polskie portale stosują wyszukiwarkę Google [online], Computerworld [dostęp 2023-01-30] (pol.).
  12. 10 lat polskiego Internetu [online], www.pcworld.pl [dostęp 2023-01-30] (pol.).
  13. a b NEKST – nowa, polska wyszukiwarka. Aby miała sens, technologia musi stać się produktem [online], Gadżetomania, 14 stycznia 2014 [dostęp 2023-01-30] (pol.).
  14. Proformat, Yandex- rosyjski odpowiednik Google- czym jest i co ma do zaoferowania? [online], Proformat, 18 lipca 2021 [dostęp 2023-01-30] (pol.).
  15. Wyszukiwarka NEKST. [dostęp 2018-03-20].
  16. O wyszukiwarce NEKST. [dostęp 2018-03-20].

Linki zewnętrzne

[edytuj | edytuj kod]