Tf–idf: erinevus redaktsioonide vahel

Allikas: testwiki
Mine navigeerimisribale Mine otsikasti
imported>Kuriuss
PResümee puudub
 
(Erinevus puudub)

Viimane redaktsioon: 4. november 2017, kell 23:12

Mall:ToimetaAeg Tf–idf (inglise term frequency–inverse document frequency) on statistiline mõõt, mida kasutatakse tihti infootsingus ja andmekaevanduses. Seda mõõtu kasutatakse sõnade tähtsuse hindamiseks tekstikorpuses. Enamasti kasvab sõna tähtsus proportsionaalselt sõna esinemissagedusega. Sellele loogikale ei allu väga tihti kasutatavad sõnad (näiteks sidesõnad, asesõnad jms), mille esinemissagedus on küll suur, aga tähtsus tekstis väike.

Niisiis võib kirjeldada tf-i (term frequency) ehk termini sagedust järgmiselt:

tf=niknk

kus termini esinemissagedus tekstis (ni) on jagatud sõnade hulgaga tekstis.

Idf-iga mõõdetakse termini üldist tähtsust järgmise valemi abil:

idf=log|D||(diti)|

kus |D| on tekstide arv korpuses ja |(diti)| tekstide arv, kus termin ti esineb.

Tf–idf on seega järgmine:

tfidf=tfidf