asteartea, ekaina 29, 2021

15 bit per hitza an kontextu ekiprobable bat = 15 galdera binario ki identifikatu hitz bakoitza arten 32.768 hitz ezberdin

Atzokoan genioen ze:

Hortik ondorioztatzen dugu ze, izanen bagenu corpus linguistiko bat non agertuko lirake 32.768 hitz diferente eta denak ere kin ber probabilitatea (maiztasuna), orduan hitz bakoitzaren probabilitatea litzaké:

(1/32768) = 3.051758e-05   (hitz bakoitzaren probabilitate berdina)

eta hitz bakoitzeko entropia:

H = 32768*(3.051758e-05*log2(1/3.051758e-05)) = 15 bit per hitza

Sarrera honetan genekusenez, emaitza hori (15 hori) interpreta daiteke nola zénbat galdera binario beharko liraké ki identifikatu hitz konkretu bat arten 32.768 diferente

Izan ere, lehen galderan baztertuko genuké hitzen erdia:

(32768/2) = 16384

Bigarren galderan soilik geldituko zén hitzen laurden bat:

(16384/2) = 8192

eta hola jarraituko genuke kodetzen galdera-erantzunak ártio 15. galdera (izan ere: log2(32768) = 15), non soilik geldituko litzaiguké hitz bat (hain justu húra zeinen bila genbiltzan):

(2/2) = 11
esan nahi baita ze, 15. erantzun horretan, identifikatua geldituko litzake dena delako hitza. []