asteartea, ekaina 29, 2021

15 bit per hitza an kontextu ekiprobable bat = 15 galdera binario ki identifikatu hitz bakoitza artén 32.768 hitz ezberdin

Atzokoan genioen ze:

... izanen bagenu corpus linguistiko bat non agertuko lirakén 32.768 hitz diferente eta denak ere kin ber probabilitatea (maiztasuna), orduan hitz bakoitzaren probabilitatea litzaké:

(1/32768) = 3.051758e-05 (hitz bakoitzaren probabilitate berdina)

eta hitz bakoitzeko entropia:

H = 32768*(3.051758e-05*log2(1/3.051758e-05)) = 15 bit per hitza

Sarrera honetan genekusenez, emaitza hori (15 hori) interpretatu ahal da nola zénbat galdera binario beharko liraké ki identifikatu hitz konkretu bat artén 32.768 diferente

Izan ere, lehen galderan baztertuko genuké hitzen erdia:

(32768/2) = 16384

Bigarren galderan soilik geldituko zén hitzen laurden bat:

(16384/2) = 8192

eta hola jarraituko genuke kodetzen galdera-erantzunak harik 15. galdera (izan ere: log2(32768) = 15), non soilik geldituko litzaiguké hitz bat (hain justu húra zeinen bila genbiltzan):

(2/2) = 11
esan nahi baita ze, 15. erantzun horretan, identifikatua geldituko litzake dena delako hitza. [1306] [>>>]

Etiketak: