סיבית

מתוך ויקיפדיה, האנציקלופדיה החופשית

יש לך הודעות חדשות (השווה לגרסה הקודמת).

סיבית (bit או ביט, מתוך השם "binary digit") היא ספרה בינארית - יחידת המידע הקטנה ביותר שבה משתמש המחשב. סיבית יכולה להכיל ערך 0 או 1 בלבד. המחשב משתמש בשיטה הבינארית כדי לייצג מספרים גדולים יותר בעזרת סיביות. הסיבה לשימוש בשיטה הבינארית היא פשטות המימוש האלקטרוני והלוגי של שיטה זו - נדרש טיפול בשני מצבים בלבד (שמיוצגים, למשל, כך: יש זרם = 1, אין זרם = 0).

מהירות ההעברה של נתונים בקווי תקשורת נמדדת בסיביות לשנייה, או בכפולות של יחידה זו, כגון קילוביט לשנייה, מגה-ביט לשנייה וג'יגה-ביט לשנייה.

מודם חיוג סטנדרטי פועל במהירות של 56Kbps (או 56 קסל"ש).

[עריכה] ההבדל שבין ביט (bit) לבית (byte)

יחידת הזכרון הבאה בגודלה היא בית (Byte), המורכב בדרך כלל מ-8 סיביות. למרבה הבלבול, גם ביט וגם בית מוצגים בקיצור באנגלית באמצעות אותה אות, כאשר האות הגדולה B מייצגת בית והאות b מייצגת סיבית.

[עריכה] יחידות מידה מבוססות סיביות

שם	סימול גודל	ערכים וחזקאות (בביטים)	בסיס 16 **	בסיס 10 *
kilo	k/K	2¹⁰ = 1,024	= 16^2.5	> 10³
mega	M	2²⁰ = 1,048,576	= 16⁵	> 10⁶
giga	G	2³⁰ = 1,073,741,824	= 16^7.5	> 10⁹
tera	T	2⁴⁰ = 1,099,511,627,776	= 16¹⁰	> 10¹²
peta	P	2⁵⁰ = 1,125,899,906,842,624	= 16^12.5	> 10¹⁵
exa	E	2⁶⁰ = 1,152,921,504,606,846,976	= 16¹⁵	> 10¹⁸
zetta	Z	2⁷⁰ = 1,180,591,620,717,411,303,424	= 16^17.5	> 10²¹
yotta	Y	2⁸⁰ = 1,208,925,819,614,629,174,706,176	= 16²⁰	> 10²⁴

הערת שוליים: *בסיס עשרוני, **בסיס הקסדצימלי .

[עריכה] ייצוג בינארי של אותיות

באמצעות מחרוזת של סיביות מושג במחשב ייצוג בינארי של אותיות (וסימנים אחרים). כאשר למטרה זו משמשת סיבית אחת, ניתן לייצג שתי אותיות שונות. ככל שמחרוזת הסיביות ארוכה יותר נוכל להגדיר יותר סימנים שונים, אך נשלם בצריכת מקום אחסון (לסוגיו השונים). רצף של סיביות המשמש להצגה של סימן אחד קרוי תו.

ייצוג בינארי של אותיות נכנס לשימוש שנים רבות לפני המצאת המחשב, במקרים שבהם נדרשה דרך פשוטה לכתיבה וקריאה. כתב ברייל הוא קוד בינארי בן ששה ביטים, כך שייתכנו בו $26 = 64$ סימנים שונים, אך צירופים אחדים אינם מנוצלים משום שהם עלולים להטעות את הקורא.

במכשירי טלפרינטר שימש להעברת המידע סרט מנוקב בקוד בודו, שבו כל תו יוצג באמצעות חמישה חורים, כלומר התאפשרו $25 = 32$ סימנים שונים. זה מספר קטן מדי של סימנים, שאינו מאפשר אפילו ייצוג של אותיות וספרות בלבד. לפתרון הבעיה נלקחו שני תווים להיות תווי בקרה, בעלי אופי דומה לזה של המקש Shift שבמקלדת, כלומר לעבור למערכת חלופית של סימנים. עוד שלושה תווי בקרה משותפים לשתי מערכות הסימנים, כך שבסך הכול מאפשרת שיטה זו ייצוג של 2X27=54 סימנים שונים, וזה מספיק לאותיות (גדולות בלבד), ספרות וסימני פיסוק.

במחשבי CDC, שפעלו בתחילת שנות השבעים, גודל מילה היה 60 ביטים (גודל זה נקבע משום שיש לו יתרון בולט בחישובים, שזו הייתה מטרתם העיקרית של מחשבים אלה). גודל סימן נקבע ל-6 ביטים, כך שבמילה אחת ניתן לאחסן 10 סימנים. מספר הסימנים השונים היה $26 = 64$ . זהו מספר קטן יחסית, אך, כאמור, עיקר פעילותם של מחשבים אלה הייתה חישובים ולא טיפול במידע תווי.

בקוד ASCII נקבעו תחילה 7 ביטים לייצוג תו, כך שהתאפשרו 128 סימנים שונים: אותיות (גדולות וקטנות), ספרות, סימני פיסוק ועוד. בקוד ASCII מורחב נוסף עוד ביט, כך שמתאפשרים 256 סימנים שונים, כולל אותיות עבריות, למשל, ועוד סימנים מיוחדים רבים. קוד זה משמש במרבית המחשבים הפועלים כיום. גם במחשבי IBM-Mainframe, שייצורם החל באמצע שנות השישים, נהוג קוד בן 8 ביטים, אך המשמעות שניתנת בו לכל צירוף של ביטים שונה. קוד זה קרוי EBCDIC.

קוד בן 8 ביטים די בו למערכות טקסטואליות מקובלות, שבהן משתמשים בשפה אחת, או לכל היותר בשתי שפות. במערכות רב לשוניות, שבהן נדרשות גם אותיות ערביות, קיריליות וכו', לא די בכך. פתרון אפשרי הוא זה שננקט במכשירי הטלגרף, כלומר שימוש בתווי בקרה הגורמים להחלפת מערכת האותיות. בפתרון זה יש אי-נוחות מסוימת, מה גם שאינו פותר את בעיית השפות של המזרח הרחוק, שבהן יש אלפי סימנים. פתרון יסודי לבעיה זו הוא המעבר למערכת יוניקוד, שבה משמשים אחד עד ארבעה בתים, כלומר עד 32 ביטים, לייצוג כל סימן. מערכת זו מאפשרת יותר ממיליון סימנים שונים, די והותר לכל סימני השפות המקובלות בעולמנו גם יחד.

בכל מערכות הסימנים שבהן עסקנו עד כה, ניתן אורך אחיד לכל הסימנים במערכת. זו שיטה פשוטה, אך היא אינה יעילה מבחינת נפח האחסון שהיא צורכת: יש סימנים נדירים שיכולנו לתת להם קוד ארוך יותר, ולעומתם להעדיף קוד קצר יותר לסימנים הנפוצים. יישום של גישה זו קיים כבר בקוד מורס לטלגרף אלחוטי (קוד זה משמש עד היום כשנדרשת תקשורת אמינה בתנאי קליטה גרועים, למשל לקשר עם אוניות בלב ים). לאות הנפוצה 'ו' משמש בקוד מורס הקוד '.', ואילו לאות 'ע' משמש הקוד '---.'.

יישום גישה זו במחשבים נהוג כאשר נדרש חסכון בנפח האחסון, אך עקב מורכבותה נדרשת השקעה של זמן מעבד לפענוח הקוד. תוכניות לדחיסת נתונים מיישמות גישה זו. נפח האחסון המינימלי מושג באמצעות קוד הופמן.

טבלת המרה בין בסיסי מספרים נפוצים

עשרוני:	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16
הקסדצימלי:	0	1	2	3	4	5	6	7	8	9	A	B	C	D	E	F	10
בינארי:	0000	0001	0010	0011	0100	0101	0110	0111	1000	1001	1010	1011	1100	1101	1110	1111	10000