FP64 64-Bit (double precision)
הרבה אפליקציות דורשות חישובים מתמטיים בדיוק גבוה. באפיליקציות אלו, המידע מוצג בערכים כפולים (שימוש ב 64 ביטים בינארים במקום 32). ערכים גבוהים אלו נקראים (Double Precision” (64 bit. ערכים פחות מדוייקים נקראים 32bit single precision
למרות שכמעט כל המאיצים הגרפיים של NVIDIA תומכים גם בערכים הגבוהים (כפולים) וגם בערכים הנמוכים (בודדים), הביצועים עבור הערכים הגבוהים – נמוכה משמעותית אצל רוב יצרני כרטיסי המסך.
Double-precision (64-bit) Floating Point Performance | NVIDIA GPU Model |
up to 0.206 TFLOPS | GeForce GTX Titan X Maxwell |
up to 0.355 TFLOPS | GeForce GTX 1080 Ti |
up to 0.380 TFLOPS | GeForce Titan Xp |
up to 6.875 TFLOPS | GeForce Titan V |
estimated ~0.44 TFLOPS | GeForce RTX 2080 Ti |
estimated ~0.51 TFLOPS | Titan RTX |
1.87+ TFLOPS | Tesla K80 |
4.7 ~ 5.3 TFLOPS | Tesla P100 |
5.2 TFLOPS | Quadro GP100 |
7 ~ 7.8 TFLOPS | Tesla V100 |
7.4 TFLOPS | Quadro GV100 |
TFLOPS~ 0.5 | Quadro RTX 6000 and 8000 |
estimated ~0.25 TFLOPS | Tesla T4 |
FP16 16-Bit (Half Precision)
חלק מהאפליקציות אינן דורשות רמת דיוק גבוהה. תמיכה בדיוק חציוני הוצגה בדור "פסקל" של כרטיסי המסך.
Half-precision (16-bit) Floating Point Performance | NVIDIA GPU Model |
N/A | GeForce GTX Titan X Maxwell |
less than 0.177 TFLOPS | GeForce GTX 1080 Ti |
less than 0.190 TFLOPS | GeForce Titan Xp |
~27.5 TFLOPS | GeForce Titan V |
28.5 TFLOPS | GeForce RTX 2080 Ti |
up to 32.6 TFLOPS | Titan RTX |
N/A | Tesla K80 |
18.7 ~ 21.2 TFLOPS | Tesla P100 |
20.7 TFLOPS | Quadro GP100 |
28 ~31.4 TFLOPS | Tesla V100 |
29.6 TFLOPS | Quadro GV100 |
32.6 TFLOPS | Quadro RTX 6000 and 8000 |
16.2 TFLOPS | Tesla T4 |
זיהוי שגיאות ותיקון
ב- GPU אשר מריץ משחק מחשב, שגיאת זכרון בודדת בד"כ אינה גורמת לבעיות (לא ממש נזהה פיקסל צבע בודד שגוי בפריים בודד), והמשתמש בקושי יהיה מודע לשגיאה זו. לעומת זאת, האפליקציות תלויות בדיוק של המידע המוחזר מה GPU. עבור אפליקציות מסויימות, שגיאה בודדת יכול לגרום לבעיה.
מאיצי מסך מסדרת ה TITAN אינם מסוגלים לזהות שגיאות אלו ולתקנם. המשתמש בד"כ מזהה אותם במידה והאפליקציה קורסת או קיימת תקלה נרחבת בתמונה. לעומתם מאיצי מסך TESLA מסוגלים לזהות ולתקן בעיות של שגיאת ביט בודד, ולזהות שגיאות בביטים כפולים.
כרטיסי מסך מצויינים בביצוע חישובים מתמטיים. עקב האכילס שלהם מגיע בביצוע חישוב מתמטי המבוסס על דיוק כפול של 64 ביט. כרטיסי המסך לא נועדו לעשות שימוש ב FP64, וזאת מכיוון שהם מיועדים עבור גיימרים ומפתחי משחקים שעבורם החישוב המדוייק הזה אינו רלוונטי, ולכן יצרניות של כרטיסי מסך כמו NVIDIA לא דוחסים FP64 Cores בכרטיסי המסך שלהם.
רמת הביצועים של הזכרון במעבד הגרפי
אפליקציות ומשחקים אינטנסטיביים דורשים יחידות עיבוד גרפי ברמת ביצועים גבוהה, אך הגישה המהירה למידע היא קריטית לא פחות. עבור הרבה אפליקציות HPC-High Performance Computing הגידול ברמת ביצועי העיבוד אינה מספיקה אלא אם ביצועי הזכרון גם משופרים. מסיבה זו, המעבד הגרפי של ה TESLA מספק רמת ביצועים גבוהה יותר מאשר המעבד הגרפי של ה GeForce.
GPU Memory Bandwidth | NVIDIA GPU Model |
336 GB/s | GeForce GTX Titan X Maxwell |
484 GB/s | GeForce GTX 1080 Ti |
548 GB/s | GeForce Titan Xp |
653 GB/s | GeForce Titan V |
616 GB/s | GeForce RTX 2080 Ti |
672 GB/s | Titan RTX |
480 GB/s | Tesla K80 |
549 GB/s / 732 GB/s | Tesla P100 12/16GB |
717 GB/s | Quadro GP100 |
900 GB/s | Tesla V100 |
870 GB/s | Quadro GV100 |
624 GB/s | Quadro RTX 6000 and 8000 |
320 GB/s | Tesla T4 |
כמות הזכרון במעבד הגרפי
בכלל ככל שיש יותר זכרון המערכת תהיה יותר מהירה. עבור אפליקציות HPC, האופציה לבצע Single Run אף אינה קיימת במידה ואין מספיק זכרון. המעבד הגרפי של כרטיסי המסך TESLA, מציע פי 2 זכרון מאשר המעבד הגרפי של כרטיסי המסך GeForce.
GPU Memory Quantity | NVIDIA GPU Model |
11GB | GeForce GTX 1080 Ti |
12GB | GeForce Titan Xp |
12GB | GeForce Titan V |
11GB | GeForce RTX 2080 Ti |
24GB | Titan RTX |
24GB | Tesla K80 |
12GB / 16GB | Tesla P100 |
16GB | Quadro GP100 |
16GB / 32GB | Tesla V100 |
32GB | Quadro GV100 |
24GB | Quadro RTX 6000 |
48GB | Quadro RTX 8000 |
16GB | Tesla T4 |
טווח החיים של כרטיסי המסך
שוק המעבדים הגרפים הינו ברור, מוצרי ה GeForce בעלי מחזור חיים קצר של כשנה, עד שהם יוצאים מפס ייצור או מיוצרת סדרה מתקדמת יותר. מאיצי המסך Tesla ו Quadro מוגדרים כ Professional GPU ובעלי מחזור חיים גבוה יותר של מעל 3 שנים.
GPU Direct RDMA
לא משנה אם אנחנו מנתחים כמות נתונים אדירה של שוק פיננסי או מבצעים ניתוח מדעי נרחב, אנו זקוקים לפלטפורמה עיבודית המספקת תפוקה גבוהה והשהיה מינימלית ככל האפשר. העיבוד הגרפי ידוע כספק כוחות הסוס הגדול עבור עולם העיבוד הכבד. העיבוד הגרפי צורך מידע מהר יותר ממעבד המחשבים המוכר והידוע, ולכן הוא חייב רוחב פס גבוה (I/O). ע"י שימוש ב GPU Direct (עיבוד גרפי ישיר), מספר מעבדים גרפיים (או מאיצי מסך בשפתנו), כרטיסי רשת, דיסקים קשיחים מסדרת SSD ואף דיסקים מסדרת ה NVMe, יכולים כעת לבצע קריאה וכתיבה ישירות עם ה CUDA Host (מודל כתיבה מקבילה) וזכרון ההתקן ומבטל את הצורך בהעתקות זכרון מיותרות – מה שמשפר דרמתית את העומס על המעבד ומוריד את זמן ההמתנה – מה שמשפר דרמתית את רמת הביצועים מבחינת תעבורת המידע עבור אפליקציות הרצות על מוצרי Tesla או Quadro.
המעבדים הגרפיים של מסדרת ה GeForce לא תומכים ב GPU Direct RDMA, לעומתם המעבדים הגרפיים מסדרת ה Tesla הם בעלי תמיכה מלאה.
Hyper-Q
ה Hyper-Q מאפשר למספר שכבות של עיבוד נתונים לעבוד ביחידת עיבוד גרפי בודד. אפשרות זו חשובה עבור אפליקציות אשר יודעות לנצל את היתרון של מספר הליבות (Cores) הרב של המעבד. האפשרות של המעבד הגרפי לקבל מספר רב של משימות לביצוע ממספר השכבות השונות משפר דרמתית את רמת הביצועים.