نحوه ی برخورد با داده های پرت و انتهایی
برای شناسایی داده های پرت و انتهایی راههای متفاوتی وجود دارد. یک قانون سر انگشتی بیان می کند انحراف بیشتر از سه انحراف استاندارد را باید داده ی پرت در نظر گرفت که البته این موضوع برای داده های چوله نامناسب است. برای داده های دارای توزیع چوله نقاط برشی مطرح شده است. زمانی که توزیعات چند متغییری داریم شاخص هایی از فاصله مطرح می شوند مانند فاصله ی ماهالانوبیس و d کوکس. باقیمانده ی استاندارد شده و یا استیودنت شده مربوط به رگرسیون نیز می توانند در شناسایی مفید باشند.
با توجه به ویژگی داده های گردآوری شده در این مرکز بهترین راه عبارت است از استفاده از نمودار scatter plot زمانی که موضوع مورد بحث ما همبستگی است و استفاده از نمودار Box plot زمانی که موضوع مورد بحث مقایسه ی تفاوت ها است و یا این که لازم است تنها یک گروه مورد مطالعه قرار گیرد.
بعد از شناسایی داده های پرت و انتهایی باید در مورد نحوه ی برخورد با آنها تصمیم گرفته شود. در صورتی که تعداد این داده ها زیاد نباشد می توان آنها را از فرایند تحلیل کنار گذاشت. به این روش حذف گفته می شود. اگر تعداد این داده ها زیاد باشد یا محقق به هر دلیلی بخواهد از اطلاعات موجود از آنها استفاده کند می تواند راههای زیر را انتخاب نمایید:
1. محقق می تواند از روش خلاصه سازی استفاده کند. در این روش داده های پرت و انتهایی به آخرین داده ی قابل قبول انتقال می یابند یعنی سر و ته داده های زده می شود و د اده های پرت به آخرین داده ی قانونی تغییر می یابند.
2. راه دوم استفاده از تکنیک های آماری است که نسبت به داده های پرت حساس نیستند مثلا استفاده از میانگین پیراسته شده(Trimmed mean) ، میانگین ویندسورنر، حداقل مجذورات پیرایش شده، حداقل میانه ی مجذورات، رگرسیون ویندسورنرو .....
دو موضوع مهم در بین موضوعات مختلف مربوط به غربالگری و تحلیل داده ها عبارتند از شناسایی و برخورد با داده های پرت و انتهایی و تحلیل داده های گمشده. اگر چه تمییز سازی داده ها شامل موضوعات دیگری مانند انتقال داده ها، اندازه ی اثر و فواصل اطمینان می شود. اما داده های موجود در این مرکز بیشتر با داده های پرت و گمشده سروکار دارند.
داده های گمشده نیز باید شناسایی شده و به طریق صحیح با آنها برخورد شود. برای پژوهشگران کاربردی لازم است تا به ماهیت داده های گمشده توجه کنند. تمام روش های سنتی برای برخورد با داده های گمشده کارایی لازم را ندارند و استفاده نمی شوند. نشان داده شده است که روش های سنتی برای براورد پارامترهای کارا و خطاهای استاندارد نا اریب کارایی لازم را ندارند.