تقسیم می شوند. این پژوهش از آن جهت که سعی در توسعه ی دانش داده کاوی در مدیریت شهری دارد؛ تحقیق کاربردی محسوب می شود.
بر اساس روش گردآوری داده ها
تحقیقات علمی بر اساس روش گردآوری اطلاعات به دو دسته کلی: تحقیقات توصیفی و تحقیقات آزمایشی طبقه بندی می شوند. پژوهش حاضر از نوع توصیفی می باشد زیرا محقق به دنبال کشف الگوهای پنهان میان داده ها و تشریح و تبیین دلایل چگونه بودن و چرایی این الگوهاست.

مدل فرایندی داده کاوی بر اساس استاندارد CRISP-DM
با توجه به ماهیت تحقیق که استفاده از داده کاوی در کشف روابط و الگوهای پنهان میان داده های سامانه 137 شهرداری تهران می باشد این تحقیق از نوع داده محور48 محسوب می شود. پایه اصلی تحقیق بر کشف دانش از پایگاه داده مرکز مدیریت شهری 137 شهرداری تهران نهاده شده است. از این رو استاندارد جهانی CRISP-DM جهت انجام فرایند تحقیق مورد استفاده قرار گرفته است که در فصل دوم به مراحل اصلی آن اشاره شد. هم چنین ساختار اجرایی تحقیق بر همین اساس مورد بررسی قرار گرفته است که در ادامه به آن می پردازیم.
با توجه به این که در این تحقیق از تکنیک های متعدد داده کاوی برای مدل سازی استفاده شده است در هر بخش سعی شده الگوریتمی که بیشترین دقت را در مدل سازی ارائه می کند به کار گرفته شود. در فصل بعد به تفصیل به جزئیات الگوریتم های به کار گرفته شده پرداخته می شود.
شناخت کسب و کار49
همان گونه که پیشتر اشاره شد؛ یکی از مسائل مهم در عرصه ی مدیریت شهری، نحوه ی ارزیابی شهروندان از عملکرد مدیران شهری، اعتماد به این نهاد و مشارکت در آن است. با رشد فزاینده ی جمعیت در کلان‌شهر تهران و به دنبال آن افزایش مشکلات و مسائل ناشی از شهرنشینی در ابعاد وسیع اقتصادی، اجتماعی، فرهنگی و زیست‌محیطی لزوم ایجاد و استفاده از بسترهای مدیریت شهری جدید همراه با به‌روزترین و کاربردی‌ترین فن آوری‌ها احساس می‌شود. از این رو شهرداری تهران در یک اقدام ابتکاری و با استفاده از فن آوری های نوین ارتباطی در پیاده سازی سامانه مدیریت شهری 137، فصل جدیدی را در ایجاد ارتباط باشهروندان و افزایش مشارکت آنان در زمینه ی شناسایی و اطلاع رسانی مسائل و مشکلات شهری پایه ریزی کرده است.
هم اکنون با گذشت بیش از 6 سال از پیاده سازی این سامانه می توان گفت که داده های ارزشمندی در زمینه مسائل شهری در بانک اطلاعاتی این مرکز جمع آوری شده که با به کارگیری دانش داده کاوی به عنوان یکی از ابزارهای پیاده سازی هوش سازمانی یا Business Intelligence بر روی این داده ها به شهرداری در شناخت درست نیازهای شهروندان و ارائه ی هر چه بهتر خدمات به آنان کمک نمود. نتیجه ی به کارگیری تکنولوژی داده کاوی در این سامانه می تواند منجر به شناسایی الگوهای مهم و پنهانی شود که پیش از آن ممکن است مورد توجه قرار نمی گرفته و دانستن آن مدیران شهری را در ارائه ی مطلوب خدمات شهری به شهروندان یاری می رساند.
شناخت داده ها 50
داده های اصلی مورد استفاده در این تحقیق از بانک اطلاعاتی مربوط به سامانه 137 شهرداری تهران به دست آمده که طی سال 1389 از طریق روش های 5 گانه ارتباط شهروندان با این مرکز در سراسر مناطق 22 گانه شهرداری تهران جمع آوری شده است. هر پیام در این سامانه دارای یک کد رهگیری مشخص می باشد که از زمان ثبت پیام تا زمان اقدام همراه آن است. بانک اطلاعاتی این سامانه SQL Server 2005 می باشد.
با توجه به این که اطلاعات فرد تماس گیرنده نظیر شماره ی تلفن تماس گیرنده، نام و نام خانوادگی، در صورت تمایل شهروند در سامانه ثبت می شود پس از بررسی مشاهده شد که در حجم وسیعی از رکوردها این فیلد به صورت مقادیر تهی51 ثبت شده بود و به همین دلیل امکان طبقه بندی تماس ها به تفکیک شهروند میسر نبود ( با در نظر گرفتن این فرض که هر شهروند بیش از 1 بار در سامانه ثبت اطلاعات نموده است).
شرح دقیق فلیدهای جداول به کار رفته در این تحقیق در بخش تحلیل توصیفی آورده شده است.
آماده سازی داده ها52
آماده سازی داده ها مهم ترین و زمان بر ترین بخش در انجام یک فرایند داده کاوی است و شامل مواردی هم چون حذف نقاط مغشوش53، پر و یا حذف کردن مقادیر مفقوده54، تبدیل و یا گسسته سازی 55و کاهش ابعاد داده هاست. هم چنین در این مرحله باید داده ها به فرمتی مناسب برای استفاده از نرم افزارها و برنامه های داده کاوی تبدیل شوند. در قسمت روش اجرایی تحقیق به شرح فرایندهای انجام شده در مرحله آماده سازی داده ها به تفصیل می پردازیم.
مدل سازی56
این مرحله پیاده سازی تکنیک های مدل سازی یا داده کاوی بر روی دیدگاه قابل کاوش ایجاد شده در مرحله قبل است. برای مدل سازی لازم است که ابتدا تکنیک مدل سازی انتخاب شود که در این تحقیق سعی شده است از اکثر تکنیک ها (قابلیت ها) ی داده کاوی نظیر خوشه بندی، درخت تصمیم و قوانین وابستگی در کاوش داده های موجود به کار گرفته شود. در هر مورد الگوریتم های موجود آزمایش و بر اساس نوع و تعداد رکوردهای اطلاعاتی، بهترین الگوریتم انتخاب گردیده است.
برای اعمال این تکنیک ها در تحقیق حاضر از نرم افزار SPPS Clementine به کار گرفته شده است. بدین شکل که داده ها با فرمت های شناخته شده در نرم افزار بارگذاری شده و الگوریتم های مختلف بر روی این مجموعه داده ها اجرا گردیده است. نتایج به دست آمده در فصل چهارم ارائه شده است.
ارزیابی مدل57
در این مرحله مدل های طراحی شده در هر بخش مورد ارزیابی قرار می گ
یرد تا مشخص شود آیا اهداف پیش بینی شده در انجام داده کاوی تامین شده است یا خیر.
توسعه مدل58
در آخرین مرحله، گزارش نهایی از محصول که همان دانش کشف شده است را می توان در اختیار شهرداری تهران قرار داد تا راجع به استفاده از نتایج تصمیم گیری نمایند.
با توجه به این که این تحقیق یک تحقیق کاربردی می باشد، نتایج می تواند به صورت یک سیستم جهت تصمیم گیری مدیران شهری کاربرد داشته باشد.
داده های تحقیق
داده های این تحقیق شامل موارد زیر می باشد:
داده های حاصل از تماس شهروندان تهرانی با مرکز سامانه مدیریت شهری137 شهرداری تهران که هر یک به نوعی بیان کننده ی مشکلات شهری در یکی از مناطق 22 گانه شهرداری تهران می باشد و به یکی از روش های 5 گانه ارتباطی که در بخش 2-2-3-1 به آن اشاره شده به این مرکز اطلاع رسانی شده و در بانک اطلاعاتی مربوطه ثبت گردیده است. این داده ها مربوط به سال 1389 می باشد.
داده های جمعیتی شهر تهران به تفکیک مناطق 22گانه شهرداری تهران.
داده های مربوط به وضعیت اعتبار عمرانی مصوب 89 به تفکیک مناطق 22گانه شهرداری تهران.
داده های هواشناسی.
جامعه آماری, روش نمونه گیری و حجم نمونه
جامعه ی آماری این تحقیق، 1.135.237 رکورد از بانک داده مرکز سامانه مدیریت شهری 137 شهرداری تهران می باشد که هر رکورد نمایانگر یکی از موضوعات و مشکلات شهری منعکس شده از سوی شهروندان در طول سال 1389 می باشد.
از آن جایی که داده های جمعیتی، آب و هوایی و بودجه ای مناطق در طول سال مورد بررسی در بانک داده سامانه 137 ثبت و نگهداری نشده است، لذا داده های مذکور با مراجعه به سایت های مربوطه استخراج و ذخیره گردید.
با توجه به این که نتایج داده کاوی با داشتن داده های بیشتر از صحت بالاتری برخوردار می شوند، بنابراین نمونه گیری در خصوص این جامعه آماری صورت نگرفته است و تمامی داده ها به جز داده های پرت و داده های ناقص مورد استفاده قرار گرفته است.
روش گردآوری اطلاعات و ابزار سنجش
گردآوری داده های اصلی این پژوهش از طریق مراجعه حضوری به مرکز سامانه مدیریت شهری 137 شهرداری تهران و در اختیار گرفتن برشی از بانک اطلاعاتی این سامانه در مقطع یک سال و مصاحبه با کارشناسان محترم معاونت فن آوری اطلاعات مرکز مدیریت شهری137 که متولی امر پیاده سازی این سامانه از ابتدا و نظارت بر حسن اجرای نرم افزار این سامانه و ارزیابی عملکرد و تهیه گزارش های آماری مرتبط در حال حاضر هستند صورت گرفته است.
هم چنین مطالعات کتابخانه ای، شامل جستجوی مقالات و پایان نامه های با موضوع مشابه، مطالعه کتاب های مرتبط در زمینه ی داده کاوی و نیز شرکت در سمینارهای مرتبط با داده کاوی از جمله روش های گردآوری اطلاعات در بخش ادبیات موضوع بوده است.
نوع داده ها و مقیاس آن ها
نوع و مقیاس داده های این تحقیق به شرح ذیل می باشد:
رکوردهای مربوط به جدول پیام ها یا همان تماس های مشتریان شامل 12 فیلد می شد که اکثراً از نوع اسمی (رشته ای) بود که در مرحله آماده سازی داده ها مقادیر عددی فیلدهای مورد نظر از طریق اضافه شدن ستون های جدید به انتهای جدول ایجاد گردید.
رکوردهای مربوط به جداول جمعیت، بارندگی و اعتبار مصوب همگی از نوع عددی می باشند.
شرح دقیق فیلدهای اطلاعاتی در هر جدول در فصل بعد آورده شده است.
ساختار اجرایی تحقیق
همان طور که در ابتدای این فصل بیان شد، ماهیت تحقیق، داده محور می باشد و پایه اصلی تحقیق حاضر برکشف دانش از پایگاه های داده شهرداری تهران بنا نهاده شده است. از این رو استاندارد جهانی CRISP-DM جهت انجام فرایند تحقیق مورد استفاده قرار گرفته است که در این بخش ساختار اجرایی تحقیق بر اساس مراحل این استاندارد تشریح شده است.
درک مساله کسب و کار
در این مرحله گام های زیر دنبال شده است که جزئیات آن در ادامه بیان گردیده است:
تعیین اهداف کسب و کار
ارزیابی موقعیت
تعیین اهداف داده کاوی
در این فاز، ابتدا اهداف کسب و کار تعیین و تبیین گردید که اصلی ترین هدف کسب و کار، به کارگیری تکنیک های مختلف داده کاوی نظیر Clustering، Classification، Association Rules و … بر روی اطلاعات سامانه 137 و بررسی و تحلیل نتایج به دست آمده به منظور ارتقای کیفیت خدمات شهری.
گام بعدی که در این مرحله انجام شده است تعیین اهداف داده کاوی تحقیق است که به طور کاملاً روشن می توان گفت که نوع داده کاوی، هم از نوع پیش بینی کننده و هم از نوع تشریح کننده می باشد.
درک داده ها
در این مرحله گام های زیر دنبال شده است که جزئیات آن در ادامه بیان شده است:
جمع آوری داده های اولیه
توصیف داده ها
تصدیق کیفیت داده ها و شناسایی داده های هدف
در مرحله ی قبل یک تصویر کلی از وضعیت کسب و کار و اهداف مورد نظر از لحاظ کسب و کار و داده کاوی برای محقق حاصل گردید. در این مرحله با توجه به درک صورت گرفته از این اهداف و وضعیت موجود لازم است تا درک صحیحی از وضعیت داده ها، نحوه ی جمع آوری و اطمینان از کیفیت داده های مورد بررسی، حاصل گردد.
در مجموع مهم ترین اقداماتی که در این بخش به آن ها پرداخته شده تعیین داده های مورد نیاز و نحوه ی دسترسی به آن داده ها می باشد.
در این مرحله برای ارزیابی اولیه از داده های موجود، ابتدا ساختار بانک اطلاعاتی سامانه ی 137 شهرداری تهران با 12 فیلد دریافت گردید. لازم به ذکر است که برخی از فیلدها مثل فیلد نام و شماره تماس شهروند به علت اختیاری بودن حاوی
رکوردهای تهی بود که در فرایند تحقیق قابل کاربرد نبودند و لذا از این فرایند حذف گردیدند.
هم چنین اطلاعات مربوط به جمعیت و بودجه مناطق و نیز وضعیت آب و هوای تهران در سال 1389 به ترتیب از وب سایت شهرداری تهران و وب سایت سازمان هواشناسی دریافت و در جداول جداگانه ذخیره گردید.
نکته ی قابل توجه این که نه در سازمان هواشناسی و نه در شهرداری تهران وضعیت آب و هوایی شهر به تفکیک مناطق 22 گانه اندازه گیری و ثبت نمی شود و تنها اطلاعات مذکور به تفکیک ایستگاه های پنج گانه سازمان هواشناسی قابل دسترس می باشد. بنابراین محقق با در نظر گرفتن مجاورت جغرافیایی مناطق درنقشه ی شهر تهران و نیز راهنمایی کارشناسان هواشناسی، اطلاعات هر ایستگاه را برای مناطقی که در همسایگی و
شکل3-1وضعیت ایستگاه های پنج گانه هواشناسی مستقر در شهر تهران می باشد.

مجاورت آن ایستگاه بود تعمیم داد. شکل3-1 نمایانگر وضعیت ایستگاه های هواشناسی مستقر در شهر تهران می باشد. به طور مثال اطلاعات ایستگاه اقدسیه که در منطقه 1 واقع شده است به مناطق 1، 3 و 4 تعمیم داده شد.
آماده سازی داده ها
در این مرحله گام های زیر دنبال شده است که جزئیات آن در ادامه آورده شده است:
جمع آوری و انتخاب داده ها
یکپارچه سازی داده ها
پاکسازی داده ها (کاهش داده ها)
شکل دادن وساخت داده ها (تغییر داده ها)
قالب بندی داده ها ( برای مدل سازی در نرم افزار)
در مرحله قبل داده های هدف، جهت جمع آوری و پالایش مشخص شدند. در این مرحله داده های مرتبط با تماس های مشتریان شناسایی و از تماس های مرتبط با کارمندان و کارکنان سازمان شهرداری تفکیک گردید.
در ادامه فرایند آماده سازی، باید برای پاکسازی و پیش پردازش داده ها، دو عملیات مهم کاهش داده و اعمال تغییرات در شکل داده ها بر روی اطلاعات صورت گیرد.
کاهش اطلاعات عبارت است از تولید یک مجموعه کوچکتر از داده های اولیه که تحت عملیات داده کاوی نتایج تقریبا یکسانی با نتایج داده کاوی روی اطلاعات اولیه به دست می دهد (مرشدلو، 1386)
در این مرحله بر حسب نیاز، عملیات کاهش داده ها به صورت حذف فیلد های شماره تماس ثابت و همراه شهروند – نام و نام خانوادگی شهروند به علت تهی بودن بیش از نیمی از رکوردهای بانک اطلاعاتی صورت گرفت.
همان طور که قبلاً نیز بحث شد داده های بانک اطلاعاتی سامانه 137 در مقطع سال 89 به همراه اطلاعات وضعیت بارندگی و جمعیت و اعتبار مصوب عمرانی در همان سال به منظور تحلیل، انتخاب و گردآوری گردید. پس از بررسی و انتخاب فیلدهای مورد نظر از هر یک از جداول از طریق ایجاد دید59 های تو در تو در نرم افزار Sql 2008 داده های هر 3 جدول با یکدیگر ترکیب شدند. با عنایت به این موضوع که بیشتر فیلدهای جدول مربوط به اطلاعات پیام ها حاوی رکوردهای فارسی می شد لازم بود تا مقادیر فارسی به کدهای متناظر عددی تبدیل شوند. بنابراین فیلد جدیدی به انتهای جدول پیام ها اضافه و کدهای عددی جای مقادیر منحصر به فرد داده های فارسی را گرفت. در این راستا حذف فاصله های اضافی انتهای رکورد و یکسان کردن حروف عربی و فارسی به کدپیچ واحد از مقدمات کار بود.
با توجه به این که اکثر تحلیل های انجام گرفته در این تحقیق به تفکیک منطقه و یا ناحیه می باشد لذا می بایست وجود