یادداشت ها و مصاحبه های یک خبرنگار
 
A reporter's notes and interviews

بنام خدا

آشنایی با بخش تحلیل محتوی و غنی سازی مرکز تحقیقات کامپیوتری نور

در گفتگو با حجت الاسلام و المسلمین سید جواد ابن الرضا

 

تولیدات نرم افزاری مرکز تحقیقات کامپیوتری علوم اسلامی که این روزها ابزار دست بسیاری از پژوهشگران و علاقمندان به معارف اسلامی است، حاصل تلاش و زحمات زیادی است که در بخش های مختلف مرکز تحقیقات کامپیوتری علوم اسلامی، به انجام می رسد. بخش تحلیل محتوا و غنی سازی از جمله بخش های مهم و اساسی است که امر طراحی و تحقیق، ساماندهی، غنی سازی و طبقه بندی محتوای برنامه های مرکز را به عهده دارد.

 پایگاه اطلاع رسانی حوزه در جهت شناساندن فعالیت این بخش، در گفتگویی کوتاه و تخصصی با حجت الاسلام سید جواد ابن الرضا  مسئول بخش تحلیل محتوا، این موضوع را به بحث نشسته است.


ضمن تشکر از حجت الاسلام ابن الرضا و تشکر از اینکه قبول زحمت کردید و فرصتی در اختیار پایگاه اطلاع رسانی حوزه قرار دادید؟

من هم به سهم خود از این پایگاه تشکر می کنم و امیدوارم بیش از گذشته در عرصه نشر معارف اسلامی موفق و موید باشید.

اولین نرم افزارهای مرکز تحقیقات نور چگونه تولید شد و ایده تولید نرم افزارهای اسلامی توسط چه افرادی کلید خورد؟

در ابتدای شکل گیری مرکز حدود سال 67، کار مرکز با تولید برنامه بحار الانوار شروع شد، برخی از فضلای حوزه، که مهندس

کامپیوتر بودند و به دروس حوزوی نیز مشغول بودند دوست داشتند کاری در زمینه تولید نرم افزار های حوزوی ارائه دهند. حوزه

در آن ایام سردمدار این جریان بود.

نوع کارهایی که اوایل تاسیس مرکز انجام می شد، چگونه بود؟

در همان ایام دو نوع کار انجام شد:الف) معجم الفاظ ب) معجم های موضوعی

کسی که بخواهد جستجویی در متن داشته باشد، گاهی اوقات با جستجوی در متن به الفاظ مورد نظر خود دست می یابد و گاهی فراتر از آن معنایی و محتوایی کار می کند. برای رسیدن از طریق الفاظ متن به موضوع مورد نظر کار خاصی لازم نیست. همین مقدار که تایپ یا ورود اطلاعات شود و اجزاء متن برای کامپیوتر قابل شناخت باشد، می توان از الفاظ متن استفاده کرد و جستجوهای خود را انجام داد در این صورت کاربر با تعداد زیادی از مصادیق یک لفظ در متن مواجه شده که گاهی بسیاری از آنها هیچ ربطی به موضوع ندارد. اما آن چیزی که کار مرکز را با مراکز دیگر متمایز می کند، این است که ما کاری کنیم که اطلاعاتی که به کاربر می دهیم، اطلاعات مفید و مورد نظر او باشد.

این اتفاق چگونه می افتد؟

اگر شما یک واژه یا کلمه را در اینترنت جستجو کنید، مرورگرهای اینترنتی پاسخ های زائدی به شما می دهد و خود این پاسخ ها نیز بر دو نوع می باشد، به این معنا که اگر دقیق خود آن لفظ مطلوب را جستجو کنید یک اشکالاتی دارد و اگر بخواهید این دقت را کنار بگذارید، اشکالات دیگری متوجه آن می شود.

الف: اشکالات جستجوی عین لفظ مطلوب در اینترنت: در بسیاری از موارد که این لفظ به صورت پیشوند، پسوند، یا حتی به اشکال مختلف مثل جمع و صورت های دیگر آمده است را مرورگر نمایش نمی دهد؛ در واقع این نوع جستجو جامعیت ندارد.

ب: اشکالات جستجوی الفاظ مطلوب با کنار گذاشتن دقت: اگر دقت را حذف کردیم مثلا پیشوند و پسوند را در نظر نگیریم، قواعد همزه را رعایت نکنیم و...با وجود این از سیستم درخواست اطلاعات کنیم این نوع جستجو نه جامعیت و نه مانعیت دارد. مثلا صد هزار پاسخ به دست می آید که فقط هزارتای آن مورد استفاده است که پیدا کردن آن نیز خود زمان بسیاری را از پژوهشگر می طلبد و باید این مشکل را حل کنیم.

آیا وجود الفاظ مترادف نیز از زمره این اشکالات است؟

بله همینطور است؛ مثلا کاربری کلمه «الارحام» را در کتابی جستجو می کند، در حالی که در این کتاب به جای این لفظ کلمه «الاقارب»بکار رفته و با جستجوی لفظی پژوهشگر هیچ گاه به پاسخ مد نظر خویش دست نمی یابد.

برای رفع این مشکل چه راه کاری پیموده شد؟

برای رفع این مشکل باید تحلیل های محتوایی بروی این متون صورت گیرد تا کاربر به خواسته و مطلوب خود برسد لذا سطح کار را با این تحلیل ها بالا بردیم. روش های مختلفی در این مسیر هستند که کاربر را به خواسته خودش می رساند.

الف و ب: پیراسته سازی و واژه سازی از کلمات:

ما با تحلیل های محتوایی به این دو روش مذکور محدوده حوزه جستجو را بالا برده و اطلاعات بیشتری را به کاربر می دهیم. در واقع با حذف پیشوند ها و پسوند ها و یا تبدیل افعال به مصدر و یا یک سری کارهای مفهومی - مثل تبدیل حمع به مفرد و یا تبدیل کلمات مؤنث به مذکر - کار کاربر را راحت تر می کنیم مثلا اگر کسی به دنبال متونی که در آنها لفظ نور به کار رفته باشد؛ با این پیراستن کلمات به الفاظ دیگری مثل «بالنور» «کالنور» «بنورها» «بنورهم» «بنورهما» و... نیز دست می یابد.

آیا این روش هم کاستی هایی دارد؟ در صورت وجود نقص چه راهکاری می دهید؟

بله متاسفانه شیوه تحلیل محتوای به روش واژه بر متن یا پیراسته کلمات با جامعیتی که در حوزه جستجو دارد و با همه خوبی های دیگرش باز هم پاسخ های اضافی فراوانی را به همراه دارد و از مانعیت کافی برخوردار نیست لذا برای پرهیز از این اشکال این شیوه را کنار می گذاریم و از شیوه برتری استفاده می کنیم.

ج: شیوه نمایه بر متن:

این شیوه که به دو صورت «پیش هم آرا» و «پس هم آرا» انجام می شود، شیوه ای رایج در تحلیل متن است که پس از مطالعه قسمتی از متن، این نمایه ها که در واقع معرف و نماینده تکه ای از متن است توسط پژوهشگران مشخص می گردد؛ این شیوه که فرمت تخصصی نیز یکی از روش های مرسوم آن است نیز دارای محاسن و معایبی است که خود قابل بررسی است.

متقن ترین روش برای کاربر، کدام روش است؟

آنچه که از همه روش ها متقن تر، مفیدتر و نتیجه بخش تر است، شیوه معجم موضوعی و یا چکیده بر متن است. دراین روش باید محقق نسبت به علم مورد نظر، اطلاعات کافی و وافی داشته باشد؛ لذا ما برای تهیه معجم های موضوعی در علوم مختلف از فضلا و اندیشمندان مختلف بهره بردیم مثلا در حوزه فقه از کسانی استفاده کردیم که الان سطوح عالیه فقه را تدریس می کنند؛ یا در تهیه معجم موضوعی فلسفه از کسانی استفاده کردیم که نوعا از اعضای هیئت علمی موسسات و پژوهشگاههای عالی هستند ؛ ایشان متن را به دقت مطالعه می کنند. یک متن فلسفی و یا یک عبارت اصولی یا فقهی متن ساده ای نیست لذا کارشناسان ویژه بعد از مطالعه چند پاراگراف و فهم دقیق آن، چکیده ای از آن متن تنظیم می کنند که ما به آن چیکده در اصطلاح، موضوع می گوییم سپس محقق بر این موضوع نمایه می زند باید این موضوع و نمایه به گونه ای باشد که این قطعه از متن را به طور کامل اشراب کند.

پس فرق این روش با روش نمایه بر متن در چیست؟

به خوب نکته ای اشاره کردید، همین جا مناسب است یکی از فرق های نمایه بر متن با معجم موضوعی را یادآور بشویم و آن اینکه در روش نمایه بر متن، نمایه ها مستقیم به خود متن می خورد، اما در اینجا نمایه ها از چکیده برداشت می شود و بعد از پایان کار موضوع برداری این نمایه ها به صورت منظم و دسته بندی شده در می آید.

بعد از استخراج نمایه، نوبت به واژه سازی می رسد برای این کار نمایه ها شکسته شده و تبدیل به تک واژه می شود، در واقع حوزه ای از تک واژه ها ایجاد می شود.

ممکن است با مثالی این مطلب را توضیح دهید؟

مثلا کاربر در برنامه معجم موضوعی بحار الانوار تک واژه «صبر» را انتخاب می کند و بعد از آنکه تک واژه «الصبر» را انتخاب کرد، با مجموعه ای از نمایه ها که تک واژه صبر در آنها بکار رفته است روبرو می شود مثلا تک واژه صبر در 319 نمایه بکار رفته است مانند: الصبر عند المصیبه، الصبر عند المعصیة، الصبر عند الطاعه، آیات الصبر و الاشعار فی الصبر. این نمایه هایی است که در «صبر» بکار رفته است و نمایه های مد نظر را انتخاب می کند و وقتی این نمایه ها را انتخاب کرد موضوعات این نمایه ها به دنبال آن قرار می گیرد و مطابق این موضوعات و چکیده ها به متن مورد نظر می رسد.

فایده این شیوه و امتیازات این برشیوه های قبلی چیست؟

در این روش کاربر را نزدیک به بحث مورد نظرش کرده ایم و محققی که مثلا به دنبال مفهوم خاصی از صبر می گردد، می تواند همه مطالب مرتبط با صبر را یکجا مشاهده کند؛ البته ممکن است موضوعی از دید چکیده بردار مغفول مانده باشد، اما نفس این کار، کار با ارزشی است، زیرا علاوه بر جامعیت و توسعه در محدوده جستجو مباحث غیر مرتبط را تا حد چشمگیری کاهش داده است و تمامی مطالبی که به کاربر نمایش می دهد مرتبط با بحث اوست.

جایگاه سیستم مشترکات در معجم های موضوعی:

تازه به این مقدار هم بسنده نمی کنیم چرا که کاربر در جستجویش ممکن است از الفاظی استفاده کند که مشترک بین چند معنا است لذا کار دیگر در اینجا انجام می دهیم به نام  «سیستم مشترکات» مثلا کاربر در برنامه بحار الانوار کلمه «الیمین» را جستجو می کند. ما از کاربر می پرسیم مراد شما از «الیمین» چیست؟ الیمین به معنای «راست» و در مقابل «چپ» است؛ یا «الیمین» به معنای «قسم» است؟ و در جواب می گوییم: اگر یمین را به معنای راست گرفته ای 84 جواب دارد و اگر یمین به معنای قسم مراد است،451 پاسخ دارد.

باز به این مرحله اکتفا نمی شود چرا که ممکن است کلمه ای جستجو شود اما در مقابل این کلمه مرادفات این کلمه هم وجود دارد به کاربر می گویم: شما چه این لفظ را بزنید و چه مرادفات آن را باز به نتیجه مطلوبتان می رسید و مرادفات کلمات مورد نظر نیز خواهد آمد. پس سیستمی داریم به عنوان «سیستم مترادفات» که قبلا نیز به آن اشاره شد.

"نیز بنگریدها" در معجم های موضوعی چه جایگاهی دارد؟

باز هم به این اکتفا نمی شود، می گوییم مثلا شما در حوزه فلاسفه در باره ابن سینا تحقیقاتی انجام داده ای، اما دوست دارید همین جا اطلاعات دیگری که در رابطه با فلاسفه دیگر در این حوزه هست را ببینی تا مقداری هم افزایی علمی پیدا کنی ویا مثلا تحقیقی پیرامون صبر دارید پس از جستجو و دسترسی کامل به مطالب و مباحث پیرامون موضوع شما را با حوزه وسیع تری از اطلاعات مرتبط می کند و اطلاعاتی در حوزه های تحمل، تعب و سختی، ثواب، جزع و فزع، جهاد، حلم و.... به شما ارائه می کند.

به عبارت دیگر این «نیز بنگرید ها» است که به پژوهشگر کمک می کند تا بهتر بتواند، پایان نامه، مقاله و یا کتاب خود را کامل کند.

آیا با این همه محسنات و خوبی هایی که گفته شد، معایبی هم در این روش مشاهده می گردد؟

همه اینها با هم می شود یک معجم موضوعی و کار مهمی که ما انجام می دهیم، همین بخش است. یعنی ما از محدوده الفاظ بیرون می رویم و وارد حوزه معنایی و محتوایی می شویم؛ این معجم موضوعی شیوه خوبی است. اما اشکالاتی هم دارد که نسبت به شیوه های دیگر خیلی به چشم نمی خورد و اشکال این است که این نمایه ها همه زیر هم می ریزند و فقط بر اساس الفبای اول کلمه منظم شده، شاکله ای خاص ندارد و معلوم نیست کدام اعم و کدام اخص است، کلی و جزئی اش معلوم نیست. برای همین شیوه جدیدی تحت عنوان درختواره ابداع کردیم البته شیوه سومی هم به نام شیوه دانشنامه ای یا فرمت تخصصی داریم که توضیح درباره آن شیوه و روش درختواره ای فرصت دیگری می طلبد که انشاالله در مجال دیگری به آن خواهیم پرداخت.

با تشکر از حضرتعالی که وقت خود را در اختیار پایگاه اطلاع رسانی حوزه نت قرار دادید.

منتشر شده در حوزه نت


نوشته شده در تاريخ ۱۳٩۱/۱٠/٢٦ توسط ح.کرمی
تمامی حقوق مطالب برای یادداشت ها و مصاحبه های یک خبرنگار محفوظ می باشد