پایگاه دادههای زبان فارسی[1]
طی سالهای 1370 تا 1372 طرحی برای ایجاد نخستین پایگاه دادههای (دادگان) زبان فارسی با کمک رایانه در پژوهشگاه علوم انسانی و مطالعات فرهنگی تهیه شد و فاز (مرحله) نخست آن تا سال 1379 به بهرهبرداری برونخط[2] رسید. و از سال 1379 تا 1381 فاز دوم طرح برای گسترش آن به اجرا درآمد. همزمان با معرفی پایگاه دادههای زبان فارسی بهعنوان منبعی مستند برای پژوهشهای زبانی در سومین کنفرانس زبانشناسی ایران (1374)، معرفی رشتة نوبنیاد زبانشناسی پیکرهای نیز با ارائة مقاله، سخنرانی و برگزاری کارگاههایی آغاز شد.(عاصی، 1382) فاز سوم طرح که برای تولید نرمافزار گسترده پایگاه، افزایش حجم دادهها تا 60 میلیون واژه و ارائه برخط و رایگان آن برای همگان در اینترنت بود در سال 1384به بهرهبرداری رسید. در فاز چهارم که بیش از یکسال زمان گرفت نسخة تازهای از پایگاه با امکانات بیشتر و افزایش حجم دادهها تا ۳۵۰ میلیون واژه در خردادماه ۱۳۹۸ رونمایی شد. ویژگیهای پایگاه دادههای زبان فارسی را میتوان چنین برشمرد:
هدف
هدف از ایجاد پایگاه داده های زبان فارسی، فراهم كردن مجموعهای از پیكرههای زبان فارسی است كه باوجود حجم عظیمی از دادههای گفتاری و نوشتاری از گونههای تاریخی، جغرافیایی و اجتماعی زبان فارسی با گستردگی و تنوع بسیار، دارای ساختاری بسامان و منطقی باشد تا امكان هرگونه جستجو و دستیابی سریع به آگاهیهای موردنیاز را درهرزمان فراهم نماید. پیكرههای این پایگاه میتوانند همواره گسترش یافته روزآیند گردند و پاسخگوی نیاز كاربران گوناگون در همة زمینههای نظری و كاربردی باشند.
گسترة زبانی
در طراحی درازمدت طرح پیشبینی شده تا از همة گونههای گفتاری، نوشتاری، سبكی و كاربردی زبان فارسی و همة دورانهای تحول آن نمونههایی باشد. در نخستین مرحله با توجه به نیازها و اولویتهای پژوهشی و كاربردی، برش فارسی معاصر از آغاز قرن چهاردهم خورشیدی تاکنون برگزیده شد و نمونههایی از گونههای رسمی نوشتاری یا بهاصطلاح فارسی معیار و گونة گفتاری آن، گونههای تاریخی، ادبی، سبكی و حرفهای فارسی، گونههای محاورهای و عامیانه، گونة کودکان، گونة خبری و روزنامهای این دوران در پایگاه قرار گرفت. در فازهای بعدی متنهای شاخص دوران تاریخی زبان فارسی از قرن چهارم بهبعد به پیکرههای پیشین افزوده شد. قرار است پیکرههایی از دوران فارسی میانه و باستان نیز به پایگاه افزوده شود.
منابع گردآوری دادهها
باتوجه به تنوع گونههای یادشده، با روشهای متفاوت و مناسب دادههای موردنیاز فراهم شد. برای نمونه، کوشش شده در گونههای نوشتاری، معتبرترین نسخه یا نخستین نوبت چاپ آثار تایپ و ویرایش شود. برخی از منابع مانند متون روزنامهای که حجم بسیار زیادی دارندو بهصورت الکترونیکی قابل دستیابیاند یا بسیاری از مقالات علمی و تخصصی که از وبگاه نشریه قابل دریافت هستند، ازآنجاکه قالبهای متفاوتی دارند، پس از دریافت یکسانسازی شدهاند. اما گونههای گفتاری در چند مرحله ضبط و پیادهسازی و ویرایش شده، بهصورت متن نوشتاری در پایگاه قرار گرفتهاند. کوشش شده آثار مهم ادبی و نویسندگان سرشناس و بویژه صاحبسبك و تأثیرگذار گردآوری، درونداد و ساماندهی شود.ازجمله:
- نمونههای شاخص نثر معاصر فارسی
- نمونههای شاخص متون فارسی دوران پیشین فارسی (از قرن چهارم بهبعد)
- نمونه های مهم متن های علمی و آموزشی
- نمونههای كافی از مجلهها و نشریههای همهپسند و تخصصی با زمینهها و موضوعهای متنوع
- مجموعه ای از كتابهای ویژة كودكان و نوجوانان
- مجموعة کامل قوانین کشور
- مجموعة بزرگی از متون روزنامهای
- نمونههای ضبطشده از گونههای مهم گفتاری رسمی و غیررسمیِ فارسی معاصر و برخی از گونهها و لهجههای آن
درونداد متنها طی فرایندی طولانی و مراحل پیشویرایش، یکسانسازی متن، درونداد به پایگاه، نمایهسازی، نشانهگذاری[3]، برچسبدهی[4] و تأیید نهایی صورت میگیرد.
تنها برای برچسبدهی خودکار متنهای فارسی، در پژوهشی مستقل روشی نوین و نرمافزاری ابتکاری ایجاد شد که نخستین برنامة برچسب دهی خودکار دستوری برای متون فارسی است.
كاربریهای پایگاه:
انواع جستجو
- جستجوی واژگانی (برپایة یك یا چندكلیدواژه)
- جستجوی واژگانی (برپایة برچسب دستوری، آوایی یا معنایی)
- جستجوی دستهای از واژهها برپایة بخشی از واژه
- جستجوی کلی واژههای یک یا چند متن
- جستجوی مفهومی (بر پایة مفهوم یا معنای موردنظر)
- جستجوی همایند[5] (برپایه واژههای چندتایی[6] و یا بافتهای همسایه)
- گشتوگذار و جستجو در متنها
این جستجوها را میتوان در محدودههای دلخواه (مثلا دورة زمانی معین، یا نویسندهای مشخص، یا حجم معینی از یک پیكره یا در پیکرههای گوناگون) انجامداد.
انواع گزارشها
گزارشهای پایگاه بهگونههای صوری و محتوایی مختلفی طراحی شده اند تا پاسخگوی نیازهای گوناگون باشند:
- بهشكل فهرستهای واژگانی، آماری و بسامدی
- بهشكل اطلاعات موردی
- بهشكل فرهنگ واژهنما (واژه موردنظر در شكل كاربردی آن همراه با اطلاعاتی درباره بافت زبانی آن مانند چند سطر جملة شاهد، شماره سطر و صفحة متن، نام نویسنده و مشخصات اثر، تاریخ كاربرد، بسامد در پیكره و مانند آن)
- بهشكل گزیدههایی از متنهای گوناگون
-بهشکل نمودار درختی تحلیل جملههای پیکره
كاربران پایگاه
این پایگاه برای استفاده همة پژوهندگان زبان فارسی درنظر گرفتهشدهاست، اما مراحل و سطوح دستیابی آن متفاوت است. همه افراد می توانند با پرکردن درخواست اشتراک و ارسال آن، نام کاربری و گذرواژه دریافت کنند البته از نظر سطح دستیابی، افراد، گروههای پژوهشی و سازمانها، دارای دامنه های مجاز متفاوتی خواهند بود. مثلاً تنها مجریان و مدیران پایگاه میتوانند در ساختار و محتوای دادهها تغییراتی بوجود آورند، اما برخی از گروههای پژوهشی ممكن است بتوانند به افزایش دادهها کمک کنند و دیگران تنها دریافتكنندة اطلاعات بهشمارمیآیند.
ازآنجاکه پایگاه دادههای زبان فارسی نخستین پایگاه جامع و دربرگیرندة طیفی از پیکرههای زبان فارسی با امکانات پردازش و ارائة خدمات و اطلاعات گوناگون است که بیش از بیست سال از آغاز ارائة خدمات آن میگذرد، شایسته است که همواره روزآیند گردیده، با توجه به کاربران پرشمار و نیازهای آنان، گسترة خدمات خود را افزایش دهد. بهاین منظور طرح ارتقاء و گسترش پایگاه دادههای زبان فارسی نیز از سال ۱۳۹۷ بهاجرا درآمد و گامهای آغازین برای رسیدن به هدفهای زیر برداشته شد:
- افزایش دادهها و گسترش دامنة آنها به دورانهای میانه و باستانی زبان فارسی
- گردآوری، ساماندهی و ارائة مجموعهای از اطلاعات و آگاهیهای مربوط به زبان فارسی مانند:
-تاریخ زبان فارسی از باستان تا امروز (معتبرترین اثر)
-دستور زبان فارسی (معتبرترین نمونهها)
-فرهنگها و واژهنامههای عمومی و تخصصی زبان فارسی
-نمونة خطهای فارسی در دورانهای گوناگون
-استانداردهای موجود مربوط بهزبان فارسی (مصوبههای فرهنگستانها دربارة واژگان، خط و نگارش و استانداردهای مصوب سازمان استاندارد و تحقیقات صنعتی ایران مرتبط با زبان فارسی).
- ارائه یا معرفی ابزارها و نرمافزارهای مستقل برای پردازش زبان فارسی مانند:
-ابزارهای درونداد و ویرایش متن فارسی (واژهپردازهای مناسب زبان فارسی)
-ابزارهای پردازش متن فارسی (جستجوگرها، واژهشمارها، واژهنامههای بسامدی، آماری، باهمایی و چندتایی[7])
-ابزارهای یکسانسازی متنهای فارسی، یکدستسازی کدها و کاراکترهای متون فارسی
-ابزارهای تبدیل کد متن،
-خطایابهای فارسی
-تقطیعگرها و تحلیلگرهای نحوی و نمودار درختی[8] برای جملات فارسی
-ابزارهای آوانگاری و برچسبزنی خودکار متنهای فارسی
از بیستم خردادماه ۱۳۹۸ نسخة جدید این پایگاه از راه اینترنت در دسترس همگان قرار گرفت.
[1] Persian Linguistic Database (PLDB)