پایگاه داده‌های زبان فارسی[1]

طی سال‌های 1370 تا 1372 طرحی   برای ایجاد  نخستین پایگاه داده‌های (دادگان) زبان فارسی با کمک رایانه در پژوهشگاه علوم انسانی  و مطالعات فرهنگی تهیه  شد  و فاز (مرحله) نخست آن تا سال 1379 به بهره‌برداری برون‌خط[2] رسید. و از سال‌ 1379 تا 1381 فاز دوم طرح برای گسترش آن به اجرا درآمد. هم‌زمان با معرفی پایگاه داده‌های زبان فارسی به‌عنوان منبعی مستند برای پژوهش‌های زبانی در سومین کنفرانس زبان‌شناسی ایران (1374)، معرفی رشتة نوبنیاد زبان‌شناسی پیکره‌ای نیز با ارائة مقاله، سخنرانی و برگزاری کارگاه‌هایی آغاز شد.(عاصی، 1382) فاز سوم طرح که برای تولید نرم‌افزار گسترده پایگاه، افزایش حجم داده‌ها تا 60 میلیون واژه و ارائه برخط و رایگان آن برای همگان در اینترنت بود در  سال 1384به بهره‌برداری رسید. در فاز چهارم که بیش از یکسال زمان گرفت نسخة تازه‌ای از پایگاه با امکانات بیشتر و افزایش حجم داده‌ها تا ۳۵۰ میلیون واژه  در خردادماه ۱۳۹۸ رونمایی شد. ویژگی‌های پایگاه داده‌های زبان فارسی را می‌توان چنین برشمرد:

هدف

هدف از ایجاد پایگاه داده های زبان فارسی، فراهم كردن مجموعه‌ای از پیكره‌های زبان فارسی است كه باوجود حجم عظیمی از داده‌های گفتاری و نوشتاری از گونه‌های تاریخی، جغرافیایی و اجتماعی زبان فارسی با گستردگی و تنوع بسیار، دارای ساختاری  بسامان و منطقی باشد تا امكان هرگونه جستجو و دستیابی سریع به آگاهی‌های موردنیاز را درهرزمان فراهم نماید. پیكره‌های این پایگاه می‌توانند همواره گسترش یافته روزآیند گردند و پاسخگوی نیاز كاربران گوناگون در همة زمینه‌های نظری و كاربردی باشند.       

 

گسترة زبانی

 

در طراحی درازمدت طرح پیش‌بینی شده تا از همة گونه‌های گفتاری، نوشتاری، سبكی و كاربردی زبان فارسی و همة دوران‌های تحول آن نمونه‌هایی باشد. در نخستین مرحله با توجه به نیازها و اولویت‌های پژوهشی و كاربردی، برش فارسی معاصر از آغاز قرن چهاردهم خورشیدی تاکنون برگزیده شد و نمونه‌هایی از گونه‌های رسمی نوشتاری یا به‌اصطلاح فارسی معیار و گونة گفتاری آن، گونه‌های تاریخی، ادبی، سبكی و حرفه‌ای فارسی، گونه‌های محاوره‌ای و عامیانه، گونة کودکان، گونة خبری و روزنامه‌ای این دوران  در پایگاه قرار گرفت. در فازهای بعدی متن‌های شاخص دوران تاریخی زبان فارسی از قرن چهارم به‌بعد به پیکره‌های پیشین افزوده شد. قرار است پیکره‌هایی از دوران فارسی میانه و باستان نیز به پایگاه افزوده شود.

 

منابع گردآوری داده‌ها

باتوجه به تنوع گونه‌های یادشده، با روش‌های متفاوت و مناسب داده‌های موردنیاز فراهم شد. برای نمونه، کوشش شده در گونه‌های نوشتاری، معتبرترین نسخه یا نخستین نوبت چاپ آثار تایپ و ویرایش شود. برخی از منابع مانند متون روزنامه‌ای که حجم بسیار زیادی دارندو به‌صورت الکترونیکی قابل دستیابی‌اند یا بسیاری از مقالات علمی و تخصصی که از وبگاه نشریه قابل دریافت هستند، ازآنجاکه قالب‌های متفاوتی دارند، پس از دریافت یکسان‌سازی شده‌اند. اما گونه‌های گفتاری در چند مرحله ضبط و پیاده‌سازی و ویرایش شده، به‌صورت متن نوشتاری در پایگاه قرار گرفته‌اند. کوشش شده آثار مهم ادبی و نویسندگان سرشناس و بویژه صاحب‌سبك و تأثیرگذار گردآوری، درونداد و ساماندهی شود.ازجمله:

               - نمونه‌های شاخص نثر معاصر فارسی

               - نمونه‌های شاخص متون فارسی دوران پیشین فارسی (از قرن چهارم به‌بعد)  

               - نمونه های مهم متن های علمی و آموزشی

               - نمونه‌های كافی از مجله‌ها و نشریه‌های همه‌پسند و تخصصی با زمینه‌ها و موضوع‌های متنوع

               - مجموعه ای از كتاب‌های ویژة كودكان و نوجوانان

               - مجموعة کامل قوانین کشور

               - مجموعة بزرگی از متون روزنامه‌ای           

               - نمونه‌های ضبط‌شده از گونه‌های مهم گفتاری رسمی و غیررسمیِ فارسی معاصر و برخی از گونه‌ها و لهجه‌های آن

درونداد متن‌ها طی فرایندی طولانی و مراحل پیش‌ویرایش، یکسان‌سازی متن، درونداد به پایگاه، نمایه‌سازی، نشانه‌گذاری[3]، برچسب‌دهی[4] و تأیید نهایی صورت می‌‌گیرد.

تنها برای برچسب‌دهی خودکار متن‌های فارسی، در پژوهشی مستقل روشی نوین و نرم‌افزاری ابتکاری ایجاد شد که نخستین برنامة برچسب دهی خودکار دستوری برای متون فارسی است.

 

 كاربری‌های پایگاه:

 

انواع  جستجو  

               - جستجوی واژگانی (برپایة یك یا چندكلیدواژه)

               - جستجوی واژگانی (برپایة برچسب دستوری، آوایی یا معنایی)

               - جستجوی دسته‌ای از واژه‌ها برپایة بخشی از واژه

               - جستجوی کلی واژه‌های یک یا چند متن

               - جستجوی مفهومی (بر پایة مفهوم یا معنای موردنظر)

               - جستجوی همایند[5] (برپایه واژه‌های چندتایی[6] و یا بافت‌های همسایه)

               - گشت‌وگذار و جستجو در متن‌ها  

               این جستجوها را می‌توان در محدوده‌های دلخواه (مثلا دورة زمانی معین، یا نویسنده‌ای مشخص، یا حجم معینی از یک پیكره یا در پیکره‌های گوناگون) انجام‌داد. 

 

انواع گزارش‌ها

               گزارش‌های پایگاه به‌گونه‌های صوری و محتوایی مختلفی طراحی شده اند تا پاسخگوی نیازهای گوناگون باشند: 

               - به‌شكل فهرست‌های واژگانی، آماری و بسامدی

               - به‌شكل اطلاعات موردی

               - به‌شكل فرهنگ واژه‌نما (واژه موردنظر در شكل كاربردی آن همراه با اطلاعاتی درباره بافت زبانی آن مانند چند سطر جملة شاهد، شماره سطر و صفحة متن، نام نویسنده و مشخصات اثر، تاریخ كاربرد، بسامد در پیكره و مانند آن)

               -  به‌شكل گزیده‌هایی از متن‌های گوناگون

               -به‌شکل نمودار درختی تحلیل جمله‌های پیکره  

 

كاربران پایگاه

این پایگاه برای استفاده همة پژوهندگان زبان فارسی درنظر گرفته‌شده‌است، اما مراحل و سطوح  دستیابی آن متفاوت است. همه افراد می توانند با پرکردن درخواست اشتراک و ارسال آن، نام کاربری و گذرواژه دریافت کنند البته از نظر سطح دستیابی، افراد، گروه‌های پژوهشی و سازمان‌ها، دارای دامنه های مجاز متفاوتی خواهند بود. مثلاً  تنها مجریان و مدیران پایگاه می‌توانند در ساختار و محتوای داده‌ها تغییراتی بوجود آورند، اما برخی از گروه‌های پژوهشی ممكن است بتوانند به افزایش داده‌ها کمک کنند و دیگران تنها دریافت‌كنندة اطلاعات به‌شمارمی‌آیند. 

ازآن‌جاکه پایگاه داده‌های زبان فارسی نخستین پایگاه جامع و دربرگیرندة طیفی از پیکره‌های زبان فارسی با امکانات پردازش و ارائة خدمات و اطلاعات گوناگون است که بیش از بیست سال از آغاز ارائة خدمات آن می‌گذرد، شایسته است که همواره روزآیند گردیده، با توجه به کاربران پرشمار و نیازهای آنان، گسترة خدمات خود را افزایش دهد. به‌این منظور طرح ارتقاء و گسترش پایگاه داده‌های زبان فارسی نیز از سال ۱۳۹۷ به‌اجرا درآمد و گام‌های آغازین برای رسیدن به هدف‌های زیر برداشته شد:

  1. افزایش داده‌ها و گسترش دامنة آنها به دوران‌های میانه و باستانی زبان فارسی
  2. گردآوری، ساماندهی و ارائة مجموعه‌ای از اطلاعات و آگاهی‌های مربوط به زبان فارسی مانند:

-تاریخ زبان فارسی از باستان تا امروز (معتبرترین اثر)

-دستور زبان فارسی (معتبرترین نمونه‌ها)

-فرهنگ‌ها و واژه‌نامه‌های عمومی و تخصصی زبان فارسی

-نمونة خط‌های فارسی در دوران‌های گوناگون

-استانداردهای موجود مربوط به‌زبان فارسی (مصوبه‌های فرهنگستان‌ها دربارة واژگان، خط و نگارش و استانداردهای مصوب سازمان استاندارد و تحقیقات صنعتی ایران مرتبط با زبان فارسی).

  1. ارائه یا معرفی ابزارها و نرم‌افزارهای مستقل برای پردازش زبان فارسی مانند:

-ابزارهای درونداد و ویرایش متن فارسی (واژه‌پردازهای مناسب زبان فارسی)

-ابزارهای پردازش متن فارسی (جستجوگرها، واژه‌شمارها، واژه‌نامه‌های بسامدی، آماری،  باهمایی و چندتایی[7])

-ابزارهای یکسان‌سازی متن‌های فارسی، یکدست‌سازی کدها و کاراکترهای متون فارسی

-ابزارهای تبدیل کد متن،

-خطایاب‌های فارسی

-تقطیع‌گرها و تحلیل‌گرهای نحوی و نمودار درختی[8] برای جملات فارسی

-ابزارهای آوانگاری و برچسب‌زنی خودکار متن‌های فارسی

از بیستم خردادماه ۱۳۹۸ نسخة جدید این پایگاه از راه اینترنت در دسترس همگان قرار گرفت.

 

 

[1] Persian Linguistic Database (PLDB)

[2] off-line  

[3]  annotation

[4] tagging

[5] collocation

[6] N-Gram

[7] N-Grams

[8] Tree-banks

 

  • Persian Linguistic Database (PLDB): This is the first on-line database for the contemporary (Modern) Persian designed and developed by Dr. S. M. Assi at the Institute for Humanities and Cultural Studies (IHCS), Tehran, Iran. The database contains huge selected corpora of all varieties of the Modern Persian language in the form of running texts. Some of the texts are annotated with grammatical, pronunciation and lemmatization tags. A special and powerful software provides different types of search and statistical listing facilities through the whole database or any selective corpus made up of a group of texts. The database is constantly improved and expanded.