پیکره زبانی شامل متنهای پیوسته طبیعی است که بهصورت الکترونیکی ارائه میشود و میتوان از آن اطلاعاتی درباره عناصر زبانی استخراج کرد. پیکره، ابزار مناسبی برای جستجوی سریع اطلاعات در دادههای عظیم متنی است، لذا وجود پیکرههای تخصصی در هر حوزهی متنی، کمک شایانی به انجام پژوهشهای علمی میکند. پیکرههای زبانی کاربردهای فراوانی در حوزههای مختلف زبانشناسی دارند. استفاده از پیکره در پردازش زبان طبیعی، فرهنگنگاری، پژوهشهای مرتبط با پیگیری تحولات زبانی و استخراج اطلاعات خاص زبانی نمونهای از این کاربردها هستند. در این پژوهش، پیکرهی عظیم مقالات علمی-پژوهشی اعضای هیات علمی دانشگاه فردوسی مشهد شامل مقالات اعضای هیاتعلمی گروههای آموزشی زبان و ادبیات فارسی، زبان و ادبیات عربی، زبان فرانسه، زبان انگلیسی، زبان روسی، زبانشناسی، علوم اجتماعی، جغرافیا، تاریخ، مهندسی کامپیوتر، مهندسی برق، مهندسی مکانیک، مهندسی عمران، مهندسی شیمی، مهندسی متالورژی و مواد، مهندسی صنایع، اقتصاد کشاورزی، بیوتکنولوژی وبه نژادی گیاهی، مکانیک بیوسیستم، علوم خاک، اگروتکنولوژی، علوم باغبانی و مهندسی فضای سبز، علوم دامی، علوم و صنایع غذایی، گیاهپزشکی، علوم مهندسی آب، فلسفه و حکمت اسلامی، فقه و مبانی حقوق اسلامی، علوم قرآن و حدیث، تاریخ و تمدن اسلامی، ادیان و عرفان تطبیقی، معارف اسلامی، حقوق جزا و جرمشناسی، حقوق خصوصی، علوم سیاسی، علوم پایه، پاتوبیولوژی، بهداشت مواد غذایی و آبزیان، علوم درمانگاهی، بهداشت و پیشگیری از بيماري های دامی، فیزیک، شیمی، زمینشناسی، زیستشناسی، اقتصاد، مدیریت، حسابداری، روانشناسی، روانشناسی مشاوره و تربیتی، علم اطلاعات و دانش شناسی، مبانی تعلیم و تربیت، مدیریت آموزشی و توسعه منابع انسانی، مطالعات برنامه درسی و آموزش، آمار، رفتار حرکتی و مدیریت ورزشی، فیزیولوژی ورزشی و آسیبشناسی، ورزش و حرکات اصلاحی، تربیتبدنی و علوم ورزشی، معماری، شهرسازی، محیط زیست، مرتع و آبخیزداری، مدیریت مناطق خشک و بیابانی، علوم و مهندسی شیلات، و مهندسی طبیعت ساخته شده است. برای ایجاد پیکره، ابتدا نرمافزار پیکرهساز طراحی و ساخته شد. این نرمافزار از قابلیت پردازش فایلهای متنی با فرمتهای RTF، docx، doc، txt و pdf برخوردار است. پس از گردآوری مجموعه مقالات اعضای هیاتعلمی دانشگاه فردوسی مشهد، تمامی محتوای متنی موجود در پیکره به جملات تشکیلدهندهی آن تجزیه و در قالب فایلهای مجزا ذخیره شد. پس از گردآوری مجموعه مقالات علمی-پژوهشی اعضای هیات علمی دانشگاه فردوسی مشهد در دو گروه علوم انسانی و مهندسی، تمامی محتوای متنی موجود در پیکره به جملات تشکیلدهندهی آن تجزیه و در قالب فایلهای مجزا ذخیره شد. سپس با استفاده از نرمافزار پیکرهساز طراحی شده، دادهها از نظر مقولههای گفتار شامل اسم، فعل، صفت، حرف اضافه و قید برچسبگذاری شد. در نهایت، خروجی اصلی و برچسب خورده به دست آمد که امکان جستجوی سریع تمام مطالب در آن وجود دارد. علاوه بر امکان استخراج اطلاعات بهطور مستقیم، اطلاعات از طریق یک واسط کاربری گرافیکی نیز قابل دسترسی هستند. این واسط کاربری جهت استفادهی افراد غیرحرفهای از پیکره طراحی شده است. در نسخهی 1، مجموع مقالهها مشتمل بر ۱۱۰۰ عنوان است. دقت برچسبگذاری پیکره ۹۶٪ است. پیکرهی ساخته شده قابلیت بسیار بالایی در دادهکاوی و انجام پژوهش بر روی متون علمی دارد. این پیکره قادر به برچسبگذاری مقولات، ریشه¬¬یابی کلمات، و تجزیه آنها میباشد. با استفاده از این پیکره میتوان علاوه بر امکان جستجوی تکواژهها یا عبارات، میتوان فهرست بسامدی واژگان را از پیکره استخراج کرد و توصیفی دادهمحور از نحوهی کاربرد زبان توسط گروههای مختلف کاربران زبانی ارائه داد. تولید پیکره زبانی آکادمیک فردوسی، راه را برای بسیاری از پژوهشهای زبانی در حوزههای مختلف از جمله زبانشناسی رایانشی، زبانشناسی اجتماعی، و تحلیل متن هموار میکند و موجب کاهش زمان و هزینه و بالا بردن دقت در پژوهشهای آتی میشود.
Linguistic corpora consist of natural continuous texts presented electronically, from researchers can extract information about linguistic elements. A corpus is a useful tool for quick search of information in large textual data, and is also a helpful instrument for conducting scientific research. Linguistic corpora have many applications in the various fields of linguistics. Some of the most important uses of corpus include natural language processing, uses in lexicography, tracking language developments, and extracting specific linguistic information. The purpose of this project was to construct an academic linguistic corpus encompassing research articles. The articles encoded in this corpus are those written by faculty members of Ferdowsi University of Mashhad in the fields of Humanities, Engineering, Science, and Agricultural Science. To create the corpus, an encoding software was first designed and created. This software supports a variety of formats including doc, docx, RTF, txt, and pdf. Then, research articles written by faculty members of Ferdowsi University of Mashhad from the two fields of humanities and engineering sciences were collected. The whole corpus was divided into separate files and then subdivided into its constituent sentences. Next, using the designed corpus software, the data were labeled in terms of part of speech categories including noun, verb, adjective, preposition, and adverb. Finally, the main tagged output was obtained. This tagged output allows for quick search in the content. In addition to the ability to extract information directly, we developed a simple interface for non-technical users to interact with the data. This user interface is designed for non-professionals to use the corpus. It should be noted that the present corpus is an open corpus and can be updated. Version 1.0 contains over 1100 research articles. The accuracy of the corpus labeling is 96%. The constructed corpus has a very high capacity and can be used for data mining and use in all research conducted in the academic genre. This corpus is able to label categories, trace words, and parse them. Using this corpus, one can extract a data-driven description of how different groups of academic members use language by referring to frequency lists of words and multiple concordances of words and phrases in several domains. Ferdowsi Annotated Academic Linguistic Corpus paves the way for many types of linguistic research in various fields such as computational linguistics, social linguistics, text analysis, etc., and reduces time and cost and increases the accuracy of future research.
Sample data:
1 نتایج نتیجه ADR EXAJ 56296-184389-1-SM#SenID=7 - - - -
2 تجزیه تجزیه N IANM 56296-184389-1-SM#SenID=7 - - - -
3 واریانس واریانس N AJCM 56296-184389-1-SM#SenID=7 - - - -
4 طی طی PREP PREP 56296-184389-1-SM#SenID=7 - - - -
5 دوسال دوسال N RECPR 56296-184389-1-SM#SenID=7 - - - -
6 آزمایش آزمایش N IANM 56296-184389-1-SM#SenID=7 - - - -
7 داد داد V ACT 56296-184389-1-SM#SenID=7 - - - -
8 که که SUBR SUBR 56296-184389-1-SM#SenID=7 - - - -
9 اثر اثر N IANM 56296-184389-1-SM#SenID=7 - - - -
10 منابع منبع N IANM 56296-184389-1-SM#SenID=7 - - - -
11 مختلف مختلف ADJ AJP 56296-184389-1-SM#SenID=7 - - - -
12 تغذیه تغذیه N IANM 56296-184389-1-SM#SenID=7 - - - -
13 ای ای V ACT 56296-184389-1-SM#SenID=7 - - - -
14 و و CONJ CONJ 56296-184389-1-SM#SenID=7 - - - -
15 سطوح سطح N IANM 56296-184389-1-SM#SenID=7 - - - -
16 آب آب N IANM 56296-184389-1-SM#SenID=7 - - - -
17 آبیاری آبیاری N IANM 56296-184389-1-SM#SenID=7 - - - -
18 بر بر PREP PREP 56296-184389-1-SM#SenID=7 - - - -
19 ارتفاع ارتفاع N IANM 56296-184389-1-SM#SenID=7 - - - -
20 بوته بوته N ACT 56296-184389-1-SM#SenID=7 - - - -
21 ، ، PUNC PUNC 56296-184389-1-SM#SenID=7 - - - -
22 طول طول N IANM 56296-184389-1-SM#SenID=7 - - - -
23 سرشاخه سرشاخ N IANM 56296-184389-1-SM#SenID=7 - - - -
24 گلدار گل ADJ AJP 56296-184389-1-SM#SenID=7 - - - -
25 ، ، PUNC PUNC 56296-184389-1-SM#SenID=7 - - - -
26 تعداد تعداد N IANM 56296-184389-1-SM#SenID=7 - - - -
27 غوزه غوزه N AJCM 56296-184389-1-SM#SenID=7 - - - -
28 در در PREP PREP 56296-184389-1-SM#SenID=7 - - - -
29 بوته بوته N IANM 56296-184389-1-SM#SenID=7 - - - -
30 ، ، PUNC PUNC 56296-184389-1-SM#SenID=7 - - - -
31 وزن وزن N IANM 56296-184389-1-SM#SenID=7 - - - -
32 کاسبرگ کاسبرگ N POSNUM 56296-184389-1-SM#SenID=7 - - - -
33 خشک خشک ADJ AJP 56296-184389-1-SM#SenID=7 - - - -
34 در در PREP PREP 56296-184389-1-SM#SenID=7 - - - -
35 بوته بوته N IANM 56296-184389-1-SM#SenID=7 - - - -
36 ، ، PUNC PUNC 56296-184389-1-SM#SenID=7 - - - -
37 عملکرد عملکرد N IANM 56296-184389-1-SM#SenID=7 - - - -
38 کاسبرگ کاسبرگ N ACT 56296-184389-1-SM#SenID=7 - - - -
39 ، ، PUNC PUNC 56296-184389-1-SM#SenID=7 - - - -
40 عملکرد عملکرد N IANM 56296-184389-1-SM#SenID=7 - - - -
41 زیست زیست N IANM 56296-184389-1-SM#SenID=7 - - - -
42 توده توده N IANM 56296-184389-1-SM#SenID=7 - - - -
43 ، ، PUNC PUNC 56296-184389-1-SM#SenID=7 - - - -
44 فعالیت فعالیت N IANM 56296-184389-1-SM#SenID=7 - - - -
45 آنتیآکسیدانی آنتیآکسیدانی N ANM 56296-184389-1-SM#SenID=7 - - - -
46 و و CONJ CONJ 56296-184389-1-SM#SenID=7 - - - -
47 میزان میزان N IANM 56296-184389-1-SM#SenID=7 - - - -
48 آنتوسیانین آنتوسیانین N PRADR 56296-184389-1-SM#SenID=7 - - - -
49 کاسبرگ کاسبرگ N PSUS 56296-184389-1-SM#SenID=7 - - - -
50 معنیدار معنیدار ADJ INTG 56296-184389-1-SM#SenID=7 - - - -
51 بود بود#باش V ACT 56296-184389-1-SM#SenID=7 - - - -
52 . . PUNC PUNC 56296-184389-1-SM#SenID=7 - - - -
For more information, please visit our paper in the journal of Library and Information Sciences (LIS)