سینا ترجمه: در این مقاله، با سازوکار تشخیص سرقت علمی در مقالات فارسی آشنا میشوید. از تعریف سرقت علمی و چالشهای زبانی تا بررسی تخصصی سامانههای ایرانی مانند همتاجو و سمیم نور، روشهای مقایسه، دقت الگوریتمها و راهکارهای پیشگیری از مشابهت غیرمجاز در متون علمی فارسی را بررسی میکنیم.
در عصر دیجیتال که علم با سرعتی بیسابقه در حال تولید و انتشار است، حفظ اصالت محتوا به یکی از بزرگترین چالشهای پژوهش تبدیل شده است. سرقت علمی یا Plagiarism نه تنها اعتبار پژوهشگر را زیر سوال میبرد بلکه سبب رکود اعتماد علمی در جامعه دانشگاهی میشود.
در کشورهای انگلیسیزبان، دهها ابزار بینالمللی مانند Turnitin و iThenticate در تشخیص مشابهت متنی استفاده میشوند، اما برای مقالات فارسی مدتها جای خالی سامانههای مؤثر احساس میشد. ظهور پروژههایی مانند همتاجو و سمیم نور این شکاف را تا حد زیادی پر کرده است؛ ابزارهایی بومی که ساختار زبانی و نحوی پیچیدهی زبان فارسی را در نظر میگیرند.
پیش از بررسی سامانههای موجود، لازم است مفهوم دقیق سرقت علمی را مرور کنیم. سرقت علمی فراتر از کپیکردن متن است؛ هرگونه استفاده از اثر علمی دیگران بدون اشاره یا منبعدهی صحیح، مصداق سرقت علمی است.

کپی مستقیم: استفاده از جملات یا پاراگرافهای دیگران بدون نقل قول.
بازنویسی غیر معتبر: تغییر واژگان اما حفظ ساختار جملات اصلی.
خودسرقت علمی: استفاده از آثار قبلی خودِ پژوهشگر بدون اعلام منبع.
ترکیب چند منبع: ادغام اطلاعات از چند مقاله بدون ذکر منبع دقیق.
سرقت دادهها یا ایدهها: استفاده از نتایج یا فرضیات پژوهشگران دیگر بدون ارجاع.
زبان فارسی دارای ویژگیهایی است که آن را از زبانهای اروپایی متمایز میکند:
صرف و نحو پیچیده: تغییرات گسترده در ساختار واژگان باعث میشود الگوریتمهای سادهی مبتنی بر کلمه نتوانند تشابه معنایی را تشخیص دهند.
تعدد معادلهای واژگان: «دانشجو»، «شاگرد»، «متعلم» یا «طالب علم» از نظر معنا نزدیکاند ولی از دید سامانهای که صرفاً مبتنی بر تطبیق واژه است، تفاوت دارند.
کمبود منابع زبانی پردازشپذیر: تا چند سال پیش پیکرههای بزرگ متنی فارسی مانند «پیکره همشهری» محدود بودند و داده کافی برای یادگیری ماشین در دسترس نبود.
به همین دلیل، تشخیص سرقت علمی در متون فارسی نیازمند سامانههایی با درک زبانی عمیقتر و الگوریتمهای معنایی است.

همتاجو (HemtaJoo) یکی از نخستین سامانههای بومی برای مقابله با سرقت علمی در ایران است که توسط جمعی از متخصصان زبانشناسی رایانهای و تحلیل متن توسعه یافته است.
پوشش گسترده منابع فارسی: شامل مقالات نشریات، پایاننامههای دانشگاهی و محتوای وب فارسی.
الگوریتم تطبیق ترکیبی: همتاجو از روشهای Token-based matching و semantic similarity استفاده میکند؛ یعنی علاوه بر شباهت واژگان، معنی جمله نیز بررسی میشود.
گزارش درصد مشابهت و منابع اصلی: خروجی سیستم درصدی از شباهت و لینک به متون مشابه را ارائه میدهد.
پشتیبانی از بازنویسی و ترجمه: قابلیت تشخیص مشابهت در ترجمههای نزدیک (مثلاً ترجمه ماشینی از انگلیسی به فارسی).
کاربرد آموزشی: بسیاری از دانشگاهها از همتاجو به عنوان ابزار غربالگری اولیه برای پایاننامهها استفاده میکنند.
✅ نقطه قوت: دقت در تشخیص مشابهت مفهومی و تحتاللفظی
❌ نقطه ضعف: گاهی در متون تخصصی رشتههای فنی دقت کاهش مییابد، چون اصطلاحات خاص بهدرستی در پیکره زبانی وجود ندارد.
سمیم نور زیرمجموعهی مؤسسهی نور قم است و یکی از پیشرفتهترین موتورهای تحلیل متون فارسی بهشمار میرود.
پردازش معنایی عمیق: استفاده از پایگاه معنایی مصنوعات زبانی مؤسسه نور برای تحلیل واژگان و روابط نحوی.
تطبیق چندلایه: مقایسه در سطح واژه، عبارات و جملات.
اتصال به پایگاههای علمی نورمگز و گنجینه پایاننامهها: موجب گسترش منبع مقایسه تا چند میلیون سند علمی فارسی.
گزارش بصری کامل: بخشهای مشابه در متن ورودی با رنگ مشخص میشوند تا کاربر بتواند تفاوت و مشابهت را بهصورت دیداری بررسی کند.
استفاده از یادگیری ماشین: در نسخههای جدید، سمیم نور از شبکههای عصبی عمیق برای درک معنایی تطبیق بهره میگیرد.
✅ دقت بالا در متون علوم انسانی و الهیات (به دلیل تمرکز منبع متنی نور)
❌ پوشش محدودتر متون علوم مهندسی و پزشکی نسبت به پایگاههای عمومی.
ویژگی | همتاجو | سمیم نور |
نوع الگوریتم | شباهت واژگانی + معنایی | تحلیل معنایی عمیق |
منبع داده | متون عمومی و دانشگاهی | پایگاههای نورمگز و پژوهشهای علمی فارسی |
دقت در علوم فنی | متوسط | پایینتر |
دقت در علوم انسانی | خوب | عالی |
رابط کاربری | ساده و آموزشی | پیشرفته و تحلیلی |
خروجی گزارش | درصد مشابهت و لینک منابع | گزارش رنگی بخشهای متن |
فرآیند بررسی معمولاً شامل مراحل زیر است:
آپلود فایل یا ثبت متن مقاله.
تجزیه به واحدهای متنی (جملات، بندها، عبارات کلیدی).
مقایسه با پایگاه دادهها و محاسبهی شباهت بر اساس الگوریتمهای زبانی.
ارائه گزارش مشابهت با درصد و منابع دقیق.
تحلیل دستی توسط کاربر (استاد یا داور).
سامانههای فارسی برخلاف نسخههای انگلیسی معمولاً سرعت پایینتری دارند زیرا حجم پردازش معنایی بالاست.

گاهی پژوهشگران برای بررسی مقاله فارسی ترجمهشده، از ابزارهای بینالمللی نیز بهره میگیرند:
Turnitin: مناسب برای متون انگلیسی، ولی در فارسی کارایی کم دارد.
PlagScan و Grammarly: قابل استفاده برای محتوای ترکیبی انگلیسی-فارسی.
Copyleaks: نسخهای با پشتیبانی محدود از فارسی.
ترکیب همتاجو یا سمیم نور با ابزارهای بینالمللی میتواند دقت ارزیابی را افزایش دهد.

گسترش پیکرههای متنی علمی: توسعه پیکرههای فارسی باز (Open Corpus) ضرورت دارد.
دقت معنایی هوش مصنوعی فارسی: شبکههای عصبی زبانی فارسی مانند “ParsBERT” باید بیشتر با دادههای علمی تغذیه شوند.
یکپارچگی دانشگاهی: اگر تمام دانشگاهها از یک سیستم واحد استفاده کنند، استاندارد تشخیص مشابهت یکدست خواهد بود.
آموزش اخلاق پژوهش: نرمافزارها فقط ابزارند؛ آموزش اخلاق پژوهش مهمترین بخش پیشگیری است.
سامانههای تشخیص سرقت علمی فارسی گامی بزرگ در حرفهایتر شدن پژوهش علمی ایراناند. همتاجو با گسترهی عمومیتر و سمیم نور با تحلیل معنایی عمیق، هر یک بخشی از نیاز جامعه علمی را برطرف کردهاند. آینده این حوزه وابسته به توسعهی فناوریهای هوش زبانی فارسی و همکاری مؤسسات پژوهشی برای ایجاد استاندارد ملی تشخیص مشابهت است.

موسسه سینا ترجمه با ارائه خدمات حرفهای در زمینه بازنویسی (پارافریز) و تهیه گزارشهای مربوط به سرقت ادبی (پلاجیاریسم)، گزینهای مناسب برای ارتقاء کیفیت محتوای شماست. تیم متخصصین ما متنهای شما را به نحوی خلاقانه و با حفظ کامل مفهوم اصلی، بازنویسی کرده و متنی روان و یکپارچه به شما ارائه میدهند. علاوه بر این، ما گزارشهای دقیقی از میزان سرقت ادبی موجود در متنهای شما تهیه میکنیم که به شما کمک میکند تا با آگاهی کامل، اصلاحات لازم را انجام دهید. خدمات ما به گونهای طراحی شده که نیازهای خاص شما را پوشش دهد، چه قصد ارسال مقاله به یک نشریه علمی معتبر داشته باشید و چه برای یک پروژه به گزارش نیاز داشته باشید. در موسسه سینا ترجمه، ما بر این باوریم که کیفیت و دقت در کار، عامل اصلی موفقیت شماست؛ بنابراین، میتوانید با اطمینان از خدمات ما بهرهمند شوید و محتوای با کیفیت و بدون سرقت ادبی را ارائه کنید.
جهت ثبت سفارش گزارش پارافریز و پارافریز متون و یا مقاله میتوانید از طریق لینک زیر اقدام نمایید و یا با کارشناسان ما از طریق تماس، ایمیل و شبکههای مجازی (واتساپ، تلگرام و اینستاگرام) در ارتباط باشید.

راههای ارتباطی با ما
منبعدهی دقیق، نقلقول صحیح و استفاده از ابزارهای تشخیص مشابهت پیش از ارسال مقاله برای داوری.
خیر، نسخه دانشگاهی رایگان است ولی نسخه سازمانی برای نشریات و مراکز پژوهشی دارای هزینه اشتراک است.
در متون عمومی و پایاننامهها حدود 70 تا 85٪ دقت دارد، ولی در متون تخصصی کمتر است.