تحتفظ Google بقاعدة بيانات متعددة اللغات للغة المنشورة. من خلال فحص الكتب بشكل جماعي ، تتمكن Google من معالجة النص وتوفير تكرار يستند إلى البيانات الإحصائية لمظهر الكلمة. باستخدام أداة بحث Google Ngram Viewer ، يمكنك البحث من خلال هذه البيانات الإحصائية الضخمة بسرعة وفعالية. بمقارنة الشعبية النسبية للكلمات ، يمكنك تعيين كيفية تغير اللغة والثقافة مع مرور الوقت. يستطيع Ngram أن يفعل أكثر بكثير من مجرد الإبلاغ عن تردد الكلمة في مجموعة النصوص الضخمة من Google.
روابط سريعة
عمليات البحث الأساسية (1-grams)
1. اكتب كلمتك الرئيسية في مربع بحث Ngram.
2. إذا كنت تريد البحث عن كل الكتابة بالأحرف الكبيرة للكلمة ، فضع علامة في المربع “case-insensitive”. في هذا البحث ، سيرجع كل من “pizza” و “Pizza” في النتائج.
3. قم بتعيين معلمات البحث أسفل مربع البحث. وهذا يشمل النطاق الزمني ومجموعة اللغات.
يحدد التاريخ القيود على محور Y في الرسم البياني. اعتمادًا على المجموعة التي تختارها ، سيختلف الحد الأقصى والحد الأدنى للتواريخ على نطاق واسع.
تزيل قيمة التنعيم التموجات غير المعتادة والانخفاضات من بياناتك. وتكون قيم التمليس الأقل أكثر دقة ، بينما تكشف القيم الأعلى الاتجاهات الأعمق فقط.
اختيار Corpus
Corpus هي مجموعة النص التي سيدرسها برنامج Ngram Viewer. الافتراضي “الإنجليزية” مقبول للتصفح العرضي ، ولكن يمكن أن يكون أكاديمي للغاية.
“English Fiction” سوف تعكس اللغة المشتركة بشكل أوثق. يمكن أن تكون Corpus “الإنجليزية” القياسية ثقيلة غير خيالية ، مع الكثير من الكلمات التقنية. تقدم Google توضيحات مختصرة لما تحتويه كل مجموعة.
بحث متقدم (2- through 5-grams)
بإضافة كلمات بحث إضافية (“grams” ، بلغة محرك البحث) ، يمكنك إنشاء مقارنات معقدة عبر الوقت. يمكنك تحسين البحث باستخدام أوامر الكلمات الرئيسية مثل الوظائف المتقدمة في بحث Google.
فصل مصطلحات بحث متسلسلة بفاصلة.
سيعرض Ngram Viewer التكرار النسبي لعبارات بحثك في رسم بياني واحد. مرّر مؤشر الماوس فوق خطوط الرسم البياني للاطلاع على نقاط بيانات دقيقة.
البحث عن حرف البدل
استخدم العلامة النجمية (“*”) في عبارات البحث الخاصة بك كحرف بدل. على سبيل المثال ، فإن “Bachelor of *” سيؤدي إلى عرض النتائج الخاصة بالعديد من شهادات البكالوريوس.
تصريف البحث
للعثور على جميع أشكال وانعكاسات مصطلح ما ، قم بإلحاق الأمر النصي “_INF”. هذا يبحث عن كل انعكاس للكلمة المرفقة ، مثل مختلف أشكال “to be” في اللغة الإنجليزية.
أجزاء من الكلام
إذا تضمنت كلمة ما العديد من أجزاء الكلام ، فيمكنك إلحاق مشغلي النص لأن يكون محددًا. تتضمن أجزاء الكلمة الصحيحة في قاعدة بيانات Google جميع ما يلي:
- _ADJ_: صفة (سريع ، كبير ، ذكي)
- _ADV_: ظرف (بسرعة ، لاحقًا ، دائمًا)
- _PRON_: الضمير (هم ، هو ، نحن)
- _DET_: تحديد شيئ (a، an، the)
- _ADP_: (حروف الجر و postpositions)
- _NUM_: عدد (الأول والثاني والخامس)
- _CONJ_: الاقتران (و ، ولا ، ولكن)
- _PRT_: الجسيم ، وهي فئة نادرة ، نادرا ما تستخدم لوظائف الكلمة الأخرى
يمكن دمج كل من هذه grams في عبارات. على سبيل المثال ، “_ADJ_ boy” والذي سيرجع الزوج صفة + كلمات “الصبي”.
لتحديد جزء معين من الكلام لمصطلح بحث واحد ، أضفه إلى النهاية: بمعنى “water_VERB” ، بدون شرطة سفلية زائدة.
لتضمين كل جزء من الكلام لكلمة معينة ، استخدم مشغل حرف البدل بعد علامة الشرطة السفلية ، كما هو موضح أدناه.
استخدام المتغيرات الوظيفية
تتيح لك المتغيرات الوظيفية البحث عن الطريقة الوظيفة أو موضع الكلمات.
- _ROOT_ عنصرًا نائبًا للروت لتحليل الجملة ، عادة ما يكون هذا هو الموضوع الأساسي أو الكلمة التي تم تعديلها بواسطة الفعل.
- تشير _START_ إلى بداية الجملة (“_START_ President ” تُرجع فقط الجمل التي تبدأ بعبارة “الرئيس”).
- تشير _END_ إلى نهاية الجملة (“_ADP_ _END_” ترجع الجمل التي تنتهي بحروف الجر).
التراكب
من خلال الجمع بين مصطلحات البحث مع عوامل التشغيل الحسابية ، يمكنك إجراء تحليل رياضي بسيط مع قيم لتردد المدى:
- + يضيف تعبيرات متعددة في مصطلح بحث واحد
- – يطرح التعبير على اليمين من التعبير الموجود على اليسار ، مما يوفر طريقة سريعة لمقارنة الاستخدام النسبي لعبارة بحث.
- / يقسم التعبير على اليسار على التعبير على اليمين
- * يضاعف التعبير لمقارنة ngrams من تردد متنوعة على نطاق واسع. تأكد من وضع ngram بأكمله بين قوسين لتجنب عدم تحليل العلامة النجمية كحرف بدل.
- : يبحث عن ngram على اليسار داخل الجسم على اليمين
تبعيات
أخيرًا ، يمكنك تعيين التبعيات بـ “=>” للبحث في العلاقات اللغوية. “car => fast” سيؤدي إلى نتائج حيث “سريع” يعتمد بشكل نحوي على كلمة “سيارة” أو يعدلها. يمكن خلط هذا بحرية مع أي من عمليات البحث المتقدم.
الخلاصة
عند العمل مع Ngram ، يمكن أن يتعقّد بحثك بسرعة. بعض تقنيات البحث هذه تلعب بشكل جيد مع بعضها البعض ، بينما البعض الآخر غير متوافق. أفضل طريقة لمعرفة ما إذا كان هناك شيء يعمل هو مجرد محاولة ذلك. على سبيل المثال ، تكون علامة _INF مرنة للغاية ، بينما تكون _VERB من الصعب إرضاءها. ستتعرف بسرعة على المراوغات أثناء التعمق في مجموعة أدوات Ngram Viewer.