So kratzen Sie Webseiten mit Node.js und jQuery ab

Node.js wächst schnell; Einer der Hauptgründe dafür ist den Entwicklern zu verdanken, die erstaunliche Tools entwickeln, die die Produktivität mit Node erheblich verbessern. In diesem Artikel werden wir die grundlegende Installation von Express, ein Entwicklungsframework, durcharbeiten und ein Basisprojekt damit erstellen.


Was wir heute bauen werden

Node ist im Design ähnlich und wird von Systemen wie Rubys Event Machine oder Python's Twisted beeinflusst. Node führt das Ereignismodell ein wenig weiter aus - es präsentiert die Ereignisschleife als Sprachkonstrukt statt als Bibliothek.

In diesem Lernprogramm kratzen wir die YouTube-Startseite ab, erhalten alle Miniaturansichten in normaler Größe sowie Link- und Videodauerzeit, senden diese Elemente an eine jQueryMobile-Vorlage und geben die Videos mit YouTube Embed ein nette Arbeit beim Erkennen der Unterstützung von Gerätemedien (Flash / HTML5-Video).

Wir werden auch lernen, wie man mit der Anwendung beginnt npm und ausdrücken, npm's Modulinstallationsprozess, einfaches Express-Routing und die Verwendung von zwei Modulen von Node: anfordern und Jsdom.

Diejenigen von Ihnen, die mit Node.js noch nicht vertraut sind und wie Sie sie installieren, finden Sie auf der Homepage von node.js
und die npm GitHub-Projektseite.

Sie sollten sich auch auf unsere Serie "Node.js: Step by Step" beziehen.

Hinweis: Dieses Tutorial setzt voraus, dass Sie wissen, was Node.js ist und dass Sie bereits node.js und npm installiert haben.


Schritt 1: Express einrichten

Was genau ist Express? Nach Angaben der Entwickler ist es ein…

Wahnsinnig schnelles (und kleines) serverseitiges JavaScript-Webentwicklungs-Framework, das auf Node und Connect basiert.

Klingt cool, richtig? Verwenden wir npm, um express zu installieren. Öffnen Sie ein Terminalfenster und geben Sie den folgenden Befehl ein:

npm install express -g

Durchgehen -G Als Parameter für den Installationsbefehl weisen wir npm an, das Modul global zu installieren.

Ich benutze / home / knotenserver / nettuts In diesem Beispiel können Sie jedoch alles verwenden, was Sie möchten.

Nachdem wir unser Express-Projekt erstellt haben, müssen wir npm strukturieren, um die Abhängigkeiten von Express zu installieren.

cd nodetube npm install -d

Wenn es mit "ok" endet, können Sie loslegen. Sie können jetzt Ihr Projekt ausführen:

Knoten app.js

Wechseln Sie in Ihrem Browser zu http: // localhost: 3000.


Schritt 2: Erforderliche Module installieren

JSDOM

Eine JavaScript-Implementierung des W3C-DOM.

Gehen Sie zurück zu Ihrem Terminal und installieren Sie, nachdem Sie Ihren aktuellen Server (Strg + C) gestoppt haben Jsdom:

npm install jsdom

Anfordern

Vereinfachte HTTP-Anforderungsmethode.

Geben Sie Folgendes in das Terminal ein:

npm Installationsanforderung

Jetzt sollte alles eingerichtet sein. Nun ist es an der Zeit, sich mit dem eigentlichen Code auseinanderzusetzen!


Schritt 3: Erstellen eines einfachen Schabers

app.js

Lassen Sie uns zunächst alle unsere Abhängigkeiten einschließen. Öffne dein app.js Datei und fügen Sie in den allerersten Zeilen folgenden Code an:

/ ** * Modulabhängigkeiten. * / var express = required ('express'), jsdom = required ('jsdom'), request = required ('request'), URL = required ('url'), app = module.exports = express.createServer () ;

Sie werden feststellen, dass Express Code für uns erstellt hat. Was Sie in sehen app.js ist die grundlegendste Struktur für einen Knotenserver, der Express verwendet. In unserem vorherigen Codeblock haben wir Express aufgefordert, unsere kürzlich installierten Module aufzunehmen: Jsdom und anfordern. Außerdem enthalten wir das URL-Modul, mit dessen Hilfe wir die Video-URL analysieren können, die wir später von YouTube scrape.

Youtube.com kratzen

Innerhalb app.js, Suchen Sie nach dem Abschnitt "Routen" (um Zeile 40) und fügen Sie den folgenden Code hinzu (lesen Sie die Kommentare durch, um zu verstehen, was los ist):

app.get ('/ nodetube', function (req, res) // Teilen Sie der Anfrage mit, dass Sie youtube.com abrufen möchten, und senden Sie die Ergebnisse an eine Callback-Funktionsanforderung (uri: 'http://youtube.com.) ', function (err, response, body) var self = this; self.items = new Array (); // Ich habe das Gefühl, meine Ergebnisse in einem Array speichern zu wollen. // Nur eine grundlegende Fehlerprüfung if (err && response.statusCode! == 200) console.log ('Request error.'); // Sende den body-Parameter als HTML-Code, den wir in jsdom analysieren werden. // Außerdem wird jsdom angewiesen, in den Scripts jQuery anzuhängen und geladen von jQuery.com jsdom.env (html: body, scripts: ['http://code.jquery.com/jquery-1.6.min.js'], function (err, window) // Nur jQuery verwenden wie in einer regulären HTML-Seite var $ = window.jQuery; console.log ($ ('title'). text ()); res.end ($ ('title'). text ()););) ;);

In diesem Fall holen wir den Inhalt von der YouTube-Startseite ab. Sobald der Vorgang abgeschlossen ist, drucken wir den im Titel-Tag der Seite enthaltenen Text (). Kehren Sie zum Terminal zurück und führen Sie Ihren Server erneut aus.</p> <pre>Knoten app.js</pre> <p>In Ihrem Browser gehen Sie zu: <code>http: // localhost: 3000 / nodetube</code></p> <img src="//accentsconagua.com/img/images_26/how-to-scrape-web-pages-with-nodejs-and-jquery_5.png"> <p>Sie sollten "YouTube - Broadcast Yourself" sehen, der Titel von YouTube. </p> <p>Nun, da wir alles eingerichtet und ausgeführt haben, ist es an der Zeit, einige Video-URLs zu erhalten. Gehen Sie zur YouTube-Startseite und klicken Sie mit der rechten Maustaste auf ein beliebiges Miniaturbild im Bereich "empfohlene Videos". Wenn Sie Firebug installiert haben (was sehr zu empfehlen ist), sollten Sie etwa Folgendes sehen:</p> <img src="//accentsconagua.com/img/images_26/how-to-scrape-web-pages-with-nodejs-and-jquery_6.png"> <p>Es gibt ein Muster, das wir identifizieren können und das in fast allen anderen normalen Videolinks vorhanden ist:</p> <pre>div.vide-entry span.clip</pre> <p>Konzentrieren wir uns auf diese Elemente. Gehen Sie zurück zu Ihrem Editor und in <code>app.js</code>, Fügen Sie dem folgenden Code hinzu <code>/ nodetube</code> Route:</p> <pre>app.get ('/ nodetube', function (req, res) // Teilen Sie der Anfrage mit, dass Sie youtube.com abrufen möchten, und senden Sie die Ergebnisse an eine Callback-Funktionsanforderung (uri: 'http://youtube.com.) ', function (err, response, body) var self = this; self.items = new Array (); // Ich habe das Gefühl, meine Ergebnisse in einem Array speichern zu wollen. // Nur eine grundlegende Fehlerprüfung if (err && response.statusCode! == 200) console.log ('Request error.'); // Senden Sie den body-Parameter als HTML-Code, den wir in jsdom analysieren werden. // weisen Sie jsdom außerdem an, jQuery in das Skript jsdom anzuhängen. env (html: body, scripts: ['http://code.jquery.com/jquery-1.6.min.js'], function (err, window) // Verwenden Sie jQuery wie in jeder normalen HTML-Seite var $ = window.jQuery, $ body = $ ('body'), $ videos = $ body.find ('. video-entry'); // Ich weiß, dass .video-entry-Elemente die Thumbnails in regulärer Größe enthalten, // für Jedes der .video-entry-Elemente fand $ videos.each (Funktion (i, item) // Ich werde reguläre jQuery-Selektoren verwenden. var $ a = $ (item) .children ('a'), // erster Anker Element welches sind Kinder unseres .video-Eintrags $ title = $ (item) .find ('. video-title .video-long-title'). text (), // Videotitel $ time = $ a.find (' .video-time '). text (), // videodauer time $ img = $ a.find (' span.clip img '); // thumbnail // und füge all diese Daten meinem items -Array hinzu self.items [i] = href: $ a.attr ('href'), title: $ title.trim (), time: $ time, // Bei youtube-Video-Miniaturansichten gibt es einige Dinge. Die Bilder, deren data-thumb-Attribut // definiert ist, verwenden die URL in dem zuvor genannten Attribut als "src" für das Vorschaubild. otheriwse // verwendet das standardmäßig bereitgestellte src-Attribut. Vorschaubild: $ img.attr ('data-thumb')? $ img.attr ('data-thumb'): $ img.attr ('src'), urlObj: url.parse ($ a.attr ('href'), true) // analysieren unsere URL und die Abfragezeichenfolge als Gut ; ); // Mal sehen, was wir haben console.log (self.items); res.end ('Done'); ); ); );</pre> <p>Es ist Zeit, unseren Server erneut zu starten und die Seite in unserem Browser neu zu laden (http: // localhost: 3000 / nodetube). In Ihrem Terminal sollten Sie etwa Folgendes sehen:</p> <img src="//accentsconagua.com/img/images_26/how-to-scrape-web-pages-with-nodejs-and-jquery_7.png"> <p>Das sieht gut aus, aber wir brauchen eine Möglichkeit, unsere Ergebnisse im Browser anzuzeigen. Dafür verwende ich die Jade-Template-Engine:<br></p><blockquote> <p> Jade ist eine Hochleistungsvorlagen-Engine, die stark von Haml beeinflusst wurde, aber mit JavaScript für Node implementiert wurde.</p> </blockquote> <p>Öffnen Sie in Ihrem Editor <code>Ansichten / Layout.jade</code>, Dies ist die grundlegende Layoutstruktur, die beim Rendern einer Seite mit Express verwendet wird. Es ist schön, aber wir müssen es ein bisschen ändern.</p> <h3>Ansichten / Layout.jade</h3> <pre>!!! 5 html (lang = 'en') head meta (charset = 'utf-8') meta (name = 'viewport', content = "initial-scale = 1, maximum-scale = 1") title = title link (rel = 'stylesheet', href = "http://code.jquery.com/mobile/1.0b3/jquery.mobile-1.0b3.min.css") Skript (src = 'http: //code.jquery.com/ jquery-1.6.2.min.js ') Skript (src =' http: //code.jquery.com/mobile/1.0b3/jquery.mobile-1.0b3.min.js ') body! = body</pre> <p>Wenn Sie den obigen Code mit dem Standardcode in vergleichen <code>layout.jade</code>, Sie werden feststellen, dass sich ein paar Dinge geändert haben - doctype, das Viewport-Meta-Tag, der Stil und die Skript-Tags, die von jquery.com bereitgestellt werden. Erstellen wir unsere Listenansicht:</p> <h3>ansichten / liste.jade</h3> <p>Bevor Sie beginnen, lesen Sie bitte die Dokumentation zu jQuery Mobile (ab jetzt JQM) zu Seitenlayouts und Anatomie.</p> <p>Die Grundidee besteht darin, für jedes Element innerhalb der Listenansicht eine JQM-Listenansicht, eine Miniaturansicht, einen Titel und eine Videodauer-Bezeichnung sowie einen Link zu einer Videoseite für jedes der aufgelisteten Elemente zu verwenden.</p> <p><strong>Hinweis:</strong> Seien Sie vorsichtig mit der Einrückung, die Sie in Ihren Jade-Dokumenten verwenden, da nur Leerzeichen oder Tabulatoren zulässig sind, nicht jedoch beide in demselben Dokument.</p> <pre>div (data-role = 'page') header (data-role = 'header') h1 = title div (data-role = 'content') // Nur eine Grundüberprüfung, wir werden zwar immer Elemente von youtube haben - if ( items.length) // Erzeuge einen Listview-Wrapper ul (data-role = 'listview') // foreach der gesammelten Elemente - items.forEach (function (item) // Erzeuge ein // und einen Link mit unserem übergeben urlObj Objekt a (href = '/ watch /' + item ['urlObj'].) query.v, title = item ['title']) // und ein Miniaturbild img (src = item ['thumbnail'], alt = "Thumbnail") // Titel und Zeitmarke h3 = item ['title'] h5 = item ['time'] -)</pre> <p>Das ist alles, was wir brauchen, um unsere Liste zu erstellen. Zurückkommen zu <code>app.js</code> und ersetzen Sie den folgenden Code:</p> <pre> // Mal sehen, was wir haben console.log (self.items); res.end ('Done');</pre> <p>mit diesem:</p> <pre> // Wir haben alles, wofür wir gekommen sind, jetzt lasst uns unsere Ansicht rendern. Res.render ('list', title: 'NodeTube', items: self.items);</pre> <p>Starten Sie Ihren Server noch einmal neu und laden Sie Ihren Browser neu:</p> <img src="//accentsconagua.com/img/images_26/how-to-scrape-web-pages-with-nodejs-and-jquery_8.png"> <p><strong>Hinweis:</strong> Da wir jQuery Mobile verwenden, empfehle ich die Verwendung eines Webkit-basierten Browsers oder eines iPhone / Android-Handys (Simulator), um bessere Ergebnisse zu erzielen.</p> <hr> <h2> Schritt 4: Videos anzeigen</h2> <p>Lassen Sie uns eine Ansicht für unsere erstellen <code>/sehen</code> Route. Erstellen <code>Ansichten / Video.Jade</code> und fügen Sie den folgenden Code hinzu:</p> <pre>div (data-role = 'page') Header (data-role = 'header') h1 = title div (data-role = 'content') // Unser Video div # video // Iframe von youtube, das dem Recht dient Medienobjekt für das verwendete Gerät iframe (width = "100%", height = 215, src = "http://www.youtube.com/embed/" + vid, frameborder = "0", allowfullscreen)</pre> <p>Gehen Sie wieder zu Ihrem Terminal, starten Sie den Server neu, laden Sie die Seite neu und klicken Sie auf eines der aufgelisteten Elemente. Diesmal wird eine Videoseite angezeigt und Sie können das eingebettete Video abspielen!</p> <img src="//accentsconagua.com/img/images_26/how-to-scrape-web-pages-with-nodejs-and-jquery_9.png"> <hr> <h2> Bonus: Verwenden Sie Forever, um Ihren Server auszuführen</h2> <p>Es gibt Möglichkeiten, wie wir unseren Server im Hintergrund laufen lassen können, aber es gibt eine, die ich vorziehen möchte, genannt Forever, ein Knotenmodul, das wir einfach installieren können <code>npm</code>:</p> <pre>npm für immer installieren -g</pre> <p>Dadurch wird Forever global installiert. Starten wir unsere nodeTube-Anwendung:</p> <pre>Für immer App.js starten</pre> <img src="//accentsconagua.com/img/images_26/how-to-scrape-web-pages-with-nodejs-and-jquery_10.png"> <p>Sie können Ihren Server auch neu starten, benutzerdefinierte Protokolldateien verwenden und Umgebungsvariablen unter anderem weitergeben:</p> <pre>// Führen Sie Ihre Anwendung im Produktionsmodus aus. NODE_ENV = production startet app.js für immer</pre> <hr> <h2>Abschließende Gedanken</h2> <p> Ich hoffe, ich habe gezeigt, wie einfach es ist, Node.js, Express und npm zu verwenden. Außerdem haben Sie gelernt, wie Sie Knotenmodule installieren, Routen zu Express hinzufügen, Remote-Seiten mithilfe des Anforderungsmoduls abrufen und viele andere hilfreiche Techniken. </p> <p> Wenn Sie Anmerkungen oder Fragen haben, teilen Sie mir dies bitte im Abschnitt "Kommentare" mit!</p> <div class="rek-block"> <center> <ins class="adsbygoogle" style="display:inline-block;width:580px;height:400px" data-ad-client="ca-pub-3810161443300697" data-ad-slot="9434875811"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </center> </div> <div class="h-alltags"> <a href="articles/code">Code</a> </div> </div> </div> </div> </div> <div class="next_posts clearfix"> <div class="n_post"> <div class="next_posts-h1 left_nh1"><a href="/articles/computers/how-to-screencast-for-free.html">Wie Screencast kostenlos</a></div> <div class="next_posts-img" style="background-image: url('//accentsconagua.com/img/images_15/how-to-screencast-for-free_2.jpg');"></div> </div> <div class="n_post"> <div class="next_posts-h1 right_nh1"><a href="/articles/code/how-to-scrape-web-pages-for-metadata.html">So kratzen Sie Webseiten für Metadaten ab</a></div> <div class="next_posts-img" style="background-image: url('//accentsconagua.com/img/images_6/how-to-scrape-web-pages-for-metadata.png');"></div> </div> </div> <footer> <div class="container"> <div class="footer-langs"> <ul class="site-langs-list"> <li><a href="https://www.accentsconagua.com"><i class="flag flag-DE"></i>Deutsch</a></li> <li><a href="https://fr.accentsconagua.com"><i class="flag flag-FR"></i>Français</a></li> <li><a href="https://nl.accentsconagua.com"><i class="flag flag-NL"></i>Nederlands</a></li> <li><a href="https://no.accentsconagua.com"><i class="flag flag-NO"></i>Norsk</a></li> <li><a href="https://sv.accentsconagua.com"><i class="flag flag-SE"></i>Svenska</a></li> <li><a href="https://it.accentsconagua.com"><i class="flag flag-IT"></i>Italiano</a></li> <li><a href="https://es.accentsconagua.com"><i class="flag flag-ES"></i>Español</a></li> <li><a href="https://ro.accentsconagua.com"><i class="flag flag-RO"></i>Românesc</a></li> </ul> </div> <div class="h-block"><a href="/">accentsconagua.com</a><div class="h-block-a"></div></div> <div class="footer-text"> Interessante Informationen und nützliche Tipps zur Programmierung. Website-Entwicklung, Webdesign und Webentwicklung. Photoshop-Tutorials. Erstellung von Computerspielen und mobilen Anwendungen. Werden Sie von Grund auf professioneller Programmierer. </div> </div> </footer> <div class="search"> <img class="searchico" src="//accentsconagua.com/img/search.svg" alt=""> </div> <div class="modal"> <div class="modal-content"> <span class="close-button">×</span> <input class="searchmain" type="text" id="search-input" placeholder="Suche..."> <ul class="searchli" id="results-container"></ul> </div> </div> <link rel="stylesheet" href="css/flags.css"> <link rel="stylesheet" type="text/css" href="//cdnjs.cloudflare.com/ajax/libs/cookieconsent2/3.1.0/cookieconsent.min.css" /> <script src="//cdnjs.cloudflare.com/ajax/libs/cookieconsent2/3.1.0/cookieconsent.min.js"></script> <script> window.addEventListener("load", function(){ window.cookieconsent.initialise({ "palette": { "popup": { "background": "#edeff5", "text": "#838391" }, "button": { "background": "#4b81e8" } }, "theme": "classic", "position": "bottom-right" })}); </script> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <script src="js/scripts.min.js"></script> <script src="js/common.js"></script> <link rel="stylesheet" href="css/fontawesome-all.min.css"> <script> var modal = document.querySelector(".modal"); var trigger = document.querySelector(".search"); var closeButton = document.querySelector(".close-button"); function toggleModal() { modal.classList.toggle("show-modal"); } function windowOnClick(event) { if (event.target === modal) { toggleModal(); } } trigger.addEventListener("click", toggleModal); closeButton.addEventListener("click", toggleModal); window.addEventListener("click", windowOnClick); </script> <script src="https://unpkg.com/simple-jekyll-search@1.5.0/dest/simple-jekyll-search.min.js"></script> <script> SimpleJekyllSearch({ searchInput: document.getElementById('search-input'), resultsContainer: document.getElementById('results-container'), json: '/search.json', searchResultTemplate: '<li><a href="{url}">{title}</a></li>' }) </script> <script src="jquery.unveil2.min.js"></script> <script> $('img').unveil(); </script> </body> </html>