互联网下载管理器Grabber采集器向导

互联网下载管理器Grabber采集器向导

步骤1.设置起始页

在向导的第一步,您应该指定起始页。默认情况下,采用http协议;必须明确指定其他协议(例如https)。起始页还设置了当前站点。例如,如果您指定http://www.tonec.com/support/index.html,则当前站点将是www.tonec.com,并将所有受支持的协议(如ftp,https,http)应用到该站点名称。

采集器第1步对话框

如果站点需要授权,则还应该在此步骤上设置登录名和密码。某些网站仅允许在特定页面上进行身份验证后才浏览/下载。在这种情况下,应按“高级>>”按钮,选中“手动输入登录名和密码”框,然后指定要登录到该站点的页面。另外,如果该站点具有注销按钮,则应在此处指定不应打开Grabber的注销页面。如果设置了登录页面,则Grabber将在第四步之后打开浏览器窗口,并让您手动登录该站点,然后继续进行浏览和下载。

如果打算保存采集卡项目供以后使用,则需要选择一个唯一的项目名称,然后在对话框顶部的“采集项目名称”字段中输入它。项目名称显示在IDM主对话框的类别树中的已保存项目列表中。

如果需要从网站下载所有图片,视频或音频文件,或下载完整的网站,则可以在“项目模板”列表框中选择适当的模板。由于所有必需的设置都是自动进行的,因此项目模板使快速启动项目变得容易。

但是没有必要选择项目模板。项目模板为采集卡向导的下一步在项目中进行了预定义的设置。如果从具有相同Grabber设置的网站下载文件,则可以在此步骤中选择“自定义”模板,在下一阶段进行必要的设置,然后通过选择“项目”->“保存当前设置”将设置另存为模板。作为模板”菜单项。

步骤2.选择要将文件保存到的位置。

在第二步中,您需要选择保存所有下载文件的位置。

采集卡第2步对话框

您可以根据文件类别将每个文件保存到文件夹。例如,如果您定义了“压缩文件”类别,其中列出了zip arj和rar文件类型,并且它具有关联的文件夹,例如c:\ mydocuments \ myname \ downloads \ compressed,则所有下载的zip,arj和rar文件将保存到c:\ mydocuments \ myname \ downloads \ compressed文件夹。

您也可以将所有下载的文件保存到与选定类别关联的文件夹中。您将需要选择相应的单选按钮,然后选择一个类别。抓取程序将在类别下方找到并显示目录。

如果要创建网站上创建的所有文件夹,则可以选择保存所有下载文件的目录,然后选中“使用原始相对子文件夹”框。

如果要下载完整的网站或网站的一部分,则可以选中此框以将链接转换为本地以供脱机浏览。当您在第一步中选择不需要保存任何html页面的模板时,例如““来自网站的所有图像””模板,该复选框将被禁用。在下载所有选定文件或停止采集器之后,采集器会将每个下载网页的链接转换为已下载文件的本地相关文件。抓取器还将所有未下载文件的链接(远程文件)转换为绝对Internet链接。

如果未选中“覆盖现有文件”框,并且已经存在相同名称的文件,则抓取程序将在文件名中添加下划线和数字,例如index_2.html。

不必选中“将检查的文件添加到IDM”复选框,Grabber窗口的主工具栏上有一个具有相同功能的按钮,可以将所有选定的文件添加到Internet Download Manager的主下载列表中。如果选中此复选框,采集卡将在关闭采集卡时自动将所选文件添加到IDM。

步骤3.设置文件过滤器。

在此步骤中,您应指定要浏览哪些网页以搜索所需文件。请注意,您仅为浏览的网页设置了条件。您可以在下一步中为下载的文件设置文件类型,位置和其他过滤器。

采集器第3步对话框

您在第一步中指定的起始页面设置了要浏览的当前站点。例如,如果您指定了http://www.tonec.com/support/index.html,则当前站点将是www.tonec.com,并将所有受支持的协议应用于该站点名称,例如https://www.tonec.com。和ftp://www.tonec.com。在此步骤中,您可以告诉Grabber仅在当前站点上查找所有文件,或者可以指定要在当前(此)站点上处理的网页级别数,以及要在其他站点上处理的网页级别数。网站。单击以了解链接级别的数量。请谨慎设置其他站点的级别,因为这可能会减慢IDM显示无用文件的速度,并可能导致处理数以百万计的不必要页面。

如果选中“忽略弹出窗口”框,则Grabber将不会浏览页面加载期间在浏览器中弹出的网页。请注意,弹出窗口术语不适用于Grabber,它适用于Web浏览器。采集卡不会打开任何浏览器窗口,除非您使用的是手动身份验证。

如果起始网页具有相对于站点名称的路径(例如http://www.tonec.com/support/index.html),则“不要浏览父目录”复选框将处于活动状态。如果选中“不浏览父目录”框,则Grabber将不会浏览相对于起始页面的父目录。例如,对于http://www.tonec.com/support/index.html,抓取程序将不会浏览http://www.tonec.com/index.html和http://www.tonec.com/other /index.html,但将浏览http://www.tonec.com/support/file.html和http://www.tonec.com/support/other/index.html

如果选中“浏览主域中的所有站点”框,则Grabber将浏览与起始页域具有相同部分的所有其他域。例如,对于http://www.tonec.com/support/index.html,抓取程序将浏览http://tonec.com http://ftp.tonec.com和http://some.other.domain。 tonec.com。在子域上,Grabber将浏览为当前站点指定的级别数。

采集卡还可以在页面上运行Java脚本并解析其结果。这样,您可以从站点检索更多链接,但是您应谨慎使用此功能

如果单击“高级>>”按钮,对话框将展开,并允许您为需要浏览页面的域/路径指定包含和排除过滤器。您可以使用星号通配符匹配任意数量的任何字符来创建一个过滤模式。

步骤4.设置站点资源管理器过滤器。

在此步骤中,您应该为下载的文件设置文件类型,位置和其他过滤器。您可以为所有文件类型设置包含和排除过滤器。

采集卡第4步对话框

如果您对预定义的过滤器不满意,可以使用“添加过滤器”按钮添加/更改它们。单击“添加过滤器”后,将出现以下“编辑过滤器”对话框。

采集器过滤器

对于包含多个文件类型的过滤器,文件类型元素应以逗号分隔,没有空格。星号通配符(*)表示任意数量的任何字符。使用通配符,您可以创建与多个文件名匹配的模式,例如“ image * .jpg”模式与从“ image”字词开始的任何jpg图像文件名匹配,例如image01.jpg,image2.jpg,imageHot.jpg和image735.jpg 。可以在过滤器中使用“ <起始页>”表达式来指定在第一步中设置的起始页。

如果选中“仅在此站点上搜索文件”复选框,则位于其他站点上的文件将不会显示在Grabber主窗口中,并且Grabber不会检查这些文件的大小和类型。

在探索项目期间,Grabber很可能会在不同位置找到同一文件的许多副本。如果选中“隐藏在不同位置找到的重复文件”,则抓取程序将仅显示找到的文件的第一份副本。如果文件名相同且大小相同,则抓取程序会将其视为副本。启用“使用原始相对子文件夹”选项时,将禁用此选项。

如果选中“立即开始下载所有匹配的文件”,则将立即下载所有找到的文件。您可以首先浏览该站点,检查所需文件,然后在Grabber主窗口中下载它们,或将其添加到IDM的主列表中。

“高级>>”按钮将展开对话框,并允许您为Grabber从中下载文件的路径/域设置包含和排除过滤器。您可以使用星号通配符(*)表示任意数量的任何字符。您还可以设置要下载的文件的最小和最大大小。

沪ICP备2020036959号-8